25 مدل برتر زبانی بزرگ در سال 2025

فهرست مطالب
مقدمه
مدلهای زبانی بزرگ سالهاست که بر جستجو تأثیر گذاشتهاند و با ChatGPT و سایر چتباتها به خط مقدم آمدهاند.
مدلهای زبانی بزرگ، پشت پرده رونق هوش مصنوعی مولد هستند، در حالی که چند سالی است وجود داشتند و اخیرا به دلیل پیشرفتها توجه بیشتری به آنها شده است.
LLM-ها سیستمهای هوش مصنوعی جعبه سیاه هستند که از یادگیری عمیق بر روی مجموعهدادههای بسیار بزرگ برای درک و تولید متن جدید استفاده میکنند. LLM-های مدرن در سال 2014 شروع به شکلگیری کردند، زمانی که مکانیزم توجه — یک تکنیک یادگیری ماشین که برای تقلید از توجه شناختی انسان طراحی شده است — در یک مقاله تحقیقاتی با عنوان “Neural Machine Translation by Jointly Learning to Align and Translate” معرفی شد. در سال 2017، آن مکانیزم توجه با معرفی مدل ترنسفورمر در مقاله دیگری با عنوان “Attention Is All You Need” اصلاح شد.
برخی از شناختهشدهترین مدلهای زبانی امروزی بر اساس مدل ترنسفورمر هستند، از جمله سری مدلهای زبانی بزرگ generative pre-trained transformer معروف به GPT و bidirectional encoder representations from transformers (BERT).
ChatGPT که بر روی مجموعهای از مدلهای زبانی از OpenAI اجرا میشود، تنها دو ماه پس از انتشارش در سال 2022، بیش از 100 میلیون کاربر را به خود جذب کرد. از آن زمان، بسیاری از مدلهای رقیب منتشر شدهاند. برخی متعلق به شرکتهای بزرگ مانند گوگل، آمازون و مایکروسافت هستند؛ برخی دیگر متنباز هستند.پیگیری تحولات مداوم در این زمینه میتواند دشوار باشد. در اینجا برخی از تاثیرگذارترین مدلها، هم گذشته و هم حال، آورده شده است. در این فهرست، مدلهایی وجود دارند که راه را برای رهبران امروزی هموار کردهاند و همچنین مدلهایی که میتوانند تأثیر قابل توجهی در آینده داشته باشند.
LLM-های برتر فعلی
در زیر برخی از مرتبطترین مدلهای زبانی بزرگ امروزی آورده شده است. آنها پردازش زبان طبیعی را انجام میدهند و بر معماری مدلهای آینده تأثیر میگذارند.
BERT
BERT خانوادهای از LLM-ها است که گوگل در سال 2018 معرفی کرد. BERT یک مدل مبتنی بر ترنسفورمر است که میتواند توالیهای داده را به توالیهای دیگر داده تبدیل کند. معماری BERT یک پشته از رمزگذارهای ترنسفورمر است و دارای 342 میلیون پارامتر است. BERT بر روی یک مجموعه داده بزرگ از پیش آموزش داده شده و سپس برای انجام وظایف خاص همراه با استنتاج زبان طبیعی و شباهت متن جمله، فاین تیون (تنظیم دقیق) شده است. از آن برای بهبود درک پرس و جو در نسخه 2019 جستجوی گوگل استفاده شد.
Claude
LLM کلود بر هوش مصنوعی قانونمند تمرکز دارد، که خروجیهای هوش مصنوعی را با مجموعهای از اصول هدایت میکند که به دستیار هوش مصنوعی که آن را نیرو میدهد کمک میکند مفید، بیضرر و دقیق باشد. Claude توسط شرکت Anthropic ایجاد شده است.
سه نسخه از Claude وجود دارد:
- Opus
- Haiku
- Sonnet
آخرین نسخه از LLM کلود، Claude 3.7 Sonnet است که در فوریه 2025 منتشر شد. این مدل اولین مدل استدلال ترکیبی در بازار است که تفاوتهای ظریف، طنز و دستورالعملهای پیچیده را بهتر از نسخههای قبلی درک میکند. همچنین دارای قابلیتهای برنامهنویسی پیشرفتهتری است، بهخصوص در توسعه وب فرانت-اند. در کنار ابزار هوش مصنوعی برای استفاده از کامپیوتر، اکنون Claude Code نیز معرفی شده که یک ابزار خط فرمان برای کدنویسی عاملانه است. این مدل از طریق Claude.ai، اپلیکیشن Claude iOS، API و در تمام طرحهای Claude شامل نسخه رایگان در دسترس است.
Cohere
Cohere یک پلتفرم هوش مصنوعی سازمانی است که چندین LLM از جمله Command، Rerank و Embed را ارائه میدهد. این LLM-ها را میتوان به صورت سفارشی آموزش داد و برای مورد استفاده خاص یک شرکت، تنظیم دقیق یا فاین تیون کرد. شرکتی که LLM کوهر را ایجاد کرد، توسط یکی از نویسندگان مقاله “Attention Is All You Need” تأسیس شده است.
DeepSeek-R1
DeepSeek-R1 یک مدل استدلال متنباز برای وظایف با استدلال پیچیده، حل مسئله ریاضی و استنتاج منطقی است. این مدل از تکنیکهای یادگیری تقویتی برای اصلاح توانایی استدلال خود و حل مسائل پیچیده استفاده میکند. DeepSeek-R1 میتواند از طریق خود-تأیید، استدلال زنجیرهای فکر و بازتاب، به حل مسئله حیاتی بپردازد.
Ernie
Ernie مدل زبانی بزرگ بایدو است که چتبات Ernie 4.0 را نیرو میدهد. این بات در آگوست 2023 منتشر شد و بیش از 45 میلیون کاربر را به خود جذب کرده است. شایعه شده است که Ernie دارای 10 تریلیون پارامتر است. این بات در زبان ماندارین بهترین عملکرد را دارد، اما در سایر زبانها نیز توانمند است.
Falcon
Falcon خانوادهای از مدلهای مبتنی بر ترنسفورمر است که توسط موسسه نوآوری فناوری توسعه یافته است. این مدل متنباز است و قابلیتهای چند زبانه دارد. Falcon 2 در یک نسخه 11 میلیارد پارامتری موجود است که قابلیتهای چندوجهی را برای متن و تصویر فراهم میکند.
سری Falcon 1 شامل یک جفت مدل بزرگتر با Falcon 40B و Falcon 180B است. مدلهای Falcon در GitHub و همچنین در ارائهدهندگان ابری از جمله آمازون در دسترس هستند.
Gemini
Gemini خانوادهای از LLM-های گوگل است که چتبات این شرکت با همین نام را نیرو میبخشد. این مدل جایگزین Palm در تامین انرژی چتبات شد، که پس از تغییر مدل، از Bard به Gemini تغییر نام داد. مدلهای Gemini چندوجهی هستند، به این معنی که میتوانند تصاویر، صدا و ویدئو و همچنین متن را مدیریت کنند. Gemini همچنین در بسیاری از برنامهها و محصولات گوگل ادغام شده است. این مدل در سه اندازه Ultra، Pro و Nano ارائه میشود. Ultra بزرگترین و توانمندترین مدل است، Pro مدل میانرده است و Nano کوچکترین مدل است که برای کارایی در وظایف روی دستگاه طراحی شده است.
از جمله جدیدترین مدلها، بهروزرسانی Gemini 1.5 Pro است که در می 2024 عرضه شد. Gemini به عنوان یک چتبات وب، سرویس Google Vertex AI و از طریق API در دسترس است. پیشنمایشهای اولیه Gemini 2.0 Flash در دسامبر 2024 با قابلیتهای تولید چندوجهی بهروزرسانیشده در دسترس قرار گرفت.
Gemma
Gemma خانوادهای از مدلهای زبانی متنباز از گوگل است که بر روی همان منابع Gemini آموزش داده شدهاند. Gemma 2 در ژوئن 2024 در دو اندازه منتشر شد — یک مدل 9 میلیارد پارامتری و یک مدل 27 میلیارد پارامتری. مدلهای Gemma را میتوان به صورت محلی بر روی یک کامپیوتر شخصی اجرا کرد و همچنین در Google Vertex AI نیز در دسترس هستند.
همچنین در march 2025 گوگل نسخه جدید مدلهای Gemma 3 را معرفی کرد که از 1B تا 27B پارامتر دارند. این مدلها از متن و تصویر پشتیبانی میکنند (برای نسخههای 4B به بالا) و ظرفیت 128K توکن دارند. با بهینهسازی توکنایزر و پردازش 140+ زبان، عملکرد بهتری نسبت به نسل قبل ارائه میدهند. نسخه instruction-tuned 4B حتی از مدل 27B نسل قبلی قویتر است!
GPT-3
GPT-3 مدل زبانی بزرگ OpenAI با بیش از 175 میلیارد پارامتر است که در سال 2020 منتشر شد. GPT-3 از معماری ترنسفورمر فقط رمزگشا استفاده میکند. در سپتامبر 2022، مایکروسافت اعلام کرد که استفاده انحصاری از مدل زیربنایی GPT-3 را دارد. GPT-3 ده برابر بزرگتر از نسخه قبلی خود است. دادههای آموزشی GPT-3 شامل Common Crawl، WebText2، Books1، Books2 و Wikipedia است.
GPT-3 آخرین سری از مدلهای GPT است که در آن OpenAI تعداد پارامترها را به صورت عمومی در دسترس قرار داد. سری GPT برای اولین بار در سال 2018 با مقاله OpenAI با عنوان “بهبود درک زبان با پیشآموزش مولد” معرفی شد.
GPT-3.5
GPT-3.5 یک نسخه ارتقا یافته از GPT-3 با پارامترهای کمتر است. GPT-3.5 با استفاده از یادگیری تقویتی از بازخورد انسانی تنظیم دقیق شده است. GPT-3.5 نسخهای از GPT است که ChatGPT را نیرو میدهد. به گفته OpenAI، چندین مدل وجود دارد که GPT-3.5 turbo توانمندترین آنهاست. دادههای آموزشی GPT-3.5 تا سپتامبر 2021 گسترش مییابد.
همچنین در موتور جستجوی Bing ادغام شده بود، اما از آن زمان با GPT-4 جایگزین شده است.
GPT-4
GPT-4 در سال 2023 منتشر شد و مانند سایر مدلهای خانواده OpenAI GPT، یک مدل مبتنی بر ترنسفورمر است. برخلاف سایرین، تعداد پارامترهای آن به صورت عمومی منتشر نشده است، اگرچه شایعاتی وجود دارد که این مدل بیش از 170 تریلیون پارامتر دارد. OpenAI، مدل GPT-4 را به عنوان یک مدل چندوجهی توصیف میکند، به این معنی که میتواند هم زبان و هم تصاویر را پردازش و تولید کند، برخلاف محدود شدن به زبان. GPT-4 همچنین یک پیام سیستمی را معرفی کرد که به کاربران امکان میدهد لحن صدا و وظیفه را مشخص کنند.
GPT-4 عملکردی در سطح انسان در چندین آزمون آکادمیک نشان داد. در زمان انتشار این مدل، برخی گمانهزنی کردند که GPT-4 به هوش مصنوعی عمومی نزدیک شده است، به این معنی که به اندازه یک انسان باهوش یا باهوشتر است. این گمانهزنی بیاساس از آب درآمد.
GPT-4o
GPT-4 Omni (GPT-4o) جانشین GPT-4 در OpenAI است و چندین بهبود را نسبت به مدل قبلی ارائه میدهد. GPT-4o یک تعامل انسانی طبیعیتر را برای ChatGPT ایجاد میکند و یک مدل چندوجهی بزرگ است که ورودیهای مختلف از جمله صدا، تصویر و متن را میپذیرد. این مکالمات به کاربران این امکان را میدهد تا همانطور که در یک مکالمه عادی انسانی انجام میدهند، درگیر شوند و تعامل بلادرنگ نیز میتواند احساسات را دریافت کند. GPT-4o میتواند عکسها یا صفحهها را ببیند و در طول تعامل در مورد آنها سؤال بپرسد.
GPT-4o میتواند در 232 میلیثانیه پاسخ دهد، مشابه زمان پاسخگویی انسان و سریعتر از GPT-4 Turbo است.
Granite
خانواده مدلهای IBM Granite مدلهای کاملاً متنباز تحت مجوز Apache v.2 هستند. اولین نسخه از مدلهای متنباز در می 2024 عرضه شد و پس از آن Granite 3.0 در اکتبر و Granite 3.1 در دسامبر 2024 عرضه شدند.
انواع مختلفی در خانواده مدلهای Granite وجود دارد، از جمله مدلهای General-purpose (انواع 8B و 2B)، مدل guardrail و مدلهای Mixture-of-Experts. در حالی که این مدل میتواند برای استقرارهای عمومی مورد استفاده قرار گیرد، خود IBM تمرکز و بهینهسازی را برای موارد استفاده سازمانی مانند خدمات مشتری، اتوماسیون فناوری اطلاعات و امنیت سایبری متمرکز میکند.
Lamda
Lamda (مدل زبانی برای کاربردهای گفتگویی) خانوادهای از LLM-ها است که توسط Google Brain در سال 2021 معرفی شد. Lamda از یک مدل زبانی ترنسفورمر فقط رمزگشا استفاده کرد و بر روی یک مجموعه بزرگ از متن از پیش آموزش داده شد. در سال 2022، LaMDA زمانی مورد توجه گسترده قرار گرفت که بلیک لموین، مهندس وقت گوگل، ادعاهایی را مبنی بر اینکه این برنامه دارای شعور است، علنی کرد. این مدل بر روی معماری Seq2Seq ساخته شده بود.
Llama
Large Language Model Meta AI (Llama) مدل LLM متا است که برای اولین بار در سال 2023 منتشر شد. مدلهای Llama 3.1 در ژوئیه 2024 منتشر شدند، از جمله یک مدل 405 میلیارد و 70 میلیارد پارامتری.
جدیدترین نسخه، Llama 3.2 است که در سپتامبر 2024 منتشر شد، در ابتدا با تعداد پارامترهای کوچکتر 11 میلیارد و 90 میلیارد.
Llama از معماری ترنسفورمر استفاده میکند و بر روی انواع منابع داده عمومی، از جمله صفحات وب از CommonCrawl، GitHub، Wikipedia و Project Gutenberg آموزش داده شده است. Llama به طور موثر نشت کرد و فرزندان زیادی را به وجود آورد، از جمله Vicuna و Orca. Llama تحت یک مجوز باز در دسترس است که امکان استفاده رایگان از مدلها را فراهم میکند. مدلهای Lllama در بسیاری از مکانها از جمله llama.com و Hugging Face در دسترس هستند.
Mistral
Mistral خانوادهای از مدلهای ترکیبی از متخصصان از Mistral AI است. از جمله جدیدترین مدلها، Mistral Large 2 است که برای اولین بار در ژوئیه 2024 منتشر شد. این مدل با 123 میلیارد پارامتر و یک پنجره زمینه 128k عمل میکند و از دهها زبان از جمله فرانسوی، آلمانی، اسپانیایی، ایتالیایی و بسیاری دیگر، همراه با بیش از 80 زبان برنامهنویسی پشتیبانی میکند.در نوامبر 2024، Mistral مدل Pixtral Large را منتشر کرد، یک مدل چندوجهی 124 میلیارد پارامتری که میتواند متن و دادههای بصری را مدیریت کند. مدلهای Mistral از طریق API میسترال در سرویس وب مدیریت شده Le Platforme آن در دسترس هستند.
o1
خانواده مدلهای OpenAI o1 برای اولین بار در سپتامبر 2024 معرفی شد. تمرکز مدل o1 ارائه چیزی است که OpenAI به آن اشاره میکند – مدلهای استدلال، که میتوانند قبل از ارائه پاسخ، یک مسئله یا پرسش را استدلال کنند.
مدلهای o1 در زمینههای STEM برتری دارند و نتایج قوی در استدلال ریاضی (کسب 83٪ در المپیاد بینالمللی ریاضیات در مقایسه با 13٪ GPT-4o)، تولید کد و وظایف تحقیقات علمی دارند. در حالی که آنها استدلال پیشرفته و ویژگیهای ایمنی بهبود یافته را ارائه میدهند، به دلیل فرآیندهای استدلال کامل خود کندتر از مدلهای قبلی عمل میکنند و دارای محدودیتهای خاصی هستند، مانند ویژگیهای دسترسی محدود و هزینههای API بالاتر. این مدلها برای کاربران ChatGPT Plus و Team با سطوح دسترسی متفاوت برای دستههای کاربری مختلف در دسترس هستند.
o3
OpenAI مدل جانشین، o3 را در دسامبر 2024 معرفی کرد. به گفته OpenAI، مدل o3 برای انجام وظایف با تفکر تحلیلی بیشتر، حل مسئله و استدلال پیچیده طراحی شده است و قابلیتها و عملکرد o1 را بهبود میبخشد. مدل o3 در حالت آزمایش ایمنی است و در حال حاضر برای عموم در دسترس نیست.
Orca
Orca توسط مایکروسافت توسعه یافته است و دارای 13 میلیارد پارامتر است، به این معنی که به اندازه کافی کوچک است که روی یک لپتاپ اجرا شود. هدف آن بهبود پیشرفتهای ایجاد شده توسط سایر مدلهای متنباز با تقلید از رویههای استدلالی است که توسط LLM-ها به دست آمده است. Orca با پارامترهای بسیار کمتر به همان عملکرد GPT-4 دست مییابد و برای بسیاری از وظایف در سطح GPT-3.5 است. Orca بر روی نسخه 13 میلیارد پارامتری Llama ساخته شده است.
Palm
The Pathways Language Model یک مدل مبتنی بر ترنسفورمر 540 میلیارد پارامتری از گوگل است که چتبات هوش مصنوعی آن، Bard را نیرو میدهد. این مدل در چندین TPU 4 Pod — سختافزار سفارشی گوگل برای یادگیری ماشین — آموزش داده شده است. Palm در وظایف استدلالی مانند کدنویسی، ریاضیات، طبقهبندی و پاسخ به سؤالات تخصص دارد. Palm همچنین در تجزیه وظایف پیچیده به زیروظایف سادهتر برتری دارد.
PaLM نام خود را از یک ابتکار تحقیقاتی گوگل برای ساخت Pathways گرفته است، که در نهایت یک مدل واحد ایجاد میکند که به عنوان پایهای برای موارد استفاده متعدد عمل میکند. چندین نسخه تنظیم دقیق شده از Palm وجود دارد، از جمله Med-Palm 2 برای علوم زیستی و اطلاعات پزشکی و همچنین Sec-Palm برای استقرارهای امنیت سایبری برای سرعت بخشیدن به تجزیه و تحلیل تهدید.
Phi
Phi یک مدل زبانی مبتنی بر ترنسفورمر از مایکروسافت است. مدلهای Phi 3.5 برای اولین بار در آگوست 2024 منتشر شدند.
این سری شامل Phi-3.5-mini-instruct (3.82 میلیارد پارامتر)، Phi-3.5-MoE-instruct (41.9 میلیارد پارامتر) و Phi-3.5-vision-instruct (4.15 میلیارد پارامتر) است که هر کدام برای وظایف خاصی از استدلال اساسی تا تجزیه و تحلیل دیداری طراحی شدهاند. هر سه مدل از طول زمینه 128k توکن پشتیبانی میکنند.
آنها که تحت مجوز MIT با نام تجاری مایکروسافت منتشر شدهاند، برای توسعهدهندگان در دسترس هستند تا بدون محدودیت، از جمله برای اهداف تجاری، دانلود، استفاده و اصلاح کنند.
Qwen
Qwen خانواده بزرگی از مدلهای باز است که توسط غول اینترنتی چینی Alibaba Cloud توسعه یافته است. جدیدترین مجموعه مدلها، مجموعه Qwen2.5 است که از 29 زبان مختلف پشتیبانی میکند و در حال حاضر تا 72 میلیارد پارامتر مقیاس دارد. این مدلها برای طیف گستردهای از وظایف، از جمله تولید کد، درک دادههای ساختاریافته، حل مسئله ریاضی و همچنین درک و تولید زبان عمومی مناسب هستند.
StableLM
StableLM مجموعهای از مدلهای زبانی باز است که توسط Stability AI، شرکتی که در پشت تولیدکننده تصویر Stable Diffusion قرار دارد، توسعه یافته است.
StableLM 2 در ژانویه 2024 در ابتدا با یک مدل 1.6 میلیارد پارامتری عرضه شد. در آوریل 2024، این مدل گسترش یافت تا شامل یک مدل 12 میلیارد پارامتری نیز شود. StableLM 2 از هفت زبان پشتیبانی میکند: انگلیسی، اسپانیایی، آلمانی، ایتالیایی، فرانسوی، پرتغالی و هلندی. Stability AI این مدلها را به عنوان ارائه گزینههای مختلف برای موارد استفاده مختلف قرار میدهد، به طوری که مدل 1.6B برای وظایف خاص و محدود و پردازش سریعتر مناسب است، در حالی که مدل 12B قابلیت بیشتری را ارائه میدهد اما به منابع محاسباتی بیشتری نیاز دارد.
Tülu 3
Tülu 3 موسسه هوش مصنوعی آلن یک LLM متنباز 405 میلیارد پارامتری است. مدل Tülu 3 405B دارای روشهای پس از آموزش است که آموزش دقیق نظارت شده و یادگیری تقویتی را در مقیاس بزرگتر ترکیب میکند. Tülu 3 از یک چارچوب “یادگیری تقویتی از پاداشهای قابل تأیید” برای وظایف تنظیم دقیق با نتایج قابل تأیید — مانند حل مسائل ریاضی و پیروی از دستورالعملها — استفاده میکند.
Vicuna 33B
Vicuna یکی دیگر از LLMهای متنباز تاثیرگذار است که از Llama گرفته شده است. این مدل توسط LMSYS توسعه یافته و با استفاده از دادههای sharegpt.com تنظیم دقیق شده است. طبق چندین معیار، این مدل کوچکتر و کمتوانتر از GPT-4 است، اما برای مدلی با این اندازه عملکرد خوبی دارد. Vicuna تنها 33 میلیارد پارامتر دارد، در حالی که GPT-4 تریلیونها پارامتر دارد.
Yi
Yi یک مدل زبانی بزرگ است که توسط 01.AI توسعه یافته است. این مدل در دو نسخه موجود است: Yi-34B و Yi-6B. Yi-34B یک مدل 34 میلیارد پارامتری است که در بین مدلهای متنباز عملکرد خوبی دارد. Yi-6B یک مدل 6 میلیارد پارامتری است که برای اجرا در دستگاههای با منابع محدود طراحی شده است. مدلهای Yi از معماری ترنسفورمر استفاده میکنند و بر روی مجموعه دادههای بزرگی از متن آموزش داده شدهاند.
XGLM
XGLM یک مدل زبانی بزرگ است که توسط مایکروسافت توسعه یافته است. این مدل یک مدل چند زبانه است که میتواند به 49 زبان مختلف تولید متن کند. XGLM یک مدل 7.5 میلیارد پارامتری است که بر روی یک مجموعه داده بزرگ از متن آموزش داده شده است.
OLMo
OLMo یک مدل زبانی بزرگ است که توسط Allen Institute for AI توسعه یافته است. این مدل متنباز است و برای اهداف تحقیقاتی در دسترس قرار گرفته است. OLMo بر روی یک مجموعه داده بزرگ و با کیفیت از متن آموزش داده شده است و در انجام وظایف مختلف پردازش زبان طبیعی، از جمله تولید متن، ترجمه ماشینی و پاسخ به سؤالات، عملکرد خوبی دارد. مدل 32 میلیارد پارامتری OLMo 2، اولین مدل کاملا متن بازه که عملکرد بهتری از GPT 3.5 و نسخه کوچک GPT 4o داره.
تمام اجزای این مدل به صورت متن باز منتشر شده شامل کد آموزش، دادههای آموزشی و …
دیدگاهتان را بنویسید