25 مدل برتر زبانی بزرگ در سال 2025

فهرست مطالب

مقدمه
LLM-های برتر فعلی
1. BERT
2. Claude
3. Cohere
4. DeepSeek-R1
5. Ernie
6. Falcon
7. Gemini
8. Gemma
9. GPT-3
10. GPT-3.5
11. GPT-4
12. GPT-4o
13. Granite
14. Lamda
15. Llama
16. Mistral
17. o1
18. o3
19. Orca
20. Palm
21. Phi
22. Qwen
23. StableLM
24. Tülu 3
25. Vicuna 33B
26. Yi
27. XGLM
28. OLMo

مقدمه

مدل‌های زبانی بزرگ سال‌هاست که بر جستجو تأثیر گذاشته‌اند و با ChatGPT و سایر چت‌بات‌ها به خط مقدم آمده‌اند.

مدل‌های زبانی بزرگ، پشت پرده رونق هوش مصنوعی مولد هستند، در حالی که چند سالی است وجود داشتند و اخیرا به دلیل پیشرفتها توجه بیشتری به آنها شده است.

LLM-ها سیستم‌های هوش مصنوعی جعبه سیاه هستند که از یادگیری عمیق بر روی مجموعه‌داده‌های بسیار بزرگ برای درک و تولید متن جدید استفاده می‌کنند. LLM-های مدرن در سال 2014 شروع به شکل‌گیری کردند، زمانی که مکانیزم توجه — یک تکنیک یادگیری ماشین که برای تقلید از توجه شناختی انسان طراحی شده است — در یک مقاله تحقیقاتی با عنوان “Neural Machine Translation by Jointly Learning to Align and Translate” معرفی شد. در سال 2017، آن مکانیزم توجه با معرفی مدل ترنسفورمر در مقاله دیگری با عنوان “Attention Is All You Need” اصلاح شد.

برخی از شناخته‌شده‌ترین مدل‌های زبانی امروزی بر اساس مدل ترنسفورمر هستند، از جمله سری مدل‌های زبانی بزرگ generative pre-trained transformer معروف به GPT و bidirectional encoder representations from transformers ‏(BERT).

ChatGPT که بر روی مجموعه‌ای از مدل‌های زبانی از OpenAI اجرا می‌شود، تنها دو ماه پس از انتشارش در سال 2022، بیش از 100 میلیون کاربر را به خود جذب کرد. از آن زمان، بسیاری از مدل‌های رقیب منتشر شده‌اند. برخی متعلق به شرکت‌های بزرگ مانند گوگل، آمازون و مایکروسافت هستند؛ برخی دیگر متن‌باز هستند.پیگیری تحولات مداوم در این زمینه می‌تواند دشوار باشد. در اینجا برخی از تاثیرگذارترین مدل‌ها، هم گذشته و هم حال، آورده شده است. در این فهرست، مدل‌هایی وجود دارند که راه را برای رهبران امروزی هموار کرده‌اند و همچنین مدل‌هایی که می‌توانند تأثیر قابل توجهی در آینده داشته باشند.

LLM-های برتر فعلی

در زیر برخی از مرتبط‌ترین مدل‌های زبانی بزرگ امروزی آورده شده است. آن‌ها پردازش زبان طبیعی را انجام می‌دهند و بر معماری مدل‌های آینده تأثیر می‌گذارند.

BERT

BERT خانواده‌ای از LLM-ها است که گوگل در سال 2018 معرفی کرد. BERT یک مدل مبتنی بر ترنسفورمر است که می‌تواند توالی‌های داده را به توالی‌های دیگر داده تبدیل کند. معماری BERT یک پشته از رمزگذارهای ترنسفورمر است و دارای 342 میلیون پارامتر است. BERT بر روی یک مجموعه داده بزرگ از پیش آموزش داده شده و سپس برای انجام وظایف خاص همراه با استنتاج زبان طبیعی و شباهت متن جمله، فاین تیون (تنظیم دقیق) شده است. از آن برای بهبود درک پرس و جو در نسخه 2019 جستجوی گوگل استفاده شد.

Claude

LLM کلود بر هوش مصنوعی قانونمند تمرکز دارد، که خروجی‌های هوش مصنوعی را با مجموعه‌ای از اصول هدایت می‌کند که به دستیار هوش مصنوعی که آن را نیرو می‌دهد کمک می‌کند مفید، بی‌ضرر و دقیق باشد. Claude توسط شرکت Anthropic ایجاد شده است.

سه نسخه از Claude وجود دارد:

Opus
Haiku
Sonnet

آخرین نسخه از LLM کلود، Claude 3.7 Sonnet است که در فوریه 2025 منتشر شد. این مدل اولین مدل استدلال ترکیبی در بازار است که تفاوت‌های ظریف، طنز و دستورالعمل‌های پیچیده را بهتر از نسخه‌های قبلی درک می‌کند. همچنین دارای قابلیت‌های برنامه‌نویسی پیشرفته‌تری است، به‌خصوص در توسعه وب فرانت-اند. در کنار ابزار هوش مصنوعی برای استفاده از کامپیوتر، اکنون Claude Code نیز معرفی شده که یک ابزار خط فرمان برای کدنویسی عاملانه است. این مدل از طریق Claude.ai، اپلیکیشن Claude iOS، API و در تمام طرح‌های Claude شامل نسخه رایگان در دسترس است.

Cohere

Cohere یک پلتفرم هوش مصنوعی سازمانی است که چندین LLM از جمله Command، Rerank و Embed را ارائه می‌دهد. این LLM-ها را می‌توان به صورت سفارشی آموزش داد و برای مورد استفاده خاص یک شرکت، تنظیم دقیق یا فاین تیون کرد. شرکتی که LLM کوهر را ایجاد کرد، توسط یکی از نویسندگان مقاله “Attention Is All You Need” تأسیس شده است.

DeepSeek-R1

DeepSeek-R1 یک مدل استدلال متن‌باز برای وظایف با استدلال پیچیده، حل مسئله ریاضی و استنتاج منطقی است. این مدل از تکنیک‌های یادگیری تقویتی برای اصلاح توانایی استدلال خود و حل مسائل پیچیده استفاده می‌کند. DeepSeek-R1 می‌تواند از طریق خود-تأیید، استدلال زنجیره‌ای فکر و بازتاب، به حل مسئله حیاتی بپردازد.

Ernie

Ernie مدل زبانی بزرگ بایدو است که چت‌بات Ernie 4.0 را نیرو می‌دهد. این بات در آگوست 2023 منتشر شد و بیش از 45 میلیون کاربر را به خود جذب کرده است. شایعه شده است که Ernie دارای 10 تریلیون پارامتر است. این بات در زبان ماندارین بهترین عملکرد را دارد، اما در سایر زبان‌ها نیز توانمند است.

Falcon

Falcon خانواده‌ای از مدل‌های مبتنی بر ترنسفورمر است که توسط موسسه نوآوری فناوری توسعه یافته است. این مدل متن‌باز است و قابلیت‌های چند زبانه دارد. Falcon 2 در یک نسخه 11 میلیارد پارامتری موجود است که قابلیت‌های چندوجهی را برای متن و تصویر فراهم می‌کند.

سری Falcon 1 شامل یک جفت مدل بزرگتر با Falcon 40B و Falcon 180B است. مدل‌های Falcon در GitHub و همچنین در ارائه‌دهندگان ابری از جمله آمازون در دسترس هستند.

Gemini

Gemini خانواده‌ای از LLM-های گوگل است که چت‌بات این شرکت با همین نام را نیرو می‌بخشد. این مدل جایگزین Palm در تامین انرژی چت‌بات شد، که پس از تغییر مدل، از Bard به Gemini تغییر نام داد. مدل‌های Gemini چندوجهی هستند، به این معنی که می‌توانند تصاویر، صدا و ویدئو و همچنین متن را مدیریت کنند. Gemini همچنین در بسیاری از برنامه‌ها و محصولات گوگل ادغام شده است. این مدل در سه اندازه Ultra، Pro و Nano ارائه می‌شود. Ultra بزرگترین و توانمندترین مدل است، Pro مدل میان‌رده است و Nano کوچکترین مدل است که برای کارایی در وظایف روی دستگاه طراحی شده است.

از جمله جدیدترین مدل‌ها، به‌روزرسانی Gemini 1.5 Pro است که در می 2024 عرضه شد. Gemini به عنوان یک چت‌بات وب، سرویس Google Vertex AI و از طریق API در دسترس است. پیش‌نمایش‌های اولیه Gemini 2.0 Flash در دسامبر 2024 با قابلیت‌های تولید چندوجهی به‌روزرسانی‌شده در دسترس قرار گرفت.

Gemma

Gemma خانواده‌ای از مدل‌های زبانی متن‌باز از گوگل است که بر روی همان منابع Gemini آموزش داده شده‌اند. Gemma 2 در ژوئن 2024 در دو اندازه منتشر شد — یک مدل 9 میلیارد پارامتری و یک مدل 27 میلیارد پارامتری. مدل‌های Gemma را می‌توان به صورت محلی بر روی یک کامپیوتر شخصی اجرا کرد و همچنین در Google Vertex AI نیز در دسترس هستند.

همچنین در march 2025 گوگل نسخه جدید مدل‌های Gemma 3 را معرفی کرد که از 1B تا 27B پارامتر دارند. این مدل‌ها از متن و تصویر پشتیبانی می‌کنند (برای نسخه‌های 4B به بالا) و ظرفیت 128K توکن دارند. با بهینه‌سازی توکنایزر و پردازش 140+ زبان، عملکرد بهتری نسبت به نسل قبل ارائه می‌دهند. نسخه instruction-tuned 4B حتی از مدل 27B نسل قبلی قوی‌تر است!

GPT-3

GPT-3 مدل زبانی بزرگ OpenAI با بیش از 175 میلیارد پارامتر است که در سال 2020 منتشر شد. GPT-3 از معماری ترنسفورمر فقط رمزگشا استفاده می‌کند. در سپتامبر 2022، مایکروسافت اعلام کرد که استفاده انحصاری از مدل زیربنایی GPT-3 را دارد. GPT-3 ده برابر بزرگتر از نسخه قبلی خود است. داده‌های آموزشی GPT-3 شامل Common Crawl، WebText2، Books1، Books2 و Wikipedia است.

GPT-3 آخرین سری از مدل‌های GPT است که در آن OpenAI تعداد پارامترها را به صورت عمومی در دسترس قرار داد. سری GPT برای اولین بار در سال 2018 با مقاله OpenAI با عنوان “بهبود درک زبان با پیش‌آموزش مولد” معرفی شد.

GPT-3.5

GPT-3.5 یک نسخه ارتقا یافته از GPT-3 با پارامترهای کمتر است. GPT-3.5 با استفاده از یادگیری تقویتی از بازخورد انسانی تنظیم دقیق شده است. GPT-3.5 نسخه‌ای از GPT است که ChatGPT را نیرو می‌دهد. به گفته OpenAI، چندین مدل وجود دارد که GPT-3.5 turbo توانمندترین آنهاست. داده‌های آموزشی GPT-3.5 تا سپتامبر 2021 گسترش می‌یابد.

همچنین در موتور جستجوی Bing ادغام شده بود، اما از آن زمان با GPT-4 جایگزین شده است.

GPT-4

GPT-4 در سال 2023 منتشر شد و مانند سایر مدل‌های خانواده OpenAI GPT، یک مدل مبتنی بر ترنسفورمر است. برخلاف سایرین، تعداد پارامترهای آن به صورت عمومی منتشر نشده است، اگرچه شایعاتی وجود دارد که این مدل بیش از 170 تریلیون پارامتر دارد. OpenAI، مدل GPT-4 را به عنوان یک مدل چندوجهی توصیف می‌کند، به این معنی که می‌تواند هم زبان و هم تصاویر را پردازش و تولید کند، برخلاف محدود شدن به زبان. GPT-4 همچنین یک پیام سیستمی را معرفی کرد که به کاربران امکان می‌دهد لحن صدا و وظیفه را مشخص کنند.

GPT-4 عملکردی در سطح انسان در چندین آزمون آکادمیک نشان داد. در زمان انتشار این مدل، برخی گمانه‌زنی کردند که GPT-4 به هوش مصنوعی عمومی نزدیک شده است، به این معنی که به اندازه یک انسان باهوش یا باهوش‌تر است. این گمانه‌زنی بی‌اساس از آب درآمد.

GPT-4o

GPT-4 Omni ‏(GPT-4o) جانشین GPT-4 در OpenAI است و چندین بهبود را نسبت به مدل قبلی ارائه می‌دهد. GPT-4o یک تعامل انسانی طبیعی‌تر را برای ChatGPT ایجاد می‌کند و یک مدل چندوجهی بزرگ است که ورودی‌های مختلف از جمله صدا، تصویر و متن را می‌پذیرد. این مکالمات به کاربران این امکان را می‌دهد تا همانطور که در یک مکالمه عادی انسانی انجام می‌دهند، درگیر شوند و تعامل بلادرنگ نیز می‌تواند احساسات را دریافت کند. GPT-4o می‌تواند عکس‌ها یا صفحه‌ها را ببیند و در طول تعامل در مورد آنها سؤال بپرسد.

GPT-4o می‌تواند در 232 میلی‌ثانیه پاسخ دهد، مشابه زمان پاسخگویی انسان و سریع‌تر از GPT-4 Turbo است.

Granite

خانواده مدل‌های IBM Granite مدل‌های کاملاً متن‌باز تحت مجوز Apache v.2 هستند. اولین نسخه از مدل‌های متن‌باز در می 2024 عرضه شد و پس از آن Granite 3.0 در اکتبر و Granite 3.1 در دسامبر 2024 عرضه شدند.

انواع مختلفی در خانواده مدل‌های Granite وجود دارد، از جمله مدل‌های General-purpose (انواع 8B و 2B)، مدل guardrail و مدل‌های Mixture-of-Experts. در حالی که این مدل می‌تواند برای استقرارهای عمومی مورد استفاده قرار گیرد، خود IBM تمرکز و بهینه‌سازی را برای موارد استفاده سازمانی مانند خدمات مشتری، اتوماسیون فناوری اطلاعات و امنیت سایبری متمرکز می‌کند.

Lamda

Lamda (مدل زبانی برای کاربردهای گفتگویی) خانواده‌ای از LLM-ها است که توسط Google Brain در سال 2021 معرفی شد. Lamda از یک مدل زبانی ترنسفورمر فقط رمزگشا استفاده کرد و بر روی یک مجموعه بزرگ از متن از پیش آموزش داده شد. در سال 2022، LaMDA زمانی مورد توجه گسترده قرار گرفت که بلیک لموین، مهندس وقت گوگل، ادعاهایی را مبنی بر اینکه این برنامه دارای شعور است، علنی کرد. این مدل بر روی معماری Seq2Seq ساخته شده بود.

Llama

Large Language Model Meta AI ‏(Llama) مدل LLM متا است که برای اولین بار در سال 2023 منتشر شد. مدل‌های Llama 3.1 در ژوئیه 2024 منتشر شدند، از جمله یک مدل 405 میلیارد و 70 میلیارد پارامتری.

جدیدترین نسخه، Llama 3.2 است که در سپتامبر 2024 منتشر شد، در ابتدا با تعداد پارامترهای کوچکتر 11 میلیارد و 90 میلیارد.

Llama از معماری ترنسفورمر استفاده می‌کند و بر روی انواع منابع داده عمومی، از جمله صفحات وب از CommonCrawl، GitHub، Wikipedia و Project Gutenberg آموزش داده شده است. Llama به طور موثر نشت کرد و فرزندان زیادی را به وجود آورد، از جمله Vicuna و Orca. Llama تحت یک مجوز باز در دسترس است که امکان استفاده رایگان از مدل‌ها را فراهم می‌کند. مدل‌های Lllama در بسیاری از مکان‌ها از جمله llama.com و Hugging Face در دسترس هستند.

Mistral

Mistral خانواده‌ای از مدل‌های ترکیبی از متخصصان از Mistral AI است. از جمله جدیدترین مدل‌ها، Mistral Large 2 است که برای اولین بار در ژوئیه 2024 منتشر شد. این مدل با 123 میلیارد پارامتر و یک پنجره زمینه 128k عمل می‌کند و از ده‌ها زبان از جمله فرانسوی، آلمانی، اسپانیایی، ایتالیایی و بسیاری دیگر، همراه با بیش از 80 زبان برنامه‌نویسی پشتیبانی می‌کند.در نوامبر 2024، Mistral مدل Pixtral Large را منتشر کرد، یک مدل چندوجهی 124 میلیارد پارامتری که می‌تواند متن و داده‌های بصری را مدیریت کند. مدل‌های Mistral از طریق API میسترال در سرویس وب مدیریت شده Le Platforme آن در دسترس هستند.

o1

خانواده مدل‌های OpenAI o1 برای اولین بار در سپتامبر 2024 معرفی شد. تمرکز مدل o1 ارائه چیزی است که OpenAI به آن اشاره می‌کند – مدل‌های استدلال، که می‌توانند قبل از ارائه پاسخ، یک مسئله یا پرسش را استدلال کنند.

مدل‌های o1 در زمینه‌های STEM برتری دارند و نتایج قوی در استدلال ریاضی (کسب 83٪ در المپیاد بین‌المللی ریاضیات در مقایسه با 13٪ GPT-4o)، تولید کد و وظایف تحقیقات علمی دارند. در حالی که آنها استدلال پیشرفته و ویژگی‌های ایمنی بهبود یافته را ارائه می‌دهند، به دلیل فرآیندهای استدلال کامل خود کندتر از مدل‌های قبلی عمل می‌کنند و دارای محدودیت‌های خاصی هستند، مانند ویژگی‌های دسترسی محدود و هزینه‌های API بالاتر. این مدل‌ها برای کاربران ChatGPT Plus و Team با سطوح دسترسی متفاوت برای دسته‌های کاربری مختلف در دسترس هستند.

o3

OpenAI مدل جانشین، o3 را در دسامبر 2024 معرفی کرد. به گفته OpenAI، مدل o3 برای انجام وظایف با تفکر تحلیلی بیشتر، حل مسئله و استدلال پیچیده طراحی شده است و قابلیت‌ها و عملکرد o1 را بهبود می‌بخشد. مدل o3 در حالت آزمایش ایمنی است و در حال حاضر برای عموم در دسترس نیست.

Orca

Orca توسط مایکروسافت توسعه یافته است و دارای 13 میلیارد پارامتر است، به این معنی که به اندازه کافی کوچک است که روی یک لپ‌تاپ اجرا شود. هدف آن بهبود پیشرفت‌های ایجاد شده توسط سایر مدل‌های متن‌باز با تقلید از رویه‌های استدلالی است که توسط LLM-ها به دست آمده است. Orca با پارامترهای بسیار کمتر به همان عملکرد GPT-4 دست می‌یابد و برای بسیاری از وظایف در سطح GPT-3.5 است. Orca بر روی نسخه 13 میلیارد پارامتری Llama ساخته شده است.

Palm

The Pathways Language Model یک مدل مبتنی بر ترنسفورمر 540 میلیارد پارامتری از گوگل است که چت‌بات هوش مصنوعی آن، Bard را نیرو می‌دهد. این مدل در چندین TPU 4 Pod — سخت‌افزار سفارشی گوگل برای یادگیری ماشین — آموزش داده شده است. Palm در وظایف استدلالی مانند کدنویسی، ریاضیات، طبقه‌بندی و پاسخ به سؤالات تخصص دارد. Palm همچنین در تجزیه وظایف پیچیده به زیروظایف ساده‌تر برتری دارد.

PaLM نام خود را از یک ابتکار تحقیقاتی گوگل برای ساخت Pathways گرفته است، که در نهایت یک مدل واحد ایجاد می‌کند که به عنوان پایه‌ای برای موارد استفاده متعدد عمل می‌کند. چندین نسخه تنظیم دقیق شده از Palm وجود دارد، از جمله Med-Palm 2 برای علوم زیستی و اطلاعات پزشکی و همچنین Sec-Palm برای استقرارهای امنیت سایبری برای سرعت بخشیدن به تجزیه و تحلیل تهدید.

Phi

Phi یک مدل زبانی مبتنی بر ترنسفورمر از مایکروسافت است. مدل‌های Phi 3.5 برای اولین بار در آگوست 2024 منتشر شدند.

این سری شامل Phi-3.5-mini-instruct (3.82 میلیارد پارامتر)، Phi-3.5-MoE-instruct (41.9 میلیارد پارامتر) و Phi-3.5-vision-instruct (4.15 میلیارد پارامتر) است که هر کدام برای وظایف خاصی از استدلال اساسی تا تجزیه و تحلیل دیداری طراحی شده‌اند. هر سه مدل از طول زمینه 128k توکن پشتیبانی می‌کنند.

آنها که تحت مجوز MIT با نام تجاری مایکروسافت منتشر شده‌اند، برای توسعه‌دهندگان در دسترس هستند تا بدون محدودیت، از جمله برای اهداف تجاری، دانلود، استفاده و اصلاح کنند.

Qwen

Qwen خانواده بزرگی از مدل‌های باز است که توسط غول اینترنتی چینی Alibaba Cloud توسعه یافته است. جدیدترین مجموعه مدل‌ها، مجموعه Qwen2.5 است که از 29 زبان مختلف پشتیبانی می‌کند و در حال حاضر تا 72 میلیارد پارامتر مقیاس دارد. این مدل‌ها برای طیف گسترده‌ای از وظایف، از جمله تولید کد، درک داده‌های ساختاریافته، حل مسئله ریاضی و همچنین درک و تولید زبان عمومی مناسب هستند.

StableLM

StableLM مجموعه‌ای از مدل‌های زبانی باز است که توسط Stability AI، شرکتی که در پشت تولیدکننده تصویر Stable Diffusion قرار دارد، توسعه یافته است.

StableLM 2 در ژانویه 2024 در ابتدا با یک مدل 1.6 میلیارد پارامتری عرضه شد. در آوریل 2024، این مدل گسترش یافت تا شامل یک مدل 12 میلیارد پارامتری نیز شود. StableLM 2 از هفت زبان پشتیبانی می‌کند: انگلیسی، اسپانیایی، آلمانی، ایتالیایی، فرانسوی، پرتغالی و هلندی. Stability AI این مدل‌ها را به عنوان ارائه گزینه‌های مختلف برای موارد استفاده مختلف قرار می‌دهد، به طوری که مدل 1.6B برای وظایف خاص و محدود و پردازش سریع‌تر مناسب است، در حالی که مدل 12B قابلیت بیشتری را ارائه می‌دهد اما به منابع محاسباتی بیشتری نیاز دارد.

Tülu 3

Tülu 3 موسسه هوش مصنوعی آلن یک LLM متن‌باز 405 میلیارد پارامتری است. مدل Tülu 3 405B دارای روش‌های پس از آموزش است که آموزش دقیق نظارت شده و یادگیری تقویتی را در مقیاس بزرگتر ترکیب می‌کند. Tülu 3 از یک چارچوب “یادگیری تقویتی از پاداش‌های قابل تأیید” برای وظایف تنظیم دقیق با نتایج قابل تأیید — مانند حل مسائل ریاضی و پیروی از دستورالعمل‌ها — استفاده می‌کند.

Vicuna 33B

Vicuna یکی دیگر از LLMهای متن‌باز تاثیرگذار است که از Llama گرفته شده است. این مدل توسط LMSYS توسعه یافته و با استفاده از داده‌های sharegpt.com تنظیم دقیق شده است. طبق چندین معیار، این مدل کوچکتر و کم‌توان‌تر از GPT-4 است، اما برای مدلی با این اندازه عملکرد خوبی دارد. Vicuna تنها 33 میلیارد پارامتر دارد، در حالی که GPT-4 تریلیون‌ها پارامتر دارد.

Yi

Yi یک مدل زبانی بزرگ است که توسط 01.AI توسعه یافته است. این مدل در دو نسخه موجود است: Yi-34B و Yi-6B. Yi-34B یک مدل 34 میلیارد پارامتری است که در بین مدل‌های متن‌باز عملکرد خوبی دارد. Yi-6B یک مدل 6 میلیارد پارامتری است که برای اجرا در دستگاه‌های با منابع محدود طراحی شده است. مدل‌های Yi از معماری ترنسفورمر استفاده می‌کنند و بر روی مجموعه داده‌های بزرگی از متن آموزش داده شده‌اند.

XGLM

XGLM یک مدل زبانی بزرگ است که توسط مایکروسافت توسعه یافته است. این مدل یک مدل چند زبانه است که می‌تواند به 49 زبان مختلف تولید متن کند. XGLM یک مدل 7.5 میلیارد پارامتری است که بر روی یک مجموعه داده بزرگ از متن آموزش داده شده است.

OLMo

OLMo یک مدل زبانی بزرگ است که توسط Allen Institute for AI توسعه یافته است. این مدل متن‌باز است و برای اهداف تحقیقاتی در دسترس قرار گرفته است. OLMo بر روی یک مجموعه داده بزرگ و با کیفیت از متن آموزش داده شده است و در انجام وظایف مختلف پردازش زبان طبیعی، از جمله تولید متن، ترجمه ماشینی و پاسخ به سؤالات، عملکرد خوبی دارد. مدل 32 میلیارد پارامتری OLMo 2، اولین مدل کاملا متن‌ بازه که عملکرد بهتری از GPT 3.5 و نسخه کوچک GPT 4o داره.

تمام اجزای این مدل به صورت متن باز منتشر شده شامل کد آموزش، داده‌های آموزشی و …

https://allenai.org/blog/olmo2-32B

25 مدل برتر زبانی بزرگ در سال 2025

فهرست مطالب

مقدمه

LLM-های برتر فعلی