مجموعهدادهی The Stack
خلاصه مجموعه داده
مجموعه دادهی The Stack v2 شامل بیش از 3 میلیارد فایل در بیش از 600 زبان برنامهنویسی و markup language است. این مجموعه داده به عنوان بخشی از پروژه BigCode ایجاد شده است، یک همکاری علمی باز که بر روی توسعه مسئولانه مدلهای زبانی بزرگ برای کد (Code LLMs) کار میکند. The Stack به عنوان مجموعه داده pre-train برای Code LLMs خدمت میکند، یعنی سیستمهای تولیدکننده کد که امکان تولید برنامهها از توضیحات زبان طبیعی و همچنین از قطعات کد دیگر را فراهم میکنند.
این مجموعه داده از بایگانی Software Heritage، بزرگترین بایگانی عمومی کد منبع نرمافزار و تاریخچه توسعه همراه آن استخراج شده است. Software Heritage یک ابتکار باز و غیرانتفاعی است که برای جمعآوری، حفظ و به اشتراکگذاری کد منبع تمام نرمافزارهای عمومی قابل دسترس راهاندازی شده است. این پروژه توسط Inria، با همکاری یونسکو آغاز شده است. ما از Software Heritage برای ارائه دسترسی به این منبع ارزشمند قدردانی میکنیم. برای جزئیات بیشتر، به وبسایت Software Heritage مراجعه کنید.
لازم به ذکر است این مجموعه داده شامل 658 زبان است.
لینک اصلی دیتاست : https://huggingface.co/datasets/bigcode/the-stack-v2
دیدگاهتان را بنویسید