هوش مصنوعی

شیائومی با مدل هوش مصنوعی MiMo رسماً وارد میدان رقابت شد

شرکت شیائومی با رونمایی از مدل هوش مصنوعی پیشرفته خود تحت عنوان MiMo، گامی بلند در عرصه رقابت هوش مصنوعی برداشته و نام خود را در کنار دیگر بزرگان فناوری جهان به ثبت رساند. این اقدام نشان‌دهنده توجه جدی این شرکت به پتانسیل‌های روزافزون هوش مصنوعی متن‌باز است.

شیائومی با معرفی رسمی MiMo، حضور خود را در این عرصه رقابتی اعلام کرد. MiMo صرفاً یک مدل زبانی بزرگ دیگر تلقی نمی‌شود؛ بلکه هدف اصلی شیائومی، ارتقای چشمگیر قابلیت‌های استدلال و منطق در این مدل نوظهور است.

توانایی‌های شگفت‌انگیز MiMo با وجود ابعاد نسبتاً کوچک

به گفته متخصصان شیائومی، MiMo یک مدل هوش مصنوعی با 7 میلیارد پارامتر است. این میزان در مقایسه با برخی از مدل‌های قدرتمند موجود، چندان بزرگ به نظر نمی‌رسد. با این حال، شیائومی ادعا می‌کند که MiMo در زمینه‌های استدلال ریاضی و تولید کد رایانه‌ای، عملکردی فراتر از حد انتظار ارائه می‌دهد. این شرکت تاکید دارد که MiMo در سطحی مشابه با مدل‌های به مراتب بزرگ‌تر عمل کرده و حتی توانایی رقابت با مدل‌هایی نظیر o1-mini متعلق به OpenAI و Qwen با 32 میلیارد پارامتر از شرکت علی‌بابا را داراست.

رمز موفقیت MiMo در بهینه‌سازی آموزش

دستیابی به چنین سطح از قابلیت استدلال توسط یک مدل با ابعاد کوچکتر، امری سهل و ممتنع نیست و شیائومی نیز به خوبی از این موضوع آگاه است. این شرکت در خصوص راز موفقیت این مدل اظهار داشته که این دستاورد ناشی از بهره‌گیری حداکثری از ظرفیت‌های نهفته در همان مدل پایه 7 میلیارد پارامتری است که شامل اتخاذ تدابیر بسیار هوشمندانه در هر دو مرحله پیش‌آموزش و پس‌آموزش می‌شود.

علاوه بر این، اندازه نسبتاً کوچک این مدل، یک مزیت بالقوه برای کسب‌وکارهایی محسوب می‌شود که از خوشه‌های عظیم GPU برخوردار نیستند.

رویکرد دقیق شیائومی در مدیریت داده‌های آموزشی

بنا به نظر می‌رسد که اساس کار MiMo، استفاده از یک فرآیند پیش‌آموزش به شدت بهینه‌سازی‌شده است. شیائومی اعلام کرده که تمرکز ویژه‌ای بر مدیریت داده‌های خود داشته‌اند. این امر شامل بهبود روش‌های پردازش داده‌های خام، ارتقای ابزارهای مورد استفاده برای استخراج متون مرتبط و استفاده از لایه‌های فیلترینگ متنوع می‌شود. بنابراین، رویکرد آن‌ها صرفاً تزریق داده‌ها به سیستم نبوده، بلکه انتخاب آن‌ها با دقت و وسواس فراوان صورت گرفته است.

شیائومی با مدل هوش مصنوعی MiMo رسماً وارد میدان رقابت شد

استراتژی سه مرحله‌ای آموزش و بهبود عملکرد

آن‌ها یک مجموعه داده تخصصی را گردآوری نمودند که تقریباً شامل 200 میلیارد توکن استدلال بود. در ادامه، یک استراتژی ترکیبی سه مرحله‌ای داده را به کار بستند و مدل را به تدریج در سه فاز و روی مجموعاً 25 تریلیون توکن آموزش دادند. آن‌ها همچنین از یک تکنیک به نام Multiple-Token Prediction بهره بردند که نه تنها عملکرد مدل را ارتقا داده، بلکه به آن کمک کرده تا پاسخ‌ها را با سرعت بیشتری تولید نماید.

بهینه‌سازی با یادگیری تقویتی برای حل مسائل پیچیده

پس از ایجاد ساختار اولیه، متخصصان شیائومی با استفاده از روش یادگیری تقویتی (RL) به تنظیم دقیق آن پرداختند. این فرآیند شامل ارائه حدود 130,000 مسئله ریاضی و برنامه‌نویسی به مدل MiMo بود. نکته قابل توجه این است که صحت و سطح دشواری این مسائل با استفاده از سیستم‌های مبتنی بر قوانین مورد ارزیابی و تایید قرار گرفته بودند.

معرفی چهار نسخه متنوع از سری MiMo-7B

شیائومی تنها به انتشار یک نسخه از MiMo اکتفا نکرده، بلکه سری MiMo-7B شامل چهار نسخه مختلف است که کاربران می‌توانند آن‌ها را مورد بررسی قرار دهند:

MiMo-7B-Base: مدل پایه که از پتانسیل استدلال قوی برخوردار است.

MiMo-7B-RL-Zero: یک مدل یادگیری تقویتی که مستقیماً از نسخه پایه آموزش دیده است.

MiMo-7B-SFT: نسخه‌ای که با استفاده از روش تنظیم دقیق نظارت‌شده (با ارائه مثال‌های آموزشی) توسعه یافته است.

MiMo-7B-RL: یک مدل یادگیری تقویتی است که از نسخه SFT آموزش دیده و مدلی است که شیائومی آن را با مدل‌هایی مانند o1-mini مقایسه می‌کند.

شرکت شیائومی کل مجموعه مدل‌های هوش مصنوعی MiMo-7B را به صورت متن‌باز در اختیار عموم قرار داده است. علاقه‌مندان می‌توانند این مدل‌ها را در پلتفرم Hugging Face پیدا کنند. همچنین، برای کسب اطلاعات فنی دقیق‌تر، یک گزارش جامع در GitHub منتشر شده است.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا