
شرکت شیائومی با رونمایی از مدل هوش مصنوعی پیشرفته خود تحت عنوان MiMo، گامی بلند در عرصه رقابت هوش مصنوعی برداشته و نام خود را در کنار دیگر بزرگان فناوری جهان به ثبت رساند. این اقدام نشاندهنده توجه جدی این شرکت به پتانسیلهای روزافزون هوش مصنوعی متنباز است.
شیائومی با معرفی رسمی MiMo، حضور خود را در این عرصه رقابتی اعلام کرد. MiMo صرفاً یک مدل زبانی بزرگ دیگر تلقی نمیشود؛ بلکه هدف اصلی شیائومی، ارتقای چشمگیر قابلیتهای استدلال و منطق در این مدل نوظهور است.
تواناییهای شگفتانگیز MiMo با وجود ابعاد نسبتاً کوچک
به گفته متخصصان شیائومی، MiMo یک مدل هوش مصنوعی با 7 میلیارد پارامتر است. این میزان در مقایسه با برخی از مدلهای قدرتمند موجود، چندان بزرگ به نظر نمیرسد. با این حال، شیائومی ادعا میکند که MiMo در زمینههای استدلال ریاضی و تولید کد رایانهای، عملکردی فراتر از حد انتظار ارائه میدهد. این شرکت تاکید دارد که MiMo در سطحی مشابه با مدلهای به مراتب بزرگتر عمل کرده و حتی توانایی رقابت با مدلهایی نظیر o1-mini متعلق به OpenAI و Qwen با 32 میلیارد پارامتر از شرکت علیبابا را داراست.
رمز موفقیت MiMo در بهینهسازی آموزش
دستیابی به چنین سطح از قابلیت استدلال توسط یک مدل با ابعاد کوچکتر، امری سهل و ممتنع نیست و شیائومی نیز به خوبی از این موضوع آگاه است. این شرکت در خصوص راز موفقیت این مدل اظهار داشته که این دستاورد ناشی از بهرهگیری حداکثری از ظرفیتهای نهفته در همان مدل پایه 7 میلیارد پارامتری است که شامل اتخاذ تدابیر بسیار هوشمندانه در هر دو مرحله پیشآموزش و پسآموزش میشود.
علاوه بر این، اندازه نسبتاً کوچک این مدل، یک مزیت بالقوه برای کسبوکارهایی محسوب میشود که از خوشههای عظیم GPU برخوردار نیستند.
رویکرد دقیق شیائومی در مدیریت دادههای آموزشی
بنا به نظر میرسد که اساس کار MiMo، استفاده از یک فرآیند پیشآموزش به شدت بهینهسازیشده است. شیائومی اعلام کرده که تمرکز ویژهای بر مدیریت دادههای خود داشتهاند. این امر شامل بهبود روشهای پردازش دادههای خام، ارتقای ابزارهای مورد استفاده برای استخراج متون مرتبط و استفاده از لایههای فیلترینگ متنوع میشود. بنابراین، رویکرد آنها صرفاً تزریق دادهها به سیستم نبوده، بلکه انتخاب آنها با دقت و وسواس فراوان صورت گرفته است.
استراتژی سه مرحلهای آموزش و بهبود عملکرد
آنها یک مجموعه داده تخصصی را گردآوری نمودند که تقریباً شامل 200 میلیارد توکن استدلال بود. در ادامه، یک استراتژی ترکیبی سه مرحلهای داده را به کار بستند و مدل را به تدریج در سه فاز و روی مجموعاً 25 تریلیون توکن آموزش دادند. آنها همچنین از یک تکنیک به نام Multiple-Token Prediction بهره بردند که نه تنها عملکرد مدل را ارتقا داده، بلکه به آن کمک کرده تا پاسخها را با سرعت بیشتری تولید نماید.
بهینهسازی با یادگیری تقویتی برای حل مسائل پیچیده
پس از ایجاد ساختار اولیه، متخصصان شیائومی با استفاده از روش یادگیری تقویتی (RL) به تنظیم دقیق آن پرداختند. این فرآیند شامل ارائه حدود 130,000 مسئله ریاضی و برنامهنویسی به مدل MiMo بود. نکته قابل توجه این است که صحت و سطح دشواری این مسائل با استفاده از سیستمهای مبتنی بر قوانین مورد ارزیابی و تایید قرار گرفته بودند.
معرفی چهار نسخه متنوع از سری MiMo-7B
شیائومی تنها به انتشار یک نسخه از MiMo اکتفا نکرده، بلکه سری MiMo-7B شامل چهار نسخه مختلف است که کاربران میتوانند آنها را مورد بررسی قرار دهند:
MiMo-7B-Base: مدل پایه که از پتانسیل استدلال قوی برخوردار است.
MiMo-7B-RL-Zero: یک مدل یادگیری تقویتی که مستقیماً از نسخه پایه آموزش دیده است.
MiMo-7B-SFT: نسخهای که با استفاده از روش تنظیم دقیق نظارتشده (با ارائه مثالهای آموزشی) توسعه یافته است.
MiMo-7B-RL: یک مدل یادگیری تقویتی است که از نسخه SFT آموزش دیده و مدلی است که شیائومی آن را با مدلهایی مانند o1-mini مقایسه میکند.
شرکت شیائومی کل مجموعه مدلهای هوش مصنوعی MiMo-7B را به صورت متنباز در اختیار عموم قرار داده است. علاقهمندان میتوانند این مدلها را در پلتفرم Hugging Face پیدا کنند. همچنین، برای کسب اطلاعات فنی دقیقتر، یک گزارش جامع در GitHub منتشر شده است.