
ChatGPT اکنون با استفاده از مدل پیشرفته GPT-4o، قابلیت تولید تصاویری با کیفیت و دقت بالاتر را دارد. این ارتقا، توانایی ChatGPT در حفظ انسجام و یکپارچگی تصاویر را بهبود بخشیده و امکان گنجاندن عناصر بیشتری را در هر تصویر فراهم میکند. OpenAI با افزودن ویژگی جدید “Images in ChatGPT” و بهرهگیری از GPT-4o، دقت رنگها و کیفیت رندر متن در تصاویر را به طور قابل توجهی افزایش داده است.
تارا کریستینسن، سخنگوی OpenAI، اعلام کرد که این ویژگی از امروز در دسترس تمامی کاربران قرار گرفته و کاربران نسخه عادی ChatGPT، با وجود برخی محدودیتها، میتوانند به تعداد نامحدود تصویر تولید کنند. البته، این محدودیتها ممکن است با توجه به تقاضا و استقبال کاربران، در آینده تغییر کند.
تولید تصاویر یکپارچه و دقیقتر با قابلیت جدید
گابریل گو، مدیر تیم تحقیقاتی OpenAI، در مصاحبهای با Verge، از نتایج مثبت این ویژگی جدید سخن گفت. او اشاره کرد که از مدل “GPT-4o omnimodal” برای پردازش و توسعه این قابلیت استفاده شده است؛ مدلی که توانایی پردازش انواع مختلف دادهها را دارد.
او همچنین به بهبود قابل توجه ویژگی “Binding” در ساخت تصاویر اشاره کرد. مدلهای قدیمیتر اغلب در حفظ انسجام تصاویر، به ویژه هنگام اضافه کردن عناصر متعدد به تصاویر، با مشکل مواجه بودند.
به عنوان مثال، ممکن بود هوش مصنوعی به جای ساخت یک ستاره آبی و یک مثلث قرمز، یک ستاره قرمز و یک مثلث آبی تولید کند. این مشکل در ChatGPT برطرف شده و مدل جدید میتواند بین 15 تا 20 عنصر را به درستی در تصویر قرار دهد، در حالی که مدلهای قدیمیتر تنها قادر به تولید 5 تا 8 عنصر بدون خطا بودند.
روند تدریجی خلق تصاویر در ChatGPT
گابریل گو افزود که این ویژگی از رویکرد “Autoregressive” استفاده میکند؛ به این معنا که ChatGPT، مانند نوشتن متن، تصاویر را به صورت تدریجی از بالا به پایین و از چپ به راست تولید میکند.
در مقابل، مدلهای قبلی مانند DALL·E، از روش “Diffusion model” استفاده میکردند که کل تصویر را به طور همزمان پردازش و طراحی میکرد. این تغییر رویکرد، احتمالا دلیل بهبود یکپارچگی تصاویر است.
مدیر تیم تحقیقاتی OpenAI، قابلیت جدید ChatGPT را نتیجه آزمایشهای متعدد و تکراری تیم خود در ماههای اخیر میداند. البته او اشاره کرد که این ویژگی هنوز در پردازش متون ریز و کوچک در تصاویر با مشکلاتی مواجه است، اما در مجموع، کیفیت متن و تصاویر را به طور همزمان حفظ میکند.