هوش مصنوعی

جهش در تولید تصویر با ChatGPT: خلق آثار هنری دقیق‌تر با مدل GPT-4o”

 

ChatGPT اکنون با استفاده از مدل پیشرفته GPT-4o، قابلیت تولید تصاویری با کیفیت و دقت بالاتر را دارد. این ارتقا، توانایی ChatGPT در حفظ انسجام و یکپارچگی تصاویر را بهبود بخشیده و امکان گنجاندن عناصر بیشتری را در هر تصویر فراهم می‌کند. OpenAI با افزودن ویژگی جدید “Images in ChatGPT” و بهره‌گیری از GPT-4o، دقت رنگ‌ها و کیفیت رندر متن در تصاویر را به طور قابل توجهی افزایش داده است.

تارا کریستینسن، سخنگوی OpenAI، اعلام کرد که این ویژگی از امروز در دسترس تمامی کاربران قرار گرفته و کاربران نسخه عادی ChatGPT، با وجود برخی محدودیت‌ها، می‌توانند به تعداد نامحدود تصویر تولید کنند. البته، این محدودیت‌ها ممکن است با توجه به تقاضا و استقبال کاربران، در آینده تغییر کند.

تولید تصاویر یکپارچه و دقیق‌تر با قابلیت جدید

گابریل گو، مدیر تیم تحقیقاتی OpenAI، در مصاحبه‌ای با Verge، از نتایج مثبت این ویژگی جدید سخن گفت. او اشاره کرد که از مدل “GPT-4o omnimodal” برای پردازش و توسعه این قابلیت استفاده شده است؛ مدلی که توانایی پردازش انواع مختلف داده‌ها را دارد.

او همچنین به بهبود قابل توجه ویژگی “Binding” در ساخت تصاویر اشاره کرد. مدل‌های قدیمی‌تر اغلب در حفظ انسجام تصاویر، به ویژه هنگام اضافه کردن عناصر متعدد به تصاویر، با مشکل مواجه بودند.

به عنوان مثال، ممکن بود هوش مصنوعی به جای ساخت یک ستاره آبی و یک مثلث قرمز، یک ستاره قرمز و یک مثلث آبی تولید کند. این مشکل در ChatGPT برطرف شده و مدل جدید می‌تواند بین 15 تا 20 عنصر را به درستی در تصویر قرار دهد، در حالی که مدل‌های قدیمی‌تر تنها قادر به تولید 5 تا 8 عنصر بدون خطا بودند.

جهش در تولید تصویر با ChatGPT خلق آثار هنری دقیق‌تر با مدل GPT-4o

روند تدریجی خلق تصاویر در ChatGPT

گابریل گو افزود که این ویژگی از رویکرد “Autoregressive” استفاده می‌کند؛ به این معنا که ChatGPT، مانند نوشتن متن، تصاویر را به صورت تدریجی از بالا به پایین و از چپ به راست تولید می‌کند.

در مقابل، مدل‌های قبلی مانند DALL·E، از روش “Diffusion model” استفاده می‌کردند که کل تصویر را به طور همزمان پردازش و طراحی می‌کرد. این تغییر رویکرد، احتمالا دلیل بهبود یکپارچگی تصاویر است.

مدیر تیم تحقیقاتی OpenAI، قابلیت جدید ChatGPT را نتیجه آزمایش‌های متعدد و تکراری تیم خود در ماه‌های اخیر می‌داند. البته او اشاره کرد که این ویژگی هنوز در پردازش متون ریز و کوچک در تصاویر با مشکلاتی مواجه است، اما در مجموع، کیفیت متن و تصاویر را به طور همزمان حفظ می‌کند.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا