OpenAI ویژگی جدیدی را با نام «Images in ChatGPT» به چتبات خود اضافه کرده است که از GPT-4o برای تولید تصویر در داخل این چتبات استفاده میکند. این قابلیت دقت رنگهای تصاویر و رندر متن در تصاویر را تا حد قابل توجهی بهبود میدهد.
بهگفته «تارا کریستینسن»، سخنگوی OpenAI ویژگی جدید از امروز در دسترس همه کاربران قرار میگیرد. او افزود کاربران نسخه عادی ChatGPT باوجود بعضی محدودیتها، از لحاظ تعداد تصاویر درخواستی محدودیتی ندارند. البته ممکن است این محدودیتها نیز به مرور زمان براساس تقاضا یا استقبال کاربران تغییر کند.
«گابریل گو»، مدیر تیم تحقیقاتی OpenAI در گفتوگو با Verge از نتایج مثبت این ویژگی گفت. او اشاره کرد که از مدل «GPT-4o omnimodal» برای پردازش و توسعه این قابلیت استفاده شده است؛ مدلی که توانایی پردازش انواع مختلف دادهها را دارد.
او همچنین از بهبود قابل توجه ویژگی «Binding» در ساخت تصاویر گفت: «مدلهای قدیمی اغلب در حفظ انسجام تصاویر مشکل داشتند، مخصوصاً زمانی که عناصر بیشتری را به عکسها اضافه میکردیم.» مثلاً ممکن بود مدل هوش مصنوعی بهجای ساخت یک ستاره آبی و یک مثلث قرمز، یک ستاره قرمز و یک مثلث آبی بسازد.
اما حالا این مشکل در ChatGPT رفع شده و مدل جدید میتواند بین ۱۵ تا ۲۰ عنصر را به درستی در عکس قرار دهد. این درحالی است که مدلهای قدیمی فقط میتوانستند 5 تا 8 عنصر را بدون اشتباه تولید کنند.
گابریل گو افزود ویژگی بالا از رویکرد «Autoregressive» استفاده میکند؛ یعنی ChatGPT مثل نوشتن متون تصاویر را تدریجاً از بالا به پایین و از چپ به راست میسازد. درحالیکه مدلهای قبلی مثل DALL·E براساس روش Diffusion model کل تصویر را همزمان پردازش و طراحی میکردند. همین موضوع احتمالاً باعث شده تا یکپارچگی تصاویر بهبود یابد.
مدیر تیم تحقیقاتی OpenAI قابلیت جدید ChatGPT را حاصل تستهای متعدد و بعضاً تکراری تیمش در ماههای اخیر میداند. البته او اظهار داشت این ویژگی هنوز در پردازش متون ریز و کوچک در تصاویر مشکل دارد، اما در مجموع کیفیت متن و تصاویر را بهطور همزمان حفظ میکند.