ChatGPT حالا می‌تواند با مدل GPT-4o تصاویر بهتری تولید کند

دیجیاتو چهارشنبه 06 فروردین 1404 - 10:32

این ویژگی توانایی ChatGPT در حفظ انسجام و یکپارچگی تصاویر را ارتقا می‌کند و عناصر بیشتری را در عکس جای می‌دهد. The post ChatGPT حالا می‌تواند با مدل GPT-4o تصاویر بهتری تولید کند appeared first on دیجیاتو.

OpenAI ویژگی جدیدی را با نام «Images in ChatGPT» به چت‌بات خود اضافه کرده است که از GPT-4o برای تولید تصویر در داخل این چت‌بات استفاده می‌کند. این قابلیت دقت رنگ‌های تصاویر و رندر متن در تصاویر را تا حد قابل‌ توجهی بهبود می‌دهد.

به‌گفته «تارا کریستینسن»، سخنگوی OpenAI ویژگی جدید از امروز در دسترس همه کاربران قرار می‌گیرد. او افزود کاربران نسخه عادی ChatGPT باوجود بعضی محدودیت‌ها، از لحاظ تعداد تصاویر درخواستی محدودیتی ندارند. البته ممکن است این محدودیت‌ها نیز به مرور زمان براساس تقاضا یا استقبال کاربران تغییر کند.

قابلیت جدید ChatGPT تصاویر را یکپارچه‌تر می‌کند

«گابریل گو»، مدیر تیم تحقیقاتی OpenAI در گفت‌وگو با Verge از نتایج مثبت این ویژگی گفت. او اشاره کرد که از مدل «GPT-4o omnimodal» برای پردازش و توسعه این قابلیت استفاده شده است؛ مدلی که توانایی پردازش انواع مختلف داده‌‌ها را دارد.

او همچنین از بهبود قابل توجه ویژگی «Binding» در ساخت تصاویر گفت: «مدل‌های قدیمی اغلب در حفظ انسجام تصاویر مشکل داشتند، مخصوصاً زمانی که عناصر بیشتری را به عکس‌ها اضافه می‌کردیم.» مثلاً ممکن بود مدل هوش مصنوعی به‌جای ساخت یک ستاره آبی و یک مثلث قرمز، یک ستاره قرمز و یک مثلث آبی بسازد.

اما حالا این مشکل در ChatGPT رفع شده و مدل جدید می‌تواند بین ۱۵ تا ۲۰ عنصر را به درستی در عکس قرار دهد. این درحالی است که مدل‌های قدیمی فقط می‌توانستند 5 تا 8 عنصر را بدون اشتباه تولید کنند.

گابریل گو افزود ویژگی بالا از رویکرد «Autoregressive» استفاده می‌کند؛ یعنی ChatGPT مثل نوشتن متون تصاویر را تدریجاً از بالا به پایین و از چپ به راست می‌سازد. درحالی‌که مدل‌های قبلی مثل DALL·E براساس روش Diffusion model کل تصویر را همزمان پردازش و طراحی می‌کردند. همین موضوع احتمالاً باعث شده تا یکپارچگی تصاویر بهبود یابد.

مدیر تیم تحقیقاتی OpenAI قابلیت جدید ChatGPT را حاصل تست‌های متعدد و بعضاً تکراری تیمش در ماه‌های اخیر می‌داند. البته او اظهار داشت این ویژگی هنوز در پردازش متون ریز و کوچک در تصاویر مشکل دارد، اما در مجموع کیفیت متن و تصاویر را به‌طور همزمان حفظ می‌کند.

مشاهده متن کامل خبر در "دیجیاتو"