در پژوهشی تازه از دانشگاه کالیفرنیا سندیگو، مدل زبانی بزرگ GPT-4.5 متعلق به OpenAI آزمون تورینگ را با نرخ موفقیت چشمگیر 73 درصدی پشت سر گذاشت؛ یعنی در بیشتر جلسات چت پنجدقیقهای، مخاطبان انسانی تصور کردند GPT-4.5 انسان است. علاوهبرآن، مدل «Llama‑3.1‑405B» از متا نیز با نرخ 56 درصدی موفق ظاهر شد.
طبق گزارش «InterestingEngineering»، این موفقیتها در شرایطی رقم خورد که به این مدلها دستور داده شده بود در قالب شخصیت (Persona) خاصی صحبت کنند، که باعث شباهت بیشتر گفتگوی آنها به مکالمات واقعی انسانها شد.
مدل GPT‑4o که بهطور عمومی در چتجیپیتی استفاده میشود، فقط 21 درصد موفق بود و این تفاوت نشان میدهد استفاده از «پرسونا» تا چه اندازه بر موفقیت در آزمون تورینگ تأثیرگذار است.
باوجود این موفقیتها، بحث قدیمی پیرامون اینکه آزمون تورینگ واقعاً معیار مناسبی برای سنجش هوش است، دوباره داغ شده. برخی منتقدان معتقدند این آزمون بیش از آنکه توانمندی واقعی هوش مصنوعی را بسنجد، به توانایی آن در فریب مخاطب انسانی مربوط است؛ بهعبارتدیگر، اگر انسان نتواند متوجه شود با ماشین صحبت میکند، الزاماً به معنای هوشمندی آن ماشین نیست.
طرفداران آزمون تورینگ میگویند همین شباهت گفتاری به انسان و توانایی برقراری گفتگویی طبیعی خود نشانهای از پیشرفت هوش مصنوعی است.
در شرایطی که انسانها بیش از هر زمان دیگری با رابطهای گفتگوی مبتنیبر هوش مصنوعی مواجهاند، بسیاری معتقدند آزمون تورینگ دیگر مانند گذشته ابزاری صرفاً فلسفی نیست، بلکه تبدیل به ابزار بررسی فنیتری شده است. درعینحال، مدلهای هوش مصنوعی همچنان از درک، خودآگاهی و احساسات انسانی بیبهرهاند اما شکی نیست که در فریب مخاطب بهطرز چشمگیری پیشرفت کردهاند.
نتایج این آزمایش بهصورت پیشچاپ منتشر شده است.