آمازون امروز از مدل هوش مصنوعی مولد جدیدی بهنام Nova Sonic رونمایی کرده است که میتواند صداها را بهصورت بومی پردازش و گفتار طبیعی تولید کند. آمازون مدعی است عملکرد Nova Sonic در بنچمارکها با مدلهای پیشگام OpenAI و گوگل قابلمقایسه است.
مدل هوش مصنوعی آمازون Nova Sonic پاسخی برای حالت Voice Mode در ChatGPT است که میخواهد ارتباط گفتاری طبیعیتر از روزهای نخست الکسا را فراهم کند. این مدل اکنون از طریق Bedrock، پلتفرم توسعهدهندگان آمازون، در دسترس قرار دارد. این شرکت میگوید Sonic «مقرونبهصرفهترین» مدل صوتی موجود در بازار است که حدود 80 درصد از GPT-4o ارزانتر است.
بخشهایی از اجزای Nova Sonic هماکنون در نسخه جدید دستیار صوتی آمازون، الکسا پلاس، وجود دارد. این مدل از تخصص گسترده آمازون در سیستمهای عظیم بهره جسته و با کمک همین دانش شکل گرفته است. این مدل در مقایسه با رقبا در وصلکردن درخواستهای کاربر به APIهای گوناگون عملکرد بهتری دارد. این قابلیت به Nova Sonic کمک میکند تا بداند چه زمانی باید اطلاعات را در لحظه از اینترنت بگیرد یا بهسراغ منابع داده اختصاصی برود و از ابزارهای موردنیاز استفاده کند. در پایین نمونه یک ایجنت هوش مصنوعی برای مشاوره سفر با Nova Sonic را میشنوید:
مدل صوتی جدید آمازون در حین گفتگو منتظر زمان مناسب برای حرفزدن میماند و توقفهای احتمالی کاربر را در نظر میگیرد. این مدل همچنین رونوشتی از صحبتها را ارائه میدهد که میتواند کاربردهای مختلفی داشته باشد. در پایین نمونه یک دستیار هوش مصنوعی سازمانی با Nova Sonic را میشنوید:
طبق گفته آمازون، Sonic استعداد کمتری برای بروز خطا در تشخیص گفتار دارد، یعنی مدل میتواند مقصود کاربر را بهتر بفهمد، حتی اگر صدای او تا حدی ناواضح باشد یا تپق بزند. این مدل در بنچمارک Multilingual LibriSpeech نرخ خطای واژهای (WER) 4.2 درصدی را در زبانهای انگلیسی، فرانسوی، ایتالیایی، آلمانی و اسپانیایی بهدست آورده است.
آمازون میگوید Nova Sonic بخشی از استراتژی بزرگتر این شرکت برای ساخت هوش جامع مصنوعی (AGI) است. این شرکت AGI را بدین صورت معنا میکند: «سیستمهای هوش مصنوعی که میتوانند هر کاری یک انسان با کامپیوتر انجام میدهد، انجام دهند.»