دو دانشجوی کارشناسی که تخصصی زیادی نیز در زمینه هوش مصنوعی ندارند ادعا میکنند توانستهاند مدل هوش مصنوعی تازهای بسازند که قادر است محتواهایی به سبک پادکست مشابه NotebookLM گوگل خلق کند.
به گزارش تک کرانچ، «توبی کیم»، یکی از بنیانگذاران Nari Labs که این مدل جدید گفتاری را منتشر کرده، گفت او و یکی دیگر از همکارانش حدوداً ۳ ماه پیش شروع به یادگیری درباره مدلهای هوش مصنوعی گفتاری کردند. این تیم با الهام از NotebookLM گوگل میخواستند مدلی بسازند که کنترل بیشتری روی صداهای تولیدشده و آزادی در سناریو را به کاربران ارائه دهد.
به گفته توبی کیم، آنها از برنامه TPU Research Cloud گوگل برای ساخت این مدل استفاده کردهاند تا بتوانند مدل Nari با نام Dia را آموزش دهند. این برنامه امکان دسترسی رایگان به تراشههای هوش مصنوعی TPU گوگل را برای محققان فراهم میکند.
مدل Dia با استفاده از ۱.۶ میلیارد پارامتر میتواند دیالوگها را از روی یک اسکریپت تولید کند. همچنین این مدل به کاربران این امکان را میدهد تا لحن سخنران را سفارشی کرده و مواردی همچون ناهماهنگیها، سرفهها، خندهها و سایر نشانههای غیرکلامی را اضافه کنند.
مدل Dia هماکنون از طریق پلتفرمهای Hugging Face و GitHub در دسترس علاقهمندان قرار دارد. این مدل میتواند روی اکثر رایانههای شخصی مدرن با حداقل ۱۰ گیگابایت VRAM اجرا شود. همچنین Dia قادر است تا در صورتی که دستورالعملهای خاصی دریافت نکند، بهصورت رندوم اقدام به ساخت یک صدای تصادفی کند. علاوهبراین، Dia توانایی تقلید صدای افراد را دارد.
بااینحال، مانند بسیاری از مدلهای صوتی، Dia نیز حفاظت بسیار کمی در برابر سوءاستفادههای احتمالی دارد و سازندگان گفتهاند که مسئولیتی را دراینباره قبول نمیکنند. همچنین Nari Labs فاش نکرده که از چه دیتاهایی برای آموزش این مدل استفاده کرده است. این احتمال وجود دارد که از دیتاهای دارای حق کپی رایت برای آموزش Dia استفاده شده باشد.