استارتاپ چینی DeepSeek بیسروصدا مدل هوش مصنوعی ارتقایافتهای به نام V3-0324 را منتشر کرده است. این مدل در بخشهای مختلف مانند کدنویسی بهبود یافته است. درکل دیپسیک ادعا میکند مدل هوش مصنوعی آن میتواند با مدلهای آمریکایی OpenAI و Anthropic رقابت کند یا آنها را شکست دهد.
براساس گزارش TechRadar، دیپسیک بهتازگی ارتقای قابلتوجهی برای مدل اصلی خود منتشر کرد. مدل جدید V3-0324 با حجم 641 گیگابایت اکنون متنباز با مجوز MIT در Hugging Face منتشر شده است. نکته عجیب اینکه برخلاف شرکتهای آمریکایی که تبلیغات زیادی برای مدلهای جدید خود میکنند، مدل جدید چینیها تقریباً بدون هیچ اطلاعیه خاصی منتشر شده است.
محقق هوش مصنوعی مدل جدید دیپسیک را روی مک استودیو با تراشه M3 Ultra اجرا کرده و نشان داده این مدل با سرعت بیش از 20 توکن در ثانیه عمل میکند. البته نباید از قدرت شگفتانگیز مک استودیوی 9 هزار و 500 دلاری غافل شد و شاید برای سنجش سرعت این هوش مصنوعی چنین سیستم قدرتمندی معیار عمومی خوبی نباشد.
باتوجهبه تستهای این شرکت، نسخه جدید DeepSeek از مدل V3 ارتقای قابل توجهی در تواناییهای مختلف مانند کدنویسی یافته است. شاید چنین ارتقاهایی بهخودیخود انقلابی نباشند اما سرعت پیشرفت DeepSeek قابلتوجه است.
دیپسیک که سال گذشته میلادی به شهرت رسید، پس از انتشار نسخه اصلی V3 در دسامبر، بهسرعت درحال پیشروی است. یک ماه بعد از انتشار نسخه اصلی، مدل استدلالگر R1 از راه رسید و اکنون V3-0324 منتشر شده است. حتی اگر مدلهای دیپسیک در برخی بنچمارکها نتوانند با مدلهای OpenAI و آنتروپیک رقابت کنند، از لحاظ قیمتی بسیار بهصرفهاند.
DeepSeek-V3-0324 از معماری «ترکیب متخصصان» (MoE) بهره میبرد که اساساً با نحوه عملکرد مدلهای زبانی بزرگ معمولی فرق دارد. مدلهای معمولی کل تعداد پارامترهای خود را برای یک کار فعال میکنند اما در رویکرد DeepSeek فقط حدود 37 میلیارد از 685 میلیارد پارامتر حین انجام وظایف خاص فعال میشوند.