شرکت چینی علیبابا از جدیدترین مدل زبانی متنباز خود با نام QwQ-32B رونمایی کرد؛ مدلی با 32 میلیارد پارامتر که با هدف بهبود توانایی حل مسائل پیچیده و استدلال منطقی توسعه یافته است. این مدل با بهرهگیری از یادگیری تقویتی (RL) و تکنیکهای پیشرفته عملکرد قابلتوجهی در حوزههایی مانند ریاضیات، کدنویسی و تحلیل مسائل پیچیده ارائه میدهد.
طبق گزارشهای منتشر شده، QwQ-32B نسخه پیشرفتهای از QwQ است که علیبابا در نوامبر 2024 آن را با هدف رقابت با مدل استدلالی o1-preview از OpenAI عرضه کرده بود. در همان ابتدا، این مدل بهدلیل عملکرد مطلوب در آزمونهای ریاضی (AIME, MATH) و استدلال علمی (GPQA) توجه زیادی جلب کرد؛ هرچند در زمینه برنامهنویسی از رقبایی مانند LiveCodeBench عقب ماند.
اکنون QwQ-32B با تکیه بر ساختار چندمرحلهای یادگیری تقویتی تلاش کرده این ضعفها را برطرف کند. طبق نتایج اولیه، این مدل توانسته با وجود اندازه کوچکتر خود، به سطح عملکرد مدلهای بزرگی مثل DeepSeek-R1 با 671 میلیارد پارامتر نزدیک شود، درحالیکه تنها به 24 گیگابایت حافظه GPU نیاز دارد؛ این درحالی است که DeepSeek-R1 به بیش از 1500 گیگابایت VRAM نیاز دارد.
مدل QwQ-32B دارای ویژگیهای زیر است:
همچنین یادگیری تقویتی QwQ-32B در دو مرحله اجرا شده است؛ ابتدا با تمرکز بر دقت در ریاضیات و برنامهنویسی و سپس بهبود تواناییهای عمومی مثل درک دستورات و هماهنگی با رفتار انسانی.
این مدل بهدلیل متنباز بودن و بهرهمندی از استدلال پیشرفته میتواند گزینه مناسبی برای شرکتهایی باشد که به دنبال پیادهسازی تحلیل داده خودکار، توسعه نرمافزار، مدلسازی مالی یا اتوماسیون خدمات مشتری هستند. همچنین هرچند برخی کاربران غیرچینی ممکن است نگرانیهایی درباره امنیت و سوگیری مدلهای وابسته به علیبابا داشته باشند، اما عرضه این مدل در Hugging Face برای دانلود و استفاده آفلاین تا حد زیادی این نگرانیها را کاهش میدهد.
مدل QwQ-32B تحت لایسنس Apache 2.0 بهصورت متنباز منتشر شده و از طریق پلتفرمهای Hugging Face و ModelScope در دسترس قرار دارد. این موضوع باعث میشود شرکتها و توسعهدهندگان بتوانند بدون محدودیتهای مدلهای تجاری از آن برای تولید محصولات، خدمات و حتی پروژههای پولی استفاده کنند.
این مدل همچنین از طریق سرویس Qwen Chat نیز قابل استفاده است. تیم Qwen قصد دارد با ادامه توسعه این مدل، مسیر حرکت بهسوی هوش عمومی مصنوعی (AGI) را هموار کند.