برای اینکه @دستاوردهای یادگیری عمیق(InTec)

دستاوردهای یادگیری عمیق(InTec) | United States America (US)

Create: 2025-06-11 Update: 2025-07-20 14:08:49

برای اینکه
Deepseek coder v3 671B
رو اجرا کنید احتمالا راهکاری به ذهنتون نمیرسه که بیشتر از ۱.۳ توکن خروجی بده تازه به شرط اینکه بیش از ۰.۵ ترابایت رم هم داشته باشید.

بعد از اینکه کانفیگ لوکال خودم رو گذاشتم و روی سورس کدهام تست گرفتم دیدم چندتا چیز برای بهبود نتایج لازم دارم :

۱- استفاده از embedding بهتر مثل Qwen3-8b
۲- استفاده همزمان از حداقل ۳ مدل
۳- مدل نهایی به جهت بررسی کدهای تولید شده توسط ۳ مدل دیگه

اگر این ترکیب رو استفاده کنم؛ فکرم این بود که ۳ مدل زیری رو بدون think اجرا کنم ولی مدل‌های تخصصی coder باشند و مدلی که قابلیت think داره رو بذارم که نهایتا با یک context خوب + embedding خوب بتونه کار رو در بیاره.

اول اومدم ایده رو تست کردم؛ یک مقدار هزینه و سرعت و ... رو گذاشتم کنار هر ۳ تا مدل رو تک تک اجرا کردم (هرکدوم روی یکی از GPU ها) نتابجشون رو ذخیره کردم
و درنهایت بصورت دستی نتابج رو دادم به مدل think که خیلی دقت کدهای تولید شده بالارفت
استایل رو رعایت میکرد
جاهایی از کد که رعایت نکرده بودم رو هم بهم گزارش میداد و ...
اینجوری بودم که خب اگر این روی لوکال کار بکنه من که دیگه cloud لازم نخواهم داشت.

از نظر زمانی هم بصرفه بود؛ اگر و تنها اگر می‌تونستم هر ۳ مدل لایه پایین‌تر رو همزمان اجرا کنم؛‌خلاصه که گشتم دنبال راهکارهای منطقی همزمان اجرا کردن؛ یادمون باشه که اینجا مدل‌ها معماری‌های متفاوتی دارند و مثل حالتی نیست که معماری زیرین مدل‌ها یکی باشه و ... (اگر اون تکنیک رو بلدید برای بهینه پروداکشن کردن)

بگذریم توی تحقیقات رسیدم به Ktransformer (مرسی توییتر) :

Local 671B DeepSeek-Coder-V3/R1: Running its Q4_K_M version using only 14GB VRAM and 382GB DRAM

ایده جذاب این تیم اینه که بخش‌هایی که هزینه سنگین برای اجرا داره رو روی GPU میبره و باقی رو میده خود CPU اجرا کنه منم که ۲ تا GPU دارم اگر بشه بجای هر مدل ۲۲ گیگ به هر مدل ۱۱ گیگ گرافیک بدم مشکلم حل میشه. مخصوصا اینکه از نظر RAM سیستم من ۱۲۸ گیگ رم داره که این روزا توی استفاده‌های سنگین هم نهایتا به ۵۰ گیگ نیاز هست.

آیا این فریمورک مشکل من رو حل می‌کنه ؟ کوتاه : خیر
اما ایده خوبی رو بهم داد.

من دارم تلاش می‌کنم از راهکاری که گیمرها چندسال قبل برای تقسیم GPU بین بازی‌ها استفاده میکردند استفاده کنم (تا این لحظه موفق نبودم ولی کل چیز جدید یادگرفتم)
ترکیب این راهکار با دستاورد این کد احتمالا من رو بتونه به جاهای خوبی برسونه اگر هم نشد اشکالی نداره یادگیری مفیدی بوده (حتی تا همینجا) و البته به کمک KTransformers می‌تونم مدل 70B رو روی سیستم خودم اجرا کنم بدون دردسر.

احتمالا شما هم بتونی مدل 14B رو بجای 7B روی سیستم خودت بیاری (شاید لازم باشه کمی دست به کد بشی اگر مدل پشتیبانی نمیشه هنوز)

Ktransformers Github