🔮 CN-AI-RESEARCH | Исследования в области ИИ
🚀 Qwen3: представлен полный технический отчет
Китайская команда представила технический отчет по семейству моделей Qwen3.
📊 Состав семейства:
✔️ 6 плотных моделей (0.6B–32B параметров)
✔️ 2 MoE-модели (30B и 235B параметров)
💡 Двойной режим работы
Qwen3 использует интеллектуальную систему переключения между:
→ Режимом глубокого анализа (для сложных задач)
→ Режимом быстрого ответа (для простых запросов)
Автоматическое переключение происходит через параметр thinking budget
, который оценивает сложность вопроса.
💡 Ключевые инновации:
• Динамическое распределение thinking budget
(вычислительных ресурсов) в зависимости от сложности задачи
• Устранение QKV-смещения и внедрение QK-Norm для стабильности обучения
• Новый подход к балансировке нагрузки экспертов в MoE-архитектуре
🎓 Трехэтапное обучение:
1. Базовые знания (обычные тексты, 4k токенов)
2. Улучшение логики (STEM/код, 4k токенов)
3. Длинные тексты (спецкорпус, 32k токенов)
Отчет также раскрывает метод "большой учит маленького":
- Off-policy дистилляция ("заучивание" ответов учителя)
- On-policy дистилляция ("разбор ошибок" после попыток)
Полный отчет
#КитайскийИИ #КитайAI #Qwen3 #MoE #Дистилляция
>>Click here to continue<<
