Warning: mkdir(): No space left on device in /var/www/hottg/post.php on line 59

Warning: file_put_contents(aCache/aDaily/2025-07-19/post/opendatascience/--): Failed to open stream: No such file or directory in /var/www/hottg/post.php on line 72
🔮 CN-AI-RESEARCH | Исследования в области ИИ @Data Science by ODS.ai 🦜
TG Telegram Group & Channel
Data Science by ODS.ai 🦜 | United States America (US)
Create: Update:

🔮 CN-AI-RESEARCH | Исследования в области ИИ

🚀 Qwen3: представлен полный технический отчет


Китайская команда представила технический отчет по семейству моделей Qwen3.

📊 Состав семейства:
✔️ 6 плотных моделей (0.6B–32B параметров)
✔️ 2 MoE-модели (30B и 235B параметров)

💡 Двойной режим работы
Qwen3 использует интеллектуальную систему переключения между:
Режимом глубокого анализа (для сложных задач)
Режимом быстрого ответа (для простых запросов)

Автоматическое переключение происходит через параметр thinking budget, который оценивает сложность вопроса.

💡 Ключевые инновации:
• Динамическое распределение thinking budget (вычислительных ресурсов) в зависимости от сложности задачи
• Устранение QKV-смещения и внедрение QK-Norm для стабильности обучения
• Новый подход к балансировке нагрузки экспертов в MoE-архитектуре

🎓 Трехэтапное обучение:

1. Базовые знания (обычные тексты, 4k токенов)
2. Улучшение логики (STEM/код, 4k токенов)
3. Длинные тексты (спецкорпус, 32k токенов)

Отчет также раскрывает метод "большой учит маленького":
- Off-policy дистилляция ("заучивание" ответов учителя)
- On-policy дистилляция ("разбор ошибок" после попыток)

Полный отчет

#КитайскийИИ #КитайAI #Qwen3 #MoE #Дистилляция

Forwarded from Китай.AI
🔮 CN-AI-RESEARCH | Исследования в области ИИ

🚀 Qwen3: представлен полный технический отчет


Китайская команда представила технический отчет по семейству моделей Qwen3.

📊 Состав семейства:
✔️ 6 плотных моделей (0.6B–32B параметров)
✔️ 2 MoE-модели (30B и 235B параметров)

💡 Двойной режим работы
Qwen3 использует интеллектуальную систему переключения между:
Режимом глубокого анализа (для сложных задач)
Режимом быстрого ответа (для простых запросов)

Автоматическое переключение происходит через параметр thinking budget, который оценивает сложность вопроса.

💡 Ключевые инновации:
• Динамическое распределение thinking budget (вычислительных ресурсов) в зависимости от сложности задачи
• Устранение QKV-смещения и внедрение QK-Norm для стабильности обучения
• Новый подход к балансировке нагрузки экспертов в MoE-архитектуре

🎓 Трехэтапное обучение:

1. Базовые знания (обычные тексты, 4k токенов)
2. Улучшение логики (STEM/код, 4k токенов)
3. Длинные тексты (спецкорпус, 32k токенов)

Отчет также раскрывает метод "большой учит маленького":
- Off-policy дистилляция ("заучивание" ответов учителя)
- On-policy дистилляция ("разбор ошибок" после попыток)

Полный отчет

#КитайскийИИ #КитайAI #Qwen3 #MoE #Дистилляция
1


>>Click here to continue<<

Data Science by ODS.ai 🦜






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)


Warning: Undefined array key 3 in /var/www/hottg/function.php on line 115

Fatal error: Uncaught mysqli_sql_exception: Can't create/write to file '/tmp/#sql-temptable-a06e-53440b-1d57.MAI' (Errcode: 28 "No space left on device") in /var/www/hottg/function.php:216 Stack trace: #0 /var/www/hottg/function.php(216): mysqli_query() #1 /var/www/hottg/function.php(115): select() #2 /var/www/hottg/post.php(351): daCache() #3 /var/www/hottg/route.php(63): include_once('...') #4 {main} thrown in /var/www/hottg/function.php on line 216