Warning: mkdir(): No space left on device in /var/www/hottg/post.php on line 59
Warning: file_put_contents(aCache/aDaily/2025-07-19/post/SberAIScience/--): Failed to open stream: No such file or directory in /var/www/hottg/post.php on line 72 RPT: новый подход к обучению LLM 🤖 @Sber AI
Microsoft совместно с Пекинским университетом представили Reinforcement Pre-Training (RPT) — альтернативу стандартному обучению больших языковых моделей.
Обычно LLM обучают в два этапа
1️⃣Pre-training (предобучение) — модель учится предсказывать следующий токен в тексте на паттернах из больших датасетов 2️⃣Fine-tuning (дообучение) — модель донастраивается обучением с подкреплением (обычно RLHF) и за счёт обратной связи от людей-экспертов
У этого подхода есть недостатки: 🔘 на первом этапе модель лишь запоминает паттерны поведения, а не осваивает логику рассуждения. По сути, она угадывает каждый следующий токен. 🔘 второй этап требует трудозатратной ручной разметки.
➡️Во время RPT модель учится рассуждать и обосновывать свои ответы уже на этапе pre-training. При этом обучать модель можно на неразмеченных данных. За счёт этого формируется более точный базовый контекст для последующего дообучения с меньшими ресурсозатратами. ⚠️ Пока подход протестирован только на одной модели — DeepSeek-R1-Distill-Qwen-14B — и исключительно на математических задачах.
💡 Как думаете, сможет ли он показать такие же результаты в других предметных областях и на других типах данных?
Microsoft совместно с Пекинским университетом представили Reinforcement Pre-Training (RPT) — альтернативу стандартному обучению больших языковых моделей.
Обычно LLM обучают в два этапа
1️⃣Pre-training (предобучение) — модель учится предсказывать следующий токен в тексте на паттернах из больших датасетов 2️⃣Fine-tuning (дообучение) — модель донастраивается обучением с подкреплением (обычно RLHF) и за счёт обратной связи от людей-экспертов
У этого подхода есть недостатки: 🔘 на первом этапе модель лишь запоминает паттерны поведения, а не осваивает логику рассуждения. По сути, она угадывает каждый следующий токен. 🔘 второй этап требует трудозатратной ручной разметки.
➡️Во время RPT модель учится рассуждать и обосновывать свои ответы уже на этапе pre-training. При этом обучать модель можно на неразмеченных данных. За счёт этого формируется более точный базовый контекст для последующего дообучения с меньшими ресурсозатратами. ⚠️ Пока подход протестирован только на одной модели — DeepSeek-R1-Distill-Qwen-14B — и исключительно на математических задачах.
💡 Как думаете, сможет ли он показать такие же результаты в других предметных областях и на других типах данных?
Warning: Undefined array key 3 in /var/www/hottg/function.php on line 115
Fatal error: Uncaught mysqli_sql_exception: Can't create/write to file '/tmp/#sql-temptable-a06e-557e5c-204f.MAI' (Errcode: 28 "No space left on device") in /var/www/hottg/function.php:216
Stack trace:
#0 /var/www/hottg/function.php(216): mysqli_query()
#1 /var/www/hottg/function.php(115): select()
#2 /var/www/hottg/post.php(351): daCache()
#3 /var/www/hottg/route.php(63): include_once('...')
#4 {main}
thrown in /var/www/hottg/function.php on line 216