Warning: mkdir(): No space left on device in /var/www/hottg/post.php on line 59

Warning: file_put_contents(aCache/aDaily/2025-07-19/post/SberAIScience/--): Failed to open stream: No such file or directory in /var/www/hottg/post.php on line 72
RPT: новый подход к обучению LLM 🤖 @Sber AI
TG Telegram Group & Channel
Sber AI | United States America (US)
Create: Update:

RPT: новый подход к обучению LLM 🤖

Microsoft совместно с Пекинским университетом представили Reinforcement Pre-Training (RPT) — альтернативу стандартному обучению больших языковых моделей.

Обычно LLM обучают в два этапа

1️⃣ Pre-training (предобучение) — модель учится предсказывать следующий токен в тексте на паттернах из больших датасетов
2️⃣ Fine-tuning (дообучение) — модель донастраивается обучением с подкреплением (обычно RLHF) и за счёт обратной связи от людей-экспертов


У этого подхода есть недостатки:
🔘 на первом этапе модель лишь запоминает паттерны поведения, а не осваивает логику рассуждения. По сути, она угадывает каждый следующий токен.
🔘 второй этап требует трудозатратной ручной разметки.

➡️ Во время RPT модель учится рассуждать и обосновывать свои ответы уже на этапе pre-training. При этом обучать модель можно на неразмеченных данных. За счёт этого формируется более точный базовый контекст для последующего дообучения с меньшими ресурсозатратами.

⚠️ Пока подход протестирован только на одной модели — DeepSeek-R1-Distill-Qwen-14B — и исключительно на математических задачах.

💡 Как думаете, сможет ли он показать такие же результаты в других предметных областях и на других типах данных?

💯 — за RPT будущее
👍 — классическое обучение

This media is not supported in your browser
VIEW IN TELEGRAM
RPT: новый подход к обучению LLM 🤖

Microsoft совместно с Пекинским университетом представили Reinforcement Pre-Training (RPT) — альтернативу стандартному обучению больших языковых моделей.

Обычно LLM обучают в два этапа
1️⃣ Pre-training (предобучение) — модель учится предсказывать следующий токен в тексте на паттернах из больших датасетов
2️⃣ Fine-tuning (дообучение) — модель донастраивается обучением с подкреплением (обычно RLHF) и за счёт обратной связи от людей-экспертов


У этого подхода есть недостатки:
🔘 на первом этапе модель лишь запоминает паттерны поведения, а не осваивает логику рассуждения. По сути, она угадывает каждый следующий токен.
🔘 второй этап требует трудозатратной ручной разметки.

➡️ Во время RPT модель учится рассуждать и обосновывать свои ответы уже на этапе pre-training. При этом обучать модель можно на неразмеченных данных. За счёт этого формируется более точный базовый контекст для последующего дообучения с меньшими ресурсозатратами.

⚠️ Пока подход протестирован только на одной модели — DeepSeek-R1-Distill-Qwen-14B — и исключительно на математических задачах.

💡 Как думаете, сможет ли он показать такие же результаты в других предметных областях и на других типах данных?

💯 — за RPT будущее
👍 — классическое обучение
Please open Telegram to view this post
VIEW IN TELEGRAM
💯9🤔74👍3👏1


>>Click here to continue<<

Sber AI




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)


Warning: Undefined array key 3 in /var/www/hottg/function.php on line 115

Fatal error: Uncaught mysqli_sql_exception: Can't create/write to file '/tmp/#sql-temptable-a06e-557e5c-204f.MAI' (Errcode: 28 "No space left on device") in /var/www/hottg/function.php:216 Stack trace: #0 /var/www/hottg/function.php(216): mysqli_query() #1 /var/www/hottg/function.php(115): select() #2 /var/www/hottg/post.php(351): daCache() #3 /var/www/hottg/route.php(63): include_once('...') #4 {main} thrown in /var/www/hottg/function.php on line 216