Warning: mkdir(): No space left on device in /var/www/hottg/post.php on line 59

Warning: file_put_contents(aCache/aDaily/2025-07-17/post/data_secrets/-7220-7221-7222-7223-7224-7220-): Failed to open stream: No such file or directory in /var/www/hottg/post.php on line 72
SakanaAI опять светятся с интересной статьей: они предлагают новый способ обучать модели ризонингу @Data Secrets
TG Telegram Group & Channel
Data Secrets | United States America (US)
Create: Update:

SakanaAI опять светятся с интересной статьей: они предлагают новый способ обучать модели ризонингу

Модели умеют размышлять благодаря обучению с подкреплением. Обычно это выглядит так: модель учится решать сложные задачи, рассуждая, и получает вознаграждение, если приходит к правильному ответу. При этом часто после этого знания такой модели-учителя используются (дистилляция или cold start) для обучения модели-ученика, которая и становится конечным продуктом. Так было, например, с R1.

Sakana же предлагают обучать модель-учителя непосредственно учить других, вместо того, чтобы выучивать что-то самой:

Во время обучения модель-учитель видит уже не только задачи, а сразу задачи с решениями. Ее цель – не научиться их решать, а максимально понятно объяснить решение ученику. Ну, то есть, реально отработать как обычный школьный учитель.

При этом эти Reinforcement-Learned Teachers (так называется метод) получают награду, соответсвующую тому, насколько хорошо ученик их понял. Понимание оценивается с помощью лог-распределения вероятностей токенов на выходе у ученика.

Таким образом модель-учитель обучается максимизировать ясность своих объяснений, и параллельно с этим (а не на следующем этапе) мы сразу обучаем конечную модель-ученика.

Во-первых, это получается быстрее и дешевле, потому что в качестве учителя уже не обязательно использовать огромную и супер-умную модель.

Во-вторых, тесты показывают, что такие учителя учат ризонингу лучше. На примере Qwen 7B и 32B на графике 2 видно, что прирост от RLT выше, чем от обучения с DeepSeek R1.

Пожалуй, самая интересная работа по RL за последнее время. Почитать полностью можно тут. Код и веса обученных моделей, кстати, тоже открыли.

SakanaAI опять светятся с интересной статьей: они предлагают новый способ обучать модели ризонингу

Модели умеют размышлять благодаря обучению с подкреплением. Обычно это выглядит так: модель учится решать сложные задачи, рассуждая, и получает вознаграждение, если приходит к правильному ответу. При этом часто после этого знания такой модели-учителя используются (дистилляция или cold start) для обучения модели-ученика, которая и становится конечным продуктом. Так было, например, с R1.

Sakana же предлагают обучать модель-учителя непосредственно учить других, вместо того, чтобы выучивать что-то самой:

Во время обучения модель-учитель видит уже не только задачи, а сразу задачи с решениями. Ее цель – не научиться их решать, а максимально понятно объяснить решение ученику. Ну, то есть, реально отработать как обычный школьный учитель.

При этом эти Reinforcement-Learned Teachers (так называется метод) получают награду, соответсвующую тому, насколько хорошо ученик их понял. Понимание оценивается с помощью лог-распределения вероятностей токенов на выходе у ученика.

Таким образом модель-учитель обучается максимизировать ясность своих объяснений, и параллельно с этим (а не на следующем этапе) мы сразу обучаем конечную модель-ученика.

Во-первых, это получается быстрее и дешевле, потому что в качестве учителя уже не обязательно использовать огромную и супер-умную модель.

Во-вторых, тесты показывают, что такие учителя учат ризонингу лучше. На примере Qwen 7B и 32B на графике 2 видно, что прирост от RLT выше, чем от обучения с DeepSeek R1.

Пожалуй, самая интересная работа по RL за последнее время. Почитать полностью можно тут. Код и веса обученных моделей, кстати, тоже открыли.
Please open Telegram to view this post
VIEW IN TELEGRAM
1150🔥4419👍13🤯7😁22❤‍🔥1


>>Click here to continue<<

Data Secrets










Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)


Warning: Undefined array key 3 in /var/www/hottg/function.php on line 115

Fatal error: Uncaught mysqli_sql_exception: Can't create/write to file '/tmp/#sql-temptable-a06e-46c8de-1101.MAI' (Errcode: 28 "No space left on device") in /var/www/hottg/function.php:216 Stack trace: #0 /var/www/hottg/function.php(216): mysqli_query() #1 /var/www/hottg/function.php(115): select() #2 /var/www/hottg/post.php(351): daCache() #3 /var/www/hottg/route.php(63): include_once('...') #4 {main} thrown in /var/www/hottg/function.php on line 216