Warning: mkdir(): No space left on device in /var/www/hottg/post.php on line 59

Warning: file_put_contents(aCache/aDaily/2025-07-17/post/data_secrets/-7220-7221-7222-7223-7224-7220-): Failed to open stream: No such file or directory in /var/www/hottg/post.php on line 72
SakanaAI опять светятся с интересной статьей: они предлагают новый способ обучать модели ризонингу @Data Secrets

Data Secrets | United States America (US)

Create: 2025-06-23 Update: 2025-07-17 02:28:28

SakanaAI опять светятся с интересной статьей: они предлагают новый способ обучать модели ризонингу

Модели умеют размышлять благодаря обучению с подкреплением. Обычно это выглядит так: модель учится решать сложные задачи, рассуждая, и получает вознаграждение, если приходит к правильному ответу. При этом часто после этого знания такой модели-учителя используются (дистилляция или cold start) для обучения модели-ученика, которая и становится конечным продуктом. Так было, например, с R1.

Sakana же предлагают обучать модель-учителя непосредственно учить других, вместо того, чтобы выучивать что-то самой:

➖ Во время обучения модель-учитель видит уже не только задачи, а сразу задачи с решениями. Ее цель – не научиться их решать, а максимально понятно объяснить решение ученику. Ну, то есть, реально отработать как обычный школьный учитель.

➖ При этом эти Reinforcement-Learned Teachers (так называется метод) получают награду, соответсвующую тому, насколько хорошо ученик их понял. Понимание оценивается с помощью лог-распределения вероятностей токенов на выходе у ученика.

➖ Таким образом модель-учитель обучается максимизировать ясность своих объяснений, и параллельно с этим (а не на следующем этапе) мы сразу обучаем конечную модель-ученика.

Во-первых, это получается быстрее и дешевле, потому что в качестве учителя уже не обязательно использовать огромную и супер-умную модель.

Во-вторых, тесты показывают, что такие учителя учат ризонингу лучше. На примере Qwen 7B и 32B на графике 2 видно, что прирост от RLT выше, чем от обучения с DeepSeek R1.

Пожалуй, самая интересная работа по RL за последнее время. Почитать полностью можно тут. Код и веса обученных моделей, кстати, тоже открыли.

Data Secrets

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤150🔥44⚡19👍13🤯7😁22❤‍🔥1

hottg.com/data_secrets/7224

18K viewsJun 23 at 12:23

>>Click here to continue<<

Data Secrets

Share with your best friend

Mr. Durov launched Telegram in late 2013 with his brother, Nikolai, just months before he was pushed out of VK, the Russian social-media platform he founded. Mr. Durov pitched his new app—funded with the proceeds from the VK sale—less as a business than as a way for people to send messages while avoiding government surveillance and censorship.

SakanaAI опять светятся с интересной статьей: они предлагают новый способ обучать модели ризонингу

Data Secrets TG
Webview: 7224
Telegram TG Webview: hottg.com/data_secrets/webview
Telegram TG Channel: Data Secrets
Telegram Updated:
Warning: filemtime(): stat failed for aCache/aDaily/2025-07-17/post/data_secrets/-7220-7221-7222-7223-7224-7220- in /var/www/hottg/post.php on line 338
1970-01-01 00:00:00

United States America Popular Telegram Group (US)

Warning: Undefined array key 3 in /var/www/hottg/function.php on line 115

Fatal error: Uncaught mysqli_sql_exception: Can't create/write to file '/tmp/#sql-temptable-a06e-46c8de-1101.MAI' (Errcode: 28 "No space left on device") in /var/www/hottg/function.php:216 Stack trace: #0 /var/www/hottg/function.php(216): mysqli_query() #1 /var/www/hottg/function.php(115): select() #2 /var/www/hottg/post.php(351): daCache() #3 /var/www/hottg/route.php(63): include_once('...') #4 {main} thrown in /var/www/hottg/function.php on line 216