Warning: mkdir(): No space left on device in /var/www/hottg/post.php on line 59

Warning: file_put_contents(aCache/aDaily/2025-07-21/post/gonzo_ML/--): Failed to open stream: No such file or directory in /var/www/hottg/post.php on line 72
Глубже — значит умнее? Или просто длиннее? Разбираемся @gonzo-обзоры ML статей
TG Telegram Group & Channel
gonzo-обзоры ML статей | United States America (US)
Create: Update:

Глубже — значит умнее? Или просто длиннее? Разбираемся, как языковые модели используют свои слои

В продолжение темы про mech interp в трансформерах, свежая работа Криса Маннинга и ко разбирает важность глубины трансформера и приходит к выводам, что более глубокая сеть скорее растягивает те же вычисления на большее число слоёв.

Это прикольная тема, я тоже экспериментировал с выкидыванием слоёв в LLM (можете взять код и поэкспериментировать на более новых моделях, или на более глубоких, у кого DGX под рукой есть), и в канале мы регулярно писали про подобные работы (Transformer Layers as Painters или LayerShuffle).

Ждём более умных подходов к обучению, им явно есть место!

P.S. Обновил автогенератор ревью и среди прочего пофиксил там глупую багу, из-за которой на перевод отправлялась не самая финальная версия ревью. Теперь должно стать ещё лучше, особенно это помогло в борьбе с галлюцинациями и выдумыванием ссылок. До канала такие примеры не доезжали, но проблема была регулярная.

Глубже — значит умнее? Или просто длиннее? Разбираемся, как языковые модели используют свои слои

В продолжение темы про mech interp в трансформерах, свежая работа Криса Маннинга и ко разбирает важность глубины трансформера и приходит к выводам, что более глубокая сеть скорее растягивает те же вычисления на большее число слоёв.

Это прикольная тема, я тоже экспериментировал с выкидыванием слоёв в LLM (можете взять код и поэкспериментировать на более новых моделях, или на более глубоких, у кого DGX под рукой есть), и в канале мы регулярно писали про подобные работы (Transformer Layers as Painters или LayerShuffle).

Ждём более умных подходов к обучению, им явно есть место!

P.S. Обновил автогенератор ревью и среди прочего пофиксил там глупую багу, из-за которой на перевод отправлялась не самая финальная версия ревью. Теперь должно стать ещё лучше, особенно это помогло в борьбе с галлюцинациями и выдумыванием ссылок. До канала такие примеры не доезжали, но проблема была регулярная.
1😁18🔥5👍21🍾1


>>Click here to continue<<

gonzo-обзоры ML статей






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)


Warning: Undefined array key 3 in /var/www/hottg/function.php on line 115

Fatal error: Uncaught mysqli_sql_exception: Can't create/write to file '/tmp/#sql-temptable-a06e-604ad7-31fd.MAI' (Errcode: 28 "No space left on device") in /var/www/hottg/function.php:216 Stack trace: #0 /var/www/hottg/function.php(216): mysqli_query() #1 /var/www/hottg/function.php(115): select() #2 /var/www/hottg/post.php(351): daCache() #3 /var/www/hottg/route.php(63): include_once('...') #4 {main} thrown in /var/www/hottg/function.php on line 216