Warning: mkdir(): No space left on device in /var/www/hottg/post.php on line 59

Warning: file_put_contents(aCache/aDaily/2025-07-21/post/abstractDL/--): Failed to open stream: No such file or directory in /var/www/hottg/post.php on line 72
Как глубина LLM связана с максимально разрешимой алгоритмической сложностью? @AbstractDL
TG Telegram Group & Channel
AbstractDL | United States America (US)
Create: Update:

Как глубина LLM связана с максимально разрешимой алгоритмической сложностью?

Придумал я, казалось бы, гениальную идею для новой научной работы, быстренько закодил за выходные, увидел офигенные результаты, подтверждающие мою гипотезу — и только после этого додумался спросить у Deep Research, не дебил ли я.

Итак, представляю вам разбор статьи «Transformers, parallel computation, and logarithmic depth», вышедшей год назад 🤬

Основная фишка статьи — задача chasing pointer. Суть простая: у вас есть цепочка индексов (целых чисел), где каждый индекс ведёт на другой элемент (индекс \ указатель) в последовательности. Задача модели — пройти назад по этим указателям и найти элемент массива на k прыжков назад за один forward pass.

Авторы строго показывают, что глубина трансформера критически важна и определяет максимально возможное число таких прыжков (сложность задачи), которое модель способна эффективно решить. Причём связь эта экспоненциальная: трансформеру с глубиной L доступно O(2^L) прыжков за один шаг.

Проще говоря: никакое увеличение ширины, количества голов внимания или MOE экспертов не заменит глубину. Тут речь именно про внутренние, архитектурные вычисления, а не Chain-of-Thought, то есть мы требуем чтобы модель выдала ответ сразу, без рассуждений.

P.S. Кстати, я потестил Claude-4 и ChatGPT-4.1 \ 4.5 — у всех предел наступает примерно на 25 прыжках, значит ли это, что их эффективная глубина всего 5 слоёв? 😄 (но на самом деле это потому, что их не обучали на эту задачу)

Статья

Как глубина LLM связана с максимально разрешимой алгоритмической сложностью?

Придумал я, казалось бы, гениальную идею для новой научной работы, быстренько закодил за выходные, увидел офигенные результаты, подтверждающие мою гипотезу — и только после этого додумался спросить у Deep Research, не дебил ли я.

Итак, представляю вам разбор статьи «Transformers, parallel computation, and logarithmic depth», вышедшей год назад 🤬

Основная фишка статьи — задача chasing pointer. Суть простая: у вас есть цепочка индексов (целых чисел), где каждый индекс ведёт на другой элемент (индекс \ указатель) в последовательности. Задача модели — пройти назад по этим указателям и найти элемент массива на k прыжков назад за один forward pass.

Авторы строго показывают, что глубина трансформера критически важна и определяет максимально возможное число таких прыжков (сложность задачи), которое модель способна эффективно решить. Причём связь эта экспоненциальная: трансформеру с глубиной L доступно O(2^L) прыжков за один шаг.

Проще говоря: никакое увеличение ширины, количества голов внимания или MOE экспертов не заменит глубину. Тут речь именно про внутренние, архитектурные вычисления, а не Chain-of-Thought, то есть мы требуем чтобы модель выдала ответ сразу, без рассуждений.

P.S. Кстати, я потестил Claude-4 и ChatGPT-4.1 \ 4.5 — у всех предел наступает примерно на 25 прыжках, значит ли это, что их эффективная глубина всего 5 слоёв? 😄 (но на самом деле это потому, что их не обучали на эту задачу)

Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥76😁1611👍8🤔4😭3


>>Click here to continue<<

AbstractDL






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)


Warning: Undefined array key 3 in /var/www/hottg/function.php on line 115

Fatal error: Uncaught mysqli_sql_exception: Can't create/write to file '/tmp/#sql-temptable-a06e-5f8ab7-3148.MAI' (Errcode: 28 "No space left on device") in /var/www/hottg/function.php:216 Stack trace: #0 /var/www/hottg/function.php(216): mysqli_query() #1 /var/www/hottg/function.php(115): select() #2 /var/www/hottg/post.php(351): daCache() #3 /var/www/hottg/route.php(63): include_once('...') #4 {main} thrown in /var/www/hottg/function.php on line 216