Channel: gonzo-обзоры ML статей
Muon Optimizer Accelerates Grokking
Amund Tveit, Bjørn Remseth, Arve Skogvold
Статья: https://arxiv.org/abs/2504.16041
Любопытная история про гроккинг, здесь про влияние оптимизатора и конкретно про то, что переключение оптимизатора с AdamW на Muon существенно ускоряет наступление гроккинга.
Напомним, что гроккинг -- это весьма интересный феномен генерализации, когда модель сначала как бы переобучается (высокое качество на обучающем сете, но низкое на уровне рандома на валидационном), но если продолжать обучение дальше, то в какой-то момент перформанс на валидационном быстро датасете вырастает до высоких значений. Модель “врубается”.
Текущая работа определяет гроккинг следующим образом: это первая эпоха, на которой точность на валидации достигает или превосходит 95%, после того как точность на трейне стабилизировалась около 100%.
Если не читали разбор оригинальной статьи про гроккинг (https://hottg.com/gonzo_ML/831), очень рекомендую.
Вот ведь, было время, когда OpenAI публиковал интересные статьи, и эту, и про double descent, и много всего другого…
Muon (MomentUm Orthogonalized by Newton-Schulz) -- это свежий оптимизатор (https://github.com/KellerJordan/Muon), предназначенный для обучения внутренних слоёв моделей, работает с 2D+ матрицами параметров. Разные векторы и скаляры надо обучать чем-то другим, например, AdamW. Эмпирически нашли также, что и эмбеддинги с классификационными головами лучше обучать не Muon’ом, у них другая динамика оптимизации (по крайней мере у первых).
Алгоритм берёт градиенты из SGD-Nesterov-momentum (можно и без Нестерова, но с ним лучше) и делает их постпроцессинг через итерацию Newton-Schulz, которая приближённо ортогонализует матрицу апдейтов. Больше подробностей есть в описании алгоритма тут: https://kellerjordan.github.io/posts/muon/.
Muon родился осенью прошлого года (https://x.com/kellerjordan0/status/1842300916864844014) и уже показал себя хорошо на скейлинге MoE LLM c 3B/16B параметров (вариант deepseek-v3-small) в обучении на 5.7T токенов, будучи примерно в два раза эффективнее AdamW (https://arxiv.org/abs/2502.16982).
В текущей работе проверили несколько датасетов. Датасет как в оригинальной работе про гроккинг и арифметику по модулю 97, а также датасет про чётность 10-битных бинарных строк. Задачи выбраны потому что на них феномен хорошо демонстрируется.
Поскольку одна из свежих работ про гроккинг (https://arxiv.org/abs/2501.04697) показывала влияние нестабильности софтмакса (Softmax Collapse) на проявление феномена, попробовали несколько альтернатив: стандартный Softmax, кусочнолинейный Stablemax с лучшей стабильностью, и приводящий к разреженным результатам Sparsemax.
Проверяли на классическом трансформере, с identity эмбеддингами (токен “42” маппится в вектор 42), RoPE, RMSNorm, SiLU активации, с дропаутом.
Сравнивали AdamW (β1 = 0.9, β2 = 0.98) и Muon. Делали множественные запуски с разными случайными сидами.
Как результат, у Muon статистически значимо преимущество, он существенно раньше приводит к гроккингу, примерно на 100-й эпохе вместо 150-й. Ещё и распределение grokking times более узкое.
Так что хотите быстрого гроккинга, юзайте мюон!
Авторы немного рассуждают на тему, что именно в мюоне помогает гроккингу. Ограничения спектральных норм и сигналы второго порядка уводят модель в сторону от тупого запоминания и помогают обнаружить настоящий паттерн.
В целом требуется более широкое исследование на более крупных моделях и разнообразных задачах.
Amund Tveit, Bjørn Remseth, Arve Skogvold
Статья: https://arxiv.org/abs/2504.16041
Любопытная история про гроккинг, здесь про влияние оптимизатора и конкретно про то, что переключение оптимизатора с AdamW на Muon существенно ускоряет наступление гроккинга.
Напомним, что гроккинг -- это весьма интересный феномен генерализации, когда модель сначала как бы переобучается (высокое качество на обучающем сете, но низкое на уровне рандома на валидационном), но если продолжать обучение дальше, то в какой-то момент перформанс на валидационном быстро датасете вырастает до высоких значений. Модель “врубается”.
Текущая работа определяет гроккинг следующим образом: это первая эпоха, на которой точность на валидации достигает или превосходит 95%, после того как точность на трейне стабилизировалась около 100%.
Если не читали разбор оригинальной статьи про гроккинг (https://hottg.com/gonzo_ML/831), очень рекомендую.
Вот ведь, было время, когда OpenAI публиковал интересные статьи, и эту, и про double descent, и много всего другого…
Muon (MomentUm Orthogonalized by Newton-Schulz) -- это свежий оптимизатор (https://github.com/KellerJordan/Muon), предназначенный для обучения внутренних слоёв моделей, работает с 2D+ матрицами параметров. Разные векторы и скаляры надо обучать чем-то другим, например, AdamW. Эмпирически нашли также, что и эмбеддинги с классификационными головами лучше обучать не Muon’ом, у них другая динамика оптимизации (по крайней мере у первых).
Алгоритм берёт градиенты из SGD-Nesterov-momentum (можно и без Нестерова, но с ним лучше) и делает их постпроцессинг через итерацию Newton-Schulz, которая приближённо ортогонализует матрицу апдейтов. Больше подробностей есть в описании алгоритма тут: https://kellerjordan.github.io/posts/muon/.
Muon родился осенью прошлого года (https://x.com/kellerjordan0/status/1842300916864844014) и уже показал себя хорошо на скейлинге MoE LLM c 3B/16B параметров (вариант deepseek-v3-small) в обучении на 5.7T токенов, будучи примерно в два раза эффективнее AdamW (https://arxiv.org/abs/2502.16982).
В текущей работе проверили несколько датасетов. Датасет как в оригинальной работе про гроккинг и арифметику по модулю 97, а также датасет про чётность 10-битных бинарных строк. Задачи выбраны потому что на них феномен хорошо демонстрируется.
Поскольку одна из свежих работ про гроккинг (https://arxiv.org/abs/2501.04697) показывала влияние нестабильности софтмакса (Softmax Collapse) на проявление феномена, попробовали несколько альтернатив: стандартный Softmax, кусочнолинейный Stablemax с лучшей стабильностью, и приводящий к разреженным результатам Sparsemax.
Проверяли на классическом трансформере, с identity эмбеддингами (токен “42” маппится в вектор 42), RoPE, RMSNorm, SiLU активации, с дропаутом.
Сравнивали AdamW (β1 = 0.9, β2 = 0.98) и Muon. Делали множественные запуски с разными случайными сидами.
Как результат, у Muon статистически значимо преимущество, он существенно раньше приводит к гроккингу, примерно на 100-й эпохе вместо 150-й. Ещё и распределение grokking times более узкое.
Так что хотите быстрого гроккинга, юзайте мюон!
Авторы немного рассуждают на тему, что именно в мюоне помогает гроккингу. Ограничения спектральных норм и сигналы второго порядка уводят модель в сторону от тупого запоминания и помогают обнаружить настоящий паттерн.
В целом требуется более широкое исследование на более крупных моделях и разнообразных задачах.
Новые оптимизаторы -- это вообще интересная тема, там тоже постоянно что-то появляется, и какая-то новая теория в том числе. Например, одна из недавних работ “Old Optimizer, New Norm: An Anthology” (https://arxiv.org/abs/2409.20325) обобщает несколько методов (Adam, Shampoo, Prodigy) и показывает их эквивалентность steepest descent с определённой нормой, а также намечает новое пространство (выбор нормы, выбор шага) для дизайна таких алгоритмов. Это всё идейно напоминает подход, который авторы SSM постоянно воспроизводят (https://hottg.com/gonzo_ML/2860, https://hottg.com/gonzo_ML/2718), сводя во всё более общем матаппарате разные методы (RNN, SSM, трансформеры) под один зонтик. Внимательно работу пока не изучал, но выглядит интересно. И про Newton-Schulz iteration там тоже есть.
Спасибо авторам мюона, нашёл прекрасную цитату в работе Ноама Шазира 2020 года (https://arxiv.org/abs/2002.05202):
“We offer no explanation as to why these architectures seem to work; we attribute their success, as all else, to divine benevolence.”
На этой оптимистической ноте и закончу.
Спасибо авторам мюона, нашёл прекрасную цитату в работе Ноама Шазира 2020 года (https://arxiv.org/abs/2002.05202):
“We offer no explanation as to why these architectures seem to work; we attribute their success, as all else, to divine benevolence.”
На этой оптимистической ноте и закончу.
arXiv.org
Muon Optimizer Accelerates Grokking
This paper investigates the impact of different optimizers on the grokking phenomenon, where models exhibit delayed generalization. We conducted experiments across seven numerical tasks (primarily...
Qwen3 models are supporting 119 languages and dialects.
И наконец-то есть полный список этих языков с разбивкой на семьи.
И наконец-то есть полный список этих языков с разбивкой на семьи.
Хороший толк для прослушивания во время утренней прогулки.
Сотрудники Антропика, работающие над вопросами model welfare и наличия сознания у моделей, рассуждают на тему.
https://youtu.be/pyXouxa0WnY?si=4MRs96pBHkzD3L50
Сотрудники Антропика, работающие над вопросами model welfare и наличия сознания у моделей, рассуждают на тему.
https://youtu.be/pyXouxa0WnY?si=4MRs96pBHkzD3L50
YouTube
Could AI models be conscious?
As we build AI systems, and as they begin to approximate or surpass many human qualities, another question arises. Should we also be concerned about the potential consciousness, agency, and experiences of the models themselves? Should we be concerned about…
Мне кажется, одним из следующих больших майлстоунов в обучении фронтирных моделей будет обучение на большом, актуальном и курируемом массиве учебной и научной литературы.
Это всё в целом как бы не новая идея. Модели и сейчас уже весьма неплохо отвечают на разные актуальные вопросы, решают сложные задачи уровня вплоть до олимпиадного и прогрессируют крайне быстро. Какие-то модели откровенно на книгах и обучаются, см. “Textbooks Are All You Need” (https://arxiv.org/abs/2306.11644, разбирали тут https://hottg.com/gonzo_ML/1871). Злые языки правда утверждают, что обучаются они на тест сете, отсюда развитие концепции до “Pretraining on the Test Set Is All You Need” (https://arxiv.org/abs/2309.08632). Другие авторы моделей очень не любят раскрывать состав своих трейн сетов, и не факт, что из-за наличия там тест сетов, может также из-за сложностей с авторским правом.
То есть мы вроде как бы и так уже там или по крайней мере идём. Но я думаю, что до реально масштабного обучения на учебниках, нам ещё надо сколько-то пройти. И попутно надо решить несколько вопросов:
1) Авторское право. Хорошие учебники кому-то принадлежат, защищены авторским правом и они не в опенсорсе с удобной лицензией. И нескоро там будут. Это сложная и многогранная тема и проблема требует системного решения, которое должно включать и экономические стимулы. Пользы от того, что кто-то сделал хороший учебник, а прибыль потом извлекает автор обученной на нём модели, тоже немного. Как-то должна перестроиться вся экономика вокруг таких моделей и данных.
2) Реально большой эффективный контекст, достаточный чтобы модель смогла интернализировать большие области знаний ничего не теряя, а также по ходу дела подтягивать свежие результаты, идеально без переобучения модели. Учебники скорее всего должны быть какого-то нового формата. Возможно частью решения будут являться knowledge graphs, но возможно не будут, большого их количества по разным областям как-то не появилось.
3) Зрелый RAG и иные тулы для работы с новой информацией. Тут вроде ничего нового, будет нужна верификация и оценка качества, оркестрация для регулярных обновлений и предобработки новых книг, статей и прочего, и в целом выстраивание системы, где интеграция старого и нового знания происходит более-менее автоматически.
4) Мультимодальность как минимум для текста + картинок, которых везде миллион и их надо хорошо понимать -- диаграммы, графики, схемы, математические и другие формулы. Видео тоже может быть полезно, но начать можно и без него. Интересно как бы могло выглядеть хорошее обучающее видео не для человека, а для модели?
На выходе получится модель, или даже скорее агент-помощник учёного, обладающий недюжинными способностями в разных областях знаний. Copilot для учёного, а со временем и авто-учёный, куда многие и так идут. А также заодно и тьютор или Букварь для благородных девиц.
Где-то рядом находится вопрос про safety, misuse, dual use и прочие опасные способности моделей. Тестирования моделей на такие способности уже давно есть (https://www.aisi.gov.uk/work/pre-deployment-evaluation-of-anthropics-upgraded-claude-3-5-sonnet) и описанное здесь обучение риски безусловно поднимет. Но бенефиты, я уверен, велики, и явно будет разделение на модели для людей проверенных и для всех остальных.
Большая и самая значимая часть проблем здесь, как видно, не совсем техническая.
Это всё в целом как бы не новая идея. Модели и сейчас уже весьма неплохо отвечают на разные актуальные вопросы, решают сложные задачи уровня вплоть до олимпиадного и прогрессируют крайне быстро. Какие-то модели откровенно на книгах и обучаются, см. “Textbooks Are All You Need” (https://arxiv.org/abs/2306.11644, разбирали тут https://hottg.com/gonzo_ML/1871). Злые языки правда утверждают, что обучаются они на тест сете, отсюда развитие концепции до “Pretraining on the Test Set Is All You Need” (https://arxiv.org/abs/2309.08632). Другие авторы моделей очень не любят раскрывать состав своих трейн сетов, и не факт, что из-за наличия там тест сетов, может также из-за сложностей с авторским правом.
То есть мы вроде как бы и так уже там или по крайней мере идём. Но я думаю, что до реально масштабного обучения на учебниках, нам ещё надо сколько-то пройти. И попутно надо решить несколько вопросов:
1) Авторское право. Хорошие учебники кому-то принадлежат, защищены авторским правом и они не в опенсорсе с удобной лицензией. И нескоро там будут. Это сложная и многогранная тема и проблема требует системного решения, которое должно включать и экономические стимулы. Пользы от того, что кто-то сделал хороший учебник, а прибыль потом извлекает автор обученной на нём модели, тоже немного. Как-то должна перестроиться вся экономика вокруг таких моделей и данных.
2) Реально большой эффективный контекст, достаточный чтобы модель смогла интернализировать большие области знаний ничего не теряя, а также по ходу дела подтягивать свежие результаты, идеально без переобучения модели. Учебники скорее всего должны быть какого-то нового формата. Возможно частью решения будут являться knowledge graphs, но возможно не будут, большого их количества по разным областям как-то не появилось.
3) Зрелый RAG и иные тулы для работы с новой информацией. Тут вроде ничего нового, будет нужна верификация и оценка качества, оркестрация для регулярных обновлений и предобработки новых книг, статей и прочего, и в целом выстраивание системы, где интеграция старого и нового знания происходит более-менее автоматически.
4) Мультимодальность как минимум для текста + картинок, которых везде миллион и их надо хорошо понимать -- диаграммы, графики, схемы, математические и другие формулы. Видео тоже может быть полезно, но начать можно и без него. Интересно как бы могло выглядеть хорошее обучающее видео не для человека, а для модели?
На выходе получится модель, или даже скорее агент-помощник учёного, обладающий недюжинными способностями в разных областях знаний. Copilot для учёного, а со временем и авто-учёный, куда многие и так идут. А также заодно и тьютор или Букварь для благородных девиц.
Где-то рядом находится вопрос про safety, misuse, dual use и прочие опасные способности моделей. Тестирования моделей на такие способности уже давно есть (https://www.aisi.gov.uk/work/pre-deployment-evaluation-of-anthropics-upgraded-claude-3-5-sonnet) и описанное здесь обучение риски безусловно поднимет. Но бенефиты, я уверен, велики, и явно будет разделение на модели для людей проверенных и для всех остальных.
Большая и самая значимая часть проблем здесь, как видно, не совсем техническая.
arXiv.org
Textbooks Are All You Need
We introduce phi-1, a new large language model for code, with significantly smaller size than competing models: phi-1 is a Transformer-based model with 1.3B parameters, trained for 4 days on 8...
В дополнение к посту о следующем майлстоуне — обучении LLM на актуальной учебной литературе — хочу обсудить конкретное проявление тренда: доменно-специфичные модели (DLLM).
DLLM могут стать самым заметным дизрапшном. По разным оценкам ежегодно выходит 2,8-3,3 млн новых научных статей — человек их не прочтёт, а копилот-модель сможет.
Вероятнее всего, в большинстве значимых областей появятся модели-эксперты, способные отвечать на вопросы по этой области, помогающие решать текущие задачи и дать человеку буст уровня x10 к текущей производительности. Можно будет иметь эксперта по современной физике, супер-интеллектуального помощника в области материаловедения, глубокого эксперта в software engineering, советника в медицине или сельском хозяйстве и так далее.
Между собой модели много чем будут отличаться — разные типы знаний, про многие из которых другим моделям знать не обязательно (физика твёрдого тела не требуется компилятору; медицинской модели не критично знание лицензий ПО), разные требования к лицензиям и безопасности, разные процедуры оценки качества и так далее. Будет и везде своя регуляторика, проверки и сертификации.
Нужна мультимодальность, но на более детальном уровне она будет разной — даже для картиночной модальности объекты будут сильно разными: 3D молекулы, медснимки, UML-диаграммы, фазовые графики — под каждую дисциплину своя суб-модальность.
Не думаю, что DLLM будут покрыты текущими производителями универсальных моделей. Их не хватит, чтобы глубоко копнуть во все эти области и заниматься постоянным обновлением и контролем качества. Но вероятно они предоставят хорошие базовые модели и инфраструктуру для их тюнинга и использования. А другие люди и организации, обладающие уникальными данными и экспертизой, будут DLLM создавать. Этот процесс, вероятно, придётся организовывать самим.
Важными измерениями здесь будут scale-диапазон (on-device → GPU-кластер), и открытая или закрытая (что и как ты контролируешь). В edge и on-device, думаю, будет особенно много интересного в ближайшие годы. Во многих местах надо уметь работать без интернета, особенно если это какой-то непрерывный техпроцесс.
Траектория с самостоятельным предобучением модели (уровня сотен миллиардов — триллионов токенов) останется для избранных и самых богатых, а совсем массовым сценарием будет адаптация базовой модели, в облаке или локально.
Данные по сути распадаются на три разных слоя:
1. Core corpus — стабилизированные источники (учебники, ГОСТы, review-статьи).
2. Dynamic feed — preprints, патенты, свежая пресса (auto-RAG-pipeline).
3. Telemetry (приватные логи и фидбек) — чтобы модель постепенно училась на контексте конкретной организации.
Особая ценность: способность держать эти слои в актуальном состоянии (а это уже SaaS-ниша под названием «DataOps for DLLM»). Core обновляется раз в квартал, Dynamic feed — ежедневный (или даже streaming) ingest препринтов и патентов через RAG-пайплайн, Telemetry — online fine-tuning / RLHF.
Отдельно поверх этих слоёв лежит слой комплаенса: для Core-корпуса важна лицензия, для Dynamic — проверка авторских прав, для Telemetry — GDPR/локальные законы.
Ну и в реальности это будет не просто DLLM, а агент с DLLM внутри, обвешанный специальными дополнительными инструкциями, тулами, да и другими агентами.
Большая тема — доменные бенчмарки, а может в пределе и сертификация. С одной стороны без бенчмарков доверия не будет, с другой стороны всё равно надо проверять на своих данных и задачах, так или иначе у каждой компании своя специфика и свои требования, и разные модели могут вести себя по-разному.
У DLLM профиль рисков отличается от общей модели — хорошая доменная модель ошибается реже, но цена ошибки выше: неправильная дозировка, некорректный отчёт. Отсюда — необходимость доменного аудита, traceable citations, где-то explainability. Вероятно, появится рынок независимого red-team-аудита, который регуляторы и страховщики будут учитывать при выводе модели в прод.
DLLM могут стать самым заметным дизрапшном. По разным оценкам ежегодно выходит 2,8-3,3 млн новых научных статей — человек их не прочтёт, а копилот-модель сможет.
Вероятнее всего, в большинстве значимых областей появятся модели-эксперты, способные отвечать на вопросы по этой области, помогающие решать текущие задачи и дать человеку буст уровня x10 к текущей производительности. Можно будет иметь эксперта по современной физике, супер-интеллектуального помощника в области материаловедения, глубокого эксперта в software engineering, советника в медицине или сельском хозяйстве и так далее.
Между собой модели много чем будут отличаться — разные типы знаний, про многие из которых другим моделям знать не обязательно (физика твёрдого тела не требуется компилятору; медицинской модели не критично знание лицензий ПО), разные требования к лицензиям и безопасности, разные процедуры оценки качества и так далее. Будет и везде своя регуляторика, проверки и сертификации.
Нужна мультимодальность, но на более детальном уровне она будет разной — даже для картиночной модальности объекты будут сильно разными: 3D молекулы, медснимки, UML-диаграммы, фазовые графики — под каждую дисциплину своя суб-модальность.
Не думаю, что DLLM будут покрыты текущими производителями универсальных моделей. Их не хватит, чтобы глубоко копнуть во все эти области и заниматься постоянным обновлением и контролем качества. Но вероятно они предоставят хорошие базовые модели и инфраструктуру для их тюнинга и использования. А другие люди и организации, обладающие уникальными данными и экспертизой, будут DLLM создавать. Этот процесс, вероятно, придётся организовывать самим.
Важными измерениями здесь будут scale-диапазон (on-device → GPU-кластер), и открытая или закрытая (что и как ты контролируешь). В edge и on-device, думаю, будет особенно много интересного в ближайшие годы. Во многих местах надо уметь работать без интернета, особенно если это какой-то непрерывный техпроцесс.
Траектория с самостоятельным предобучением модели (уровня сотен миллиардов — триллионов токенов) останется для избранных и самых богатых, а совсем массовым сценарием будет адаптация базовой модели, в облаке или локально.
Данные по сути распадаются на три разных слоя:
1. Core corpus — стабилизированные источники (учебники, ГОСТы, review-статьи).
2. Dynamic feed — preprints, патенты, свежая пресса (auto-RAG-pipeline).
3. Telemetry (приватные логи и фидбек) — чтобы модель постепенно училась на контексте конкретной организации.
Особая ценность: способность держать эти слои в актуальном состоянии (а это уже SaaS-ниша под названием «DataOps for DLLM»). Core обновляется раз в квартал, Dynamic feed — ежедневный (или даже streaming) ingest препринтов и патентов через RAG-пайплайн, Telemetry — online fine-tuning / RLHF.
Отдельно поверх этих слоёв лежит слой комплаенса: для Core-корпуса важна лицензия, для Dynamic — проверка авторских прав, для Telemetry — GDPR/локальные законы.
Ну и в реальности это будет не просто DLLM, а агент с DLLM внутри, обвешанный специальными дополнительными инструкциями, тулами, да и другими агентами.
Большая тема — доменные бенчмарки, а может в пределе и сертификация. С одной стороны без бенчмарков доверия не будет, с другой стороны всё равно надо проверять на своих данных и задачах, так или иначе у каждой компании своя специфика и свои требования, и разные модели могут вести себя по-разному.
У DLLM профиль рисков отличается от общей модели — хорошая доменная модель ошибается реже, но цена ошибки выше: неправильная дозировка, некорректный отчёт. Отсюда — необходимость доменного аудита, traceable citations, где-то explainability. Вероятно, появится рынок независимого red-team-аудита, который регуляторы и страховщики будут учитывать при выводе модели в прод.
Первые инкарнации вроде Med-PaLM 2 в здравоохранении, BloombergGPT в финансах, Sec-PaLM 2 в безопасности показывают, что рецепты “общее → узкое” уже работают; ближайшие пару лет зададут темп дальнейшей фрагментации рынков LLM на вертикали.
Telegram
gonzo-обзоры ML статей
Мне кажется, одним из следующих больших майлстоунов в обучении фронтирных моделей будет обучение на большом, актуальном и курируемом массиве учебной и научной литературы.
Это всё в целом как бы не новая идея. Модели и сейчас уже весьма неплохо отвечают…
Это всё в целом как бы не новая идея. Модели и сейчас уже весьма неплохо отвечают…
HTML Embed Code: