TG Telegram Group Link
Channel: gonzo-обзоры ML статей
Back to Bottom
Это шедевр ящетаю!
Датасет DUMB500 — это тоже прекрасно, кстати!
Muon Optimizer Accelerates Grokking
Amund Tveit, Bjørn Remseth, Arve Skogvold
Статья: https://arxiv.org/abs/2504.16041

Любопытная история про гроккинг, здесь про влияние оптимизатора и конкретно про то, что переключение оптимизатора с AdamW на Muon существенно ускоряет наступление гроккинга.

Напомним, что гроккинг -- это весьма интересный феномен генерализации, когда модель сначала как бы переобучается (высокое качество на обучающем сете, но низкое на уровне рандома на валидационном), но если продолжать обучение дальше, то в какой-то момент перформанс на валидационном быстро датасете вырастает до высоких значений. Модель “врубается”.

Текущая работа определяет гроккинг следующим образом: это первая эпоха, на которой точность на валидации достигает или превосходит 95%, после того как точность на трейне стабилизировалась около 100%.

Если не читали разбор оригинальной статьи про гроккинг (https://hottg.com/gonzo_ML/831), очень рекомендую.

Вот ведь, было время, когда OpenAI публиковал интересные статьи, и эту, и про double descent, и много всего другого…

Muon (MomentUm Orthogonalized by Newton-Schulz) -- это свежий оптимизатор (https://github.com/KellerJordan/Muon), предназначенный для обучения внутренних слоёв моделей, работает с 2D+ матрицами параметров. Разные векторы и скаляры надо обучать чем-то другим, например, AdamW. Эмпирически нашли также, что и эмбеддинги с классификационными головами лучше обучать не Muon’ом, у них другая динамика оптимизации (по крайней мере у первых).

Алгоритм берёт градиенты из SGD-Nesterov-momentum (можно и без Нестерова, но с ним лучше) и делает их постпроцессинг через итерацию Newton-Schulz, которая приближённо ортогонализует матрицу апдейтов. Больше подробностей есть в описании алгоритма тут: https://kellerjordan.github.io/posts/muon/.

Muon родился осенью прошлого года (https://x.com/kellerjordan0/status/1842300916864844014) и уже показал себя хорошо на скейлинге MoE LLM c 3B/16B параметров (вариант deepseek-v3-small) в обучении на 5.7T токенов, будучи примерно в два раза эффективнее AdamW (https://arxiv.org/abs/2502.16982).

В текущей работе проверили несколько датасетов. Датасет как в оригинальной работе про гроккинг и арифметику по модулю 97, а также датасет про чётность 10-битных бинарных строк. Задачи выбраны потому что на них феномен хорошо демонстрируется.

Поскольку одна из свежих работ про гроккинг (https://arxiv.org/abs/2501.04697) показывала влияние нестабильности софтмакса (Softmax Collapse) на проявление феномена, попробовали несколько альтернатив: стандартный Softmax, кусочнолинейный Stablemax с лучшей стабильностью, и приводящий к разреженным результатам Sparsemax.

Проверяли на классическом трансформере, с identity эмбеддингами (токен “42” маппится в вектор 42), RoPE, RMSNorm, SiLU активации, с дропаутом.

Сравнивали AdamW (β1 = 0.9, β2 = 0.98) и Muon. Делали множественные запуски с разными случайными сидами.

Как результат, у Muon статистически значимо преимущество, он существенно раньше приводит к гроккингу, примерно на 100-й эпохе вместо 150-й. Ещё и распределение grokking times более узкое.

Так что хотите быстрого гроккинга, юзайте мюон!

Авторы немного рассуждают на тему, что именно в мюоне помогает гроккингу. Ограничения спектральных норм и сигналы второго порядка уводят модель в сторону от тупого запоминания и помогают обнаружить настоящий паттерн.

В целом требуется более широкое исследование на более крупных моделях и разнообразных задачах.
Новые оптимизаторы -- это вообще интересная тема, там тоже постоянно что-то появляется, и какая-то новая теория в том числе. Например, одна из недавних работ “Old Optimizer, New Norm: An Anthology” (https://arxiv.org/abs/2409.20325) обобщает несколько методов (Adam, Shampoo, Prodigy) и показывает их эквивалентность steepest descent с определённой нормой, а также намечает новое пространство (выбор нормы, выбор шага) для дизайна таких алгоритмов. Это всё идейно напоминает подход, который авторы SSM постоянно воспроизводят (https://hottg.com/gonzo_ML/2860, https://hottg.com/gonzo_ML/2718), сводя во всё более общем матаппарате разные методы (RNN, SSM, трансформеры) под один зонтик. Внимательно работу пока не изучал, но выглядит интересно. И про Newton-Schulz iteration там тоже есть.

Спасибо авторам мюона, нашёл прекрасную цитату в работе Ноама Шазира 2020 года (https://arxiv.org/abs/2002.05202):

“We offer no explanation as to why these architectures seem to work; we attribute their success, as all else, to divine benevolence.”

На этой оптимистической ноте и закончу.
This media is not supported in your browser
VIEW IN TELEGRAM
Qwen3 models are supporting 119 languages and dialects.

И наконец-то есть полный список этих языков с разбивкой на семьи.
Хороший толк для прослушивания во время утренней прогулки.

Сотрудники Антропика, работающие над вопросами model welfare и наличия сознания у моделей, рассуждают на тему.

https://youtu.be/pyXouxa0WnY?si=4MRs96pBHkzD3L50
Мне кажется, одним из следующих больших майлстоунов в обучении фронтирных моделей будет обучение на большом, актуальном и курируемом массиве учебной и научной литературы.

Это всё в целом как бы не новая идея. Модели и сейчас уже весьма неплохо отвечают на разные актуальные вопросы, решают сложные задачи уровня вплоть до олимпиадного и прогрессируют крайне быстро. Какие-то модели откровенно на книгах и обучаются, см. “Textbooks Are All You Need” (https://arxiv.org/abs/2306.11644, разбирали тут https://hottg.com/gonzo_ML/1871). Злые языки правда утверждают, что обучаются они на тест сете, отсюда развитие концепции до “Pretraining on the Test Set Is All You Need” (https://arxiv.org/abs/2309.08632). Другие авторы моделей очень не любят раскрывать состав своих трейн сетов, и не факт, что из-за наличия там тест сетов, может также из-за сложностей с авторским правом.

То есть мы вроде как бы и так уже там или по крайней мере идём. Но я думаю, что до реально масштабного обучения на учебниках, нам ещё надо сколько-то пройти. И попутно надо решить несколько вопросов:

1) Авторское право. Хорошие учебники кому-то принадлежат, защищены авторским правом и они не в опенсорсе с удобной лицензией. И нескоро там будут. Это сложная и многогранная тема и проблема требует системного решения, которое должно включать и экономические стимулы. Пользы от того, что кто-то сделал хороший учебник, а прибыль потом извлекает автор обученной на нём модели, тоже немного. Как-то должна перестроиться вся экономика вокруг таких моделей и данных.

2) Реально большой эффективный контекст, достаточный чтобы модель смогла интернализировать большие области знаний ничего не теряя, а также по ходу дела подтягивать свежие результаты, идеально без переобучения модели. Учебники скорее всего должны быть какого-то нового формата. Возможно частью решения будут являться knowledge graphs, но возможно не будут, большого их количества по разным областям как-то не появилось.

3) Зрелый RAG и иные тулы для работы с новой информацией. Тут вроде ничего нового, будет нужна верификация и оценка качества, оркестрация для регулярных обновлений и предобработки новых книг, статей и прочего, и в целом выстраивание системы, где интеграция старого и нового знания происходит более-менее автоматически.

4) Мультимодальность как минимум для текста + картинок, которых везде миллион и их надо хорошо понимать -- диаграммы, графики, схемы, математические и другие формулы. Видео тоже может быть полезно, но начать можно и без него. Интересно как бы могло выглядеть хорошее обучающее видео не для человека, а для модели?

На выходе получится модель, или даже скорее агент-помощник учёного, обладающий недюжинными способностями в разных областях знаний. Copilot для учёного, а со временем и авто-учёный, куда многие и так идут. А также заодно и тьютор или Букварь для благородных девиц.

Где-то рядом находится вопрос про safety, misuse, dual use и прочие опасные способности моделей. Тестирования моделей на такие способности уже давно есть (https://www.aisi.gov.uk/work/pre-deployment-evaluation-of-anthropics-upgraded-claude-3-5-sonnet) и описанное здесь обучение риски безусловно поднимет. Но бенефиты, я уверен, велики, и явно будет разделение на модели для людей проверенных и для всех остальных.

Большая и самая значимая часть проблем здесь, как видно, не совсем техническая.
В дополнение к посту о следующем майлстоуне — обучении LLM на актуальной учебной литературе — хочу обсудить конкретное проявление тренда: доменно-специфичные модели (DLLM).

DLLM могут стать самым заметным дизрапшном. По разным оценкам ежегодно выходит 2,8-3,3 млн новых научных статей — человек их не прочтёт, а копилот-модель сможет.

Вероятнее всего, в большинстве значимых областей появятся модели-эксперты, способные отвечать на вопросы по этой области, помогающие решать текущие задачи и дать человеку буст уровня x10 к текущей производительности. Можно будет иметь эксперта по современной физике, супер-интеллектуального помощника в области материаловедения, глубокого эксперта в software engineering, советника в медицине или сельском хозяйстве и так далее.

Между собой модели много чем будут отличаться — разные типы знаний, про многие из которых другим моделям знать не обязательно (физика твёрдого тела не требуется компилятору; медицинской модели не критично знание лицензий ПО), разные требования к лицензиям и безопасности, разные процедуры оценки качества и так далее. Будет и везде своя регуляторика, проверки и сертификации.

Нужна мультимодальность, но на более детальном уровне она будет разной — даже для картиночной модальности объекты будут сильно разными: 3D молекулы, медснимки, UML-диаграммы, фазовые графики — под каждую дисциплину своя суб-модальность.

Не думаю, что DLLM будут покрыты текущими производителями универсальных моделей. Их не хватит, чтобы глубоко копнуть во все эти области и заниматься постоянным обновлением и контролем качества. Но вероятно они предоставят хорошие базовые модели и инфраструктуру для их тюнинга и использования. А другие люди и организации, обладающие уникальными данными и экспертизой, будут DLLM создавать. Этот процесс, вероятно, придётся организовывать самим.

Важными измерениями здесь будут scale-диапазон (on-device → GPU-кластер), и открытая или закрытая (что и как ты контролируешь). В edge и on-device, думаю, будет особенно много интересного в ближайшие годы. Во многих местах надо уметь работать без интернета, особенно если это какой-то непрерывный техпроцесс.

Траектория с самостоятельным предобучением модели (уровня сотен миллиардов — триллионов токенов) останется для избранных и самых богатых, а совсем массовым сценарием будет адаптация базовой модели, в облаке или локально.

Данные по сути распадаются на три разных слоя:
1. Core corpus — стабилизированные источники (учебники, ГОСТы, review-статьи).
2. Dynamic feed — preprints, патенты, свежая пресса (auto-RAG-pipeline).
3. Telemetry (приватные логи и фидбек) — чтобы модель постепенно училась на контексте конкретной организации.

Особая ценность: способность держать эти слои в актуальном состоянии (а это уже SaaS-ниша под названием «DataOps for DLLM»). Core обновляется раз в квартал, Dynamic feed — ежедневный (или даже streaming) ingest препринтов и патентов через RAG-пайплайн, Telemetry — online fine-tuning / RLHF.

Отдельно поверх этих слоёв лежит слой комплаенса: для Core-корпуса важна лицензия, для Dynamic — проверка авторских прав, для Telemetry — GDPR/локальные законы.

Ну и в реальности это будет не просто DLLM, а агент с DLLM внутри, обвешанный специальными дополнительными инструкциями, тулами, да и другими агентами.

Большая тема — доменные бенчмарки, а может в пределе и сертификация. С одной стороны без бенчмарков доверия не будет, с другой стороны всё равно надо проверять на своих данных и задачах, так или иначе у каждой компании своя специфика и свои требования, и разные модели могут вести себя по-разному.

У DLLM профиль рисков отличается от общей модели — хорошая доменная модель ошибается реже, но цена ошибки выше: неправильная дозировка, некорректный отчёт. Отсюда — необходимость доменного аудита, traceable citations, где-то explainability. Вероятно, появится рынок независимого red-team-аудита, который регуляторы и страховщики будут учитывать при выводе модели в прод.
Первые инкарнации вроде Med-PaLM 2 в здравоохранении, BloombergGPT в финансах, Sec-PaLM 2 в безопасности показывают, что рецепты “общее → узкое” уже работают; ближайшие пару лет зададут темп дальнейшей фрагментации рынков LLM на вертикали.
HTML Embed Code:
2025/07/07 01:43:42
Back to Top