TG Telegram Group Link
Channel: gonzo-обзоры ML статей
Back to Bottom
Текущая работа также является интересным развитием по части эволюционных алгоритмов. Раньше там приходилось писать различные кастомные операторы (типа скрещивания или мутации в случае генетических алгоритмов, коих я сам написал огромное количество). Теперь ничего этого делать не надо, LLM сама решает как и куда эволюционировать решение, неявно реализуя те же операторы, но пользуясь всем мировым знанием из претрейна. И я думаю, доменно-специфичные LLM могли бы здесь быть ещё сильно лучше. И наверняка будут.

Это всё очень прикольно. Long live LLM-guided evolution!

Приятно также видеть много знакомых имён в авторах или благодарностях. Всем привет!
This media is not supported in your browser
VIEW IN TELEGRAM
Любопытная движуха

Analog Foundation Models
https://arxiv.org/abs/2505.09663

In this work, we introduce a general and scalable method to robustly adapt LLMs for execution on noisy, low-precision analog hardware. Our approach enables state-of-the-art models including Phi-3-mini-4k-instruct and Llama-3.2-1B-Instruct to retain performance comparable to 4-bit weight, 8-bit activation baselines, despite the presence of analog noise and quantization constraints. Additionally, we show that as a byproduct of our training methodology, analog foundation models can be quantized for inference on low-precision digital hardware. Finally, we show that our models also benefit from test-time compute scaling, showing better scaling behavior than models trained with 4-bit weight and 8-bit static input quantization. Our work bridges the gap between high-capacity LLMs and efficient analog hardware, offering a path toward energy-efficient foundation models.
Это прекрасно. Ernie and Bert.
Напоминаю, что сегодня европейским вечером/западноамериканским утром будет самая большая ежегодная конференция Гугла, Google I/O 2025:

https://io.google/2025/

Я на место не поехал, буду в трансляции смотреть :)

Все ждут больших анонсов, например, Gemini Ultra (опять!)

После кейноутов в секции по AI будет также Хассабис:

https://io.google/2025/explore/pa-keynote-1

Demis Hassabis on the frontiers of AI

Join Demis Hassabis, co-founder and CEO of Google DeepMind and Alex Kantrowitz, host of the Big Technology Podcast, for a visionary conversation about the future of AI and its impact on our world. This marquee session offers a unique opportunity to hear directly from one of the most influential leaders in the field of AI.
Forwarded from gonzo_ML_podcasts
Analog Foundation Models
Julian Büchel, Iason Chalas, Giovanni Acampa, An Chen, Omobayode Fagbohungbe, Sidney Tsai, Kaoutar El Maghraoui, Manuel Le Gallo, Abbas Rahimi, Abu Sebastian
Статья: https://arxiv.org/abs/2505.09663
Код: https://github.com/IBM/analog-foundation-models

Неуклонный рост размеров и сложности больших языковых моделей (LLM) выдвинул на первый план острую необходимость в более энергоэффективных вычислительных парадигмах. Аналоговые вычисления в памяти (Analog In-Memory Computing, AIMC) выглядят здесь многообещающим решением: они потенциально способны существенно снизить энергопотребление за счёт выполнения умножения матрицы на вектор непосредственно в массивах памяти. Однако у AIMC-оборудования есть свои недостатки, главным образом — присущий ему шум и жёсткие ограничения квантования, которые могут серьёзно ухудшить производительность стандартных, предобученных LLM.

В этой статье авторы задаются ключевым вопросом: можно ли современные мощные LLM надёжно адаптировать для развёртывания на таком шумном, низкоточном аналоговом оборудовании? И если да, то как? Исследователи представляют «аналоговые базовые модели» (собственно, Analog Foundation Models), предлагая общий и масштабируемый метод для достижения именно этой цели. Они демонстрируют, что даже передовые модели могут сохранять производительность, сравнимую с сильными цифровыми бейзлайнами квантования, несмотря на неидеальности аналоговых вычислений.

Ключевая проблема заключается в том, что готовые LLM (off-the-shelf LLM), обычно обучаемые в форматах с высокой точностью (например, FP16), крайне чувствительны к аналоговому шуму и низкоточному квантованию, свойственному AIMC-системам. Как отмечают авторы, прямое развёртывание этих моделей на AIMC-оборудовании часто приводит к значительному падению производительности. Хотя предыдущие исследования изучали обучение с учётом аппаратных особенностей (Hardware-Aware Training, HWA), они преимущественно фокусировались на моделях меньшего размера, часто из области компьютерного зрения, или делали менее реалистичные предположения о характеристиках оборудования. Нынешняя работа выделяется тем, что нацелена на высокоёмкие, предобученные LLM, такие как Phi-3-mini и Llama-3.1 8B — модели, чьи исходные массивные датасеты предобучения зачастую недоступны.

Предложенная методология представляет собой тщательно проработанный трёхэтапный процесс. Сначала генерируются синтетические обучающие данные путём итеративной выборки из целевой предобученной LLM. Это позволяет обойти необходимость в оригинальных датасетах для обучения — важнейший практический момент. Затем новая «аналоговая базовая модель» обучается на этих синтетических данных с использованием дистилляции знаний (knowledge distillation), стремясь имитировать поведение исходной высокоточной модели.

Вся соль здесь в интегрированных на этом этапе техниках обучения с учётом аппаратных особенностей (HWA). К ним относятся:
* обучаемые статические диапазоны квантования для входных данных (имитируют цифро-аналоговые преобразователи (digital-to-analog converters));
* фиксированное глобальное статическое квантование выходных данных (имитирует аналого-цифровые преобразователи (analog-to-digital converters));
* поканальное добавление аддитивного гауссовского шума к весам во время прямого прохода (для имитации шума устройства);
* итеративное отсечение (clipping) весов после каждого шага оптимизатора (для поддержания компактного распределения весов, подходящего для энергонезависимых запоминающих устройств (non-volatile memory devices)).

Такой набор методов — это прямой ответ на известные ограничения AIMC-оборудования: например, необходимость статических диапазонов квантования (вместо динамических настроек для каждого токена, распространённых в цифровом квантовании) и неизбежное присутствие аналогового шума. Использование синтетических данных и дистилляции — прагматичное решение для адаптации проприетарных или очень больших моделей без доступа к их оригинальным обучающим корпусам.
Forwarded from gonzo_ML_podcasts
Экспериментальные результаты весьма показательны. Аналоговые базовые модели, обученные по этой методологии, демонстрируют значительно улучшенную устойчивость к аппаратно-реалистичному шуму, который моделировался на основе существующего AIMC-чипа на базе памяти с изменением фазового состояния (PCM-based). При оценке с имитацией аналогового шума эти модели в значительной степени сохраняют свою производительность. Они достигают результатов, сравнимых с цифровыми бейзлайнами (4-битные веса, 8-битные активации), и превосходят стандартные LLM или даже модели LLM-QAT (обучение с учётом квантования) в тех же условиях шума.

Например, аналоговая базовая модель Phi-3-mini-4k-instruct показала падение производительности всего на 3,7% по сравнению со своим FP16-аналогом под воздействием аппаратного шума и квантования. Это заметное улучшение по сравнению с падением на 7,11%, наблюдаемым у готовой модели при её прямом переносе на «железо». Авторы приводят средние значения и стандартные отклонения для оценок в условиях шума, основанные на 10 запусках с разными сидами, что придаёт этим результатам статистическую значимость.

Интересно, что устойчивость, привитая этим аналого-ориентированным обучением, даёт преимущества и при цифровом развёртывании. В статье показано, что эти аналоговые базовые модели можно квантовать после обучения для инференса на низкоточном цифровом оборудовании (например, с 4-битными весами и округлением до ближайшего (round-to-nearest)). При этом они достигают производительности, сравнимой или даже превосходящей модели, обученные с использованием передовых алгоритмов цифрового квантования, особенно при статических ограничениях квантования.

Более того, аналоговые базовые модели демонстрируют лучшее масштабирование вычислений на этапе инференса: их производительность улучшается более значительно, когда им разрешено генерировать несколько ответов и выбирать лучший, по сравнению с традиционно квантованными моделями. Это указывает на более общую устойчивость к низкоточным вычислениям. Модели также в значительной степени сохраняют свои способности следовать инструкциям и обеспечивать безопасность в условиях шума.

Результаты этого исследования открывают важные перспективы. Оно предлагает жизнеспособный путь для развёртывания сложных LLM на высокоэнергоэффективном AIMC-оборудовании, потенциально открывая новые применения, особенно в средах с ограниченными ресурсами или для крупномасштабного инференса, где энергопотребление — основное узкое место. Работа также неявно мотивирует дальнейшую разработку и масштабирование технологии AIMC-чипов, демонстрируя, что проблемы адаптации моделей на программном уровне могут быть эффективно решены. Тот факт, что методология обучения даёт модели, также хорошо подходящие для низкоточного цифрового оборудования, является дополнительным преимуществом, расширяя её применимость.

Авторы открыто говорят и об ограничениях. Обучение этих моделей с миллиардами параметров, даже с использованием предложенной методологии (которая использует лишь часть токенов из оригинального датасета предобучения), остаётся ресурсоёмким. Разрыв в производительности по сравнению с исходными FP16-моделями всё ещё существует, особенно на сложных задачах, требующих рассуждений, таких как GSM8K или MATH-500.

Преимущества от масштабирования обучающих данных, по-видимому, выходят на плато примерно на 20 миллиардах токенов из оригинального датасета предобучения. Это позволяет предположить, что одно лишь количество данных может не устранить оставшийся разрыв. Хотя модель шума, используемая для оценки, получена на основе реального оборудования, её обобщающая способность на весь спектр технологий AIMC-устройств и их уникальные профили шума остаётся открытым вопросом для более широкого внедрения. Модели также наследуют любые риски безопасности, присутствующие в базовых предобученных моделях.
Forwarded from gonzo_ML_podcasts
Направления будущих исследований, указанные авторами, включают изучение улучшений качества синтетических данных, разработку более ресурсоэффективных методов адаптации (возможно, с использованием низкоранговых адаптаций или методов постобучения) и продолжение усилий по сокращению разрыва в точности на задачах, требующих рассуждений.

В целом, это качественное исследование, предлагающее надёжное, масштабируемое и продуманное решение критической проблемы на стыке LLM и новых аппаратных средств. Демонстрируя, что большие базовые модели могут быть эффективно адаптированы к специфике аналоговых вычислений («analog-aware»), работа открывает путь к более энергоэффективному ИИ и продвигает эту область исследований. Хотя проблемы остаются (в частности, в сокращении разрыва в производительности на самых сложных задачах и обеспечении широкой аппаратной совместимости), это исследование закладывает прочную основу и даёт основания для оптимизма в отношении будущего аналоговых ИИ-ускорителей.
HTML Embed Code:
2025/07/04 11:11:10
Back to Top