TG Telegram Group & Channel
gonzo-обзоры ML статей | United States America (US)
Create: Update:

[DeepMind Gato] A Generalist Agent
Scott Reed, Konrad Zolna, Emilio Parisotto, Sergio Gomez Colmenarejo, Alexander Novikov, Gabriel Barth-Maron, Mai Gimenez, Yury Sulsky, Jackie Kay, Jost Tobias Springenberg, Tom Eccles, Jake Bruce, Ali Razavi, Ashley Edwards, Nicolas Heess, Yutian Chen, Raia Hadsell, Oriol Vinyals, Mahyar Bordbar, Nando de Freitas
Статья: https://arxiv.org/abs/2205.06175
Пост: https://www.deepmind.com/publications/a-generalist-agent

В зоопарке DeepMind пополнение. К шиншилле и фламинго завезли кошку.

На самом деле очень интересная работа, которая делает дальнейший шаг относительно Trajectory Transformer (https://hottg.com/gonzo_ML/726) и Decision Transformer (https://hottg.com/gonzo_ML/719). Или даже несколько шагов.

Напомним, это эти две модели заходили со стороны замены традиционных компонентов RL на sequence modeling и использовали трансформер-декодер для авторегрессионной генерации действий. Gato идёт дальше и является мультимодальной и мультизадачной моделью, которая кроме задач RL (игры Атари или робот-манипулятор) может также делать captioning картинок или чатиться. И всё это одной обученной моделью, с одним и тем же набором весов, это тоже существенное отличие от decision/trajectory transformer.

В последние пару лет универсальность моделей — это новый тренд. Раньше мы не могли позволить себе одну большую хорошую модель на всё (да и не получалось такую обучить, хотя писали про это давно, тот же Шмидхубер), а в последнее время тренд всё более отчётливый. Сначала пошли валом унимодальные (особенно текстовые) универсальные модели, самый громкий пример из которых, это, конечно, GPT-3 (https://hottg.com/gonzo_ML/305), неожиданно оказавшаяся способной решать кучу разнородных задач, на которые её вообще даже не обучали. Потом подтянулись другие модальности (тот же CLIP оказался неожиданно хорош, https://hottg.com/gonzo_ML/665), потом и более серьёзные модели пошли (например, Florence, https://hottg.com/gonzo_ML/734) или вот недавняя Flamingo (https://hottg.com/gonzo_ML/941). Ну и мультимодальность (та же Фламинго, например) с мультизадачностью (например, exT5, https://hottg.com/gonzo_ML/761) прогрессировали. Нынешнее сочетание мультимодальности с RL мне нравится особенно, потому что я ожидаю каких-то интересных находок по части symbol grounding и вокруг.

Что интересно, универсальность в целом росла на разных уровнях, как на уровне задач и модальностей (всё перечисленное выше), так и на уровне архитектур (где практически везде в основе оказался трансформер).

Модель не делали супер-большой и тяжёлой, чтобы сохранить возможности работы в рилтайме на текущем железе. Но следующий шаг, конечно, очевиден, надо попробовать отскейлить и посмотреть что нового появится.

Технически, Gato — это трансформер-декодер на 1.18B параметров, 24 слоя, эмбеддинг в 2048 и feed-forward слой после self-attention в 8192.

Поскольку работаем с трансформером, все модальности надо токенизировать. Текст токенизируется через SentencePiece со словарём 32К; картинки в патчи 16x16 как в ViT (https://hottg.com/gonzo_ML/434) и затем каждый пиксел нормализуется в диапазон [-1, 1] и делится на корень из размера патча; дискретные значения по типу нажатий на кнопки в Atari просто преобразуются в последовательность целых чисел, а непрерывные значения типа проприоцепции или крутящих моментов сначала через mu-law encoding приводятся к диапазону [-1, 1], а потом равномерно дискретизуются в 1024 значения. Каждый токен эмбеддится специальной параметризованной функцией, картиночные через блок резнета, а остальные через обучаемую look-up table. К результату добавляются обучаемые позиционные энкодинги.

Модель работает авторегрессионно, то есть предсказывает следующий токен по предыдущим. Собственно целевыми токенами для предсказания могут выступать токены текстовых, дискретных и непрерывных значений. Картиночные токены и токены наблюдений агента не предсказываются (не учитываются в loss), но на будущее это интересная тема (получится гибрид с чем-то типа Dreamer?).

[DeepMind Gato] A Generalist Agent
Scott Reed, Konrad Zolna, Emilio Parisotto, Sergio Gomez Colmenarejo, Alexander Novikov, Gabriel Barth-Maron, Mai Gimenez, Yury Sulsky, Jackie Kay, Jost Tobias Springenberg, Tom Eccles, Jake Bruce, Ali Razavi, Ashley Edwards, Nicolas Heess, Yutian Chen, Raia Hadsell, Oriol Vinyals, Mahyar Bordbar, Nando de Freitas
Статья: https://arxiv.org/abs/2205.06175
Пост: https://www.deepmind.com/publications/a-generalist-agent

В зоопарке DeepMind пополнение. К шиншилле и фламинго завезли кошку.

На самом деле очень интересная работа, которая делает дальнейший шаг относительно Trajectory Transformer (https://hottg.com/gonzo_ML/726) и Decision Transformer (https://hottg.com/gonzo_ML/719). Или даже несколько шагов.

Напомним, это эти две модели заходили со стороны замены традиционных компонентов RL на sequence modeling и использовали трансформер-декодер для авторегрессионной генерации действий. Gato идёт дальше и является мультимодальной и мультизадачной моделью, которая кроме задач RL (игры Атари или робот-манипулятор) может также делать captioning картинок или чатиться. И всё это одной обученной моделью, с одним и тем же набором весов, это тоже существенное отличие от decision/trajectory transformer.

В последние пару лет универсальность моделей — это новый тренд. Раньше мы не могли позволить себе одну большую хорошую модель на всё (да и не получалось такую обучить, хотя писали про это давно, тот же Шмидхубер), а в последнее время тренд всё более отчётливый. Сначала пошли валом унимодальные (особенно текстовые) универсальные модели, самый громкий пример из которых, это, конечно, GPT-3 (https://hottg.com/gonzo_ML/305), неожиданно оказавшаяся способной решать кучу разнородных задач, на которые её вообще даже не обучали. Потом подтянулись другие модальности (тот же CLIP оказался неожиданно хорош, https://hottg.com/gonzo_ML/665), потом и более серьёзные модели пошли (например, Florence, https://hottg.com/gonzo_ML/734) или вот недавняя Flamingo (https://hottg.com/gonzo_ML/941). Ну и мультимодальность (та же Фламинго, например) с мультизадачностью (например, exT5, https://hottg.com/gonzo_ML/761) прогрессировали. Нынешнее сочетание мультимодальности с RL мне нравится особенно, потому что я ожидаю каких-то интересных находок по части symbol grounding и вокруг.

Что интересно, универсальность в целом росла на разных уровнях, как на уровне задач и модальностей (всё перечисленное выше), так и на уровне архитектур (где практически везде в основе оказался трансформер).

Модель не делали супер-большой и тяжёлой, чтобы сохранить возможности работы в рилтайме на текущем железе. Но следующий шаг, конечно, очевиден, надо попробовать отскейлить и посмотреть что нового появится.

Технически, Gato — это трансформер-декодер на 1.18B параметров, 24 слоя, эмбеддинг в 2048 и feed-forward слой после self-attention в 8192.

Поскольку работаем с трансформером, все модальности надо токенизировать. Текст токенизируется через SentencePiece со словарём 32К; картинки в патчи 16x16 как в ViT (https://hottg.com/gonzo_ML/434) и затем каждый пиксел нормализуется в диапазон [-1, 1] и делится на корень из размера патча; дискретные значения по типу нажатий на кнопки в Atari просто преобразуются в последовательность целых чисел, а непрерывные значения типа проприоцепции или крутящих моментов сначала через mu-law encoding приводятся к диапазону [-1, 1], а потом равномерно дискретизуются в 1024 значения. Каждый токен эмбеддится специальной параметризованной функцией, картиночные через блок резнета, а остальные через обучаемую look-up table. К результату добавляются обучаемые позиционные энкодинги.

Модель работает авторегрессионно, то есть предсказывает следующий токен по предыдущим. Собственно целевыми токенами для предсказания могут выступать токены текстовых, дискретных и непрерывных значений. Картиночные токены и токены наблюдений агента не предсказываются (не учитываются в loss), но на будущее это интересная тема (получится гибрид с чем-то типа Dreamer?).


>>Click here to continue<<

gonzo-обзоры ML статей






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)