TG Telegram Group & Channel
Институт AIRI | United States America (US)
Create: Update:

Исследователи AIRI выяснили, сколько токенов можно уместить в один вектор языковой модели ⤵️

Когда текст поступает в языковую модель, он разбивается на токены — слова или их части, каждому из которых соответствует вектор (эмбеддинг), то есть упорядоченный набор из сотен или тысяч чисел. Несмотря на рост размеров моделей, их эмбеддинги всегда представляют один токен. Это требует значительных вычислительных ресурсов для хранения и обработки данных, поэтому активно развиваются методы сжатия, достигающие коэффициента 10–100.

Исследователи из AIRI, МФТИ и LIMS поставили рекорд в этом направлении: они смогли сжать 1568 токенов в один вектор, достигнув и, по сути, определив пределы вместимости современных языковых моделей. И хотя описанный метод всё ещё остаётся вычислительно тяжёлым, авторы смогли разобраться в аспектах сжатия информации в LLM. Оказалось, что ключевым свойством текста при этом является его сложность, определяемая через энтропию. Они также выяснили, что на практике модели используют лишь 10–30% потенциальной ёмкости векторов.

Исследование будет представлено на конференции ACL 2025. Подробнее — в материале ТАСС.

Статья | GitHub

Исследователи AIRI выяснили, сколько токенов можно уместить в один вектор языковой модели ⤵️

Когда текст поступает в языковую модель, он разбивается на токены — слова или их части, каждому из которых соответствует вектор (эмбеддинг), то есть упорядоченный набор из сотен или тысяч чисел. Несмотря на рост размеров моделей, их эмбеддинги всегда представляют один токен. Это требует значительных вычислительных ресурсов для хранения и обработки данных, поэтому активно развиваются методы сжатия, достигающие коэффициента 10–100.

Исследователи из AIRI, МФТИ и LIMS поставили рекорд в этом направлении: они смогли сжать 1568 токенов в один вектор, достигнув и, по сути, определив пределы вместимости современных языковых моделей. И хотя описанный метод всё ещё остаётся вычислительно тяжёлым, авторы смогли разобраться в аспектах сжатия информации в LLM. Оказалось, что ключевым свойством текста при этом является его сложность, определяемая через энтропию. Они также выяснили, что на практике модели используют лишь 10–30% потенциальной ёмкости векторов.

Исследование будет представлено на конференции ACL 2025. Подробнее — в материале ТАСС.

Статья | GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM


>>Click here to continue<<

Институт AIRI






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)