TG Telegram Group & Channel
Machinelearning | United States America (US)
Create: Update:

База про архитектурные особенности современных LLM


📝 Кто такие эти ваши LLM?
По сути, LLM — это всего лишь крупный (с большим количеством параметров) transformer decoder, который был дообучен на инструкционном датасете.


Ребята из финтеха Точка хорошо разобрали архитектурные особенности современных LLM в своём канале. Если кратко, вот конспект:
• Rotary Positional Encoding (RoPE) — помогает работать с длинным контекстом без потери качества.
• RMSNorm вместо LayerNorm — быстрее и проще в вычислении.
• Sliding Window, Grouped-Query или Multi-Query Attention — ускоряют работу за счёт меньшего количества параметров.
• Модель может использовать Mixture-of-Experts — увеличивая параметры без роста сложности вычислений.


Если подробнее, читайте их пост ниже или по ссылке:
Читать весь пост


А чтобы полностью разобраться в архитектуре LLM и тонкостях её обучения, подписывайтесь на канал .ml. Часть особенностей уже разобрали в постах, а часть — ещё на подходе.

Реклама «АО Точка», tochka.com, 18+, erid=2VtzquX2Y9U

База про архитектурные особенности современных LLM


📝 Кто такие эти ваши LLM?
По сути, LLM — это всего лишь крупный (с большим количеством параметров) transformer decoder, который был дообучен на инструкционном датасете.


Ребята из финтеха Точка хорошо разобрали архитектурные особенности современных LLM в своём канале. Если кратко, вот конспект:
• Rotary Positional Encoding (RoPE) — помогает работать с длинным контекстом без потери качества.
• RMSNorm вместо LayerNorm — быстрее и проще в вычислении.
• Sliding Window, Grouped-Query или Multi-Query Attention — ускоряют работу за счёт меньшего количества параметров.
• Модель может использовать Mixture-of-Experts — увеличивая параметры без роста сложности вычислений.


Если подробнее, читайте их пост ниже или по ссылке:
Читать весь пост


А чтобы полностью разобраться в архитектуре LLM и тонкостях её обучения, подписывайтесь на канал .ml. Часть особенностей уже разобрали в постах, а часть — ещё на подходе.

Реклама «АО Точка», tochka.com, 18+, erid=2VtzquX2Y9U


>>Click here to continue<<

Machinelearning




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)