TG Telegram Group & Channel
Data Science by ODS.ai 🦜 | United States America (US)
Create: Update:

🛡️ CN-AI-ARSENAL | Технологический арсенал Китая

🚀 ROLL: новый фреймворк для масштабируемого обучения с подкреплением от Alibaba


Китайский гигант Alibaba представил ROLL — инновационный фреймворк для RL-тренировки больших языковых моделей (LLM), который уже собрал 1000+ звезд на GitHub. Это решение радикально упрощает процесс обучения с подкреплением, делая его доступным даже для небольших команд.

🔍 Ключевые возможности:
• Поддержка моделей до 600B+ параметров
• Встроенные алгоритмы: PPO, GRPO, Reinforce++
• Интеграция с vLLM, DeepSpeed, Megatron-Core
• Визуализация через wandb/tensorboard
• Ускорение обучения в 2.3-2.9 раза (тесты на Qwen-7B/30B)

💡 Для кого создан ROLL?
1) Инженеры: распределенные вычисления на тысячах GPU
2) Разработчики: гибкая настройка reward-функций
3) Исследователи: быстрый прототипинг новых алгоритмов

🌟 Технические детали:
- Rollout Scheduler для управления жизненным циклом samples
- AutoDeviceMapping для оптимизации ресурсов
- Параллельные стратегии обучения (5D-параллелизм)
- Асинхронные вычисления reward

GitHub | Технический отчет

#КитайскийИИ #КитайAI #RLHF #Alibaba

Forwarded from Китай.AI
🛡️ CN-AI-ARSENAL | Технологический арсенал Китая

🚀 ROLL: новый фреймворк для масштабируемого обучения с подкреплением от Alibaba


Китайский гигант Alibaba представил ROLL — инновационный фреймворк для RL-тренировки больших языковых моделей (LLM), который уже собрал 1000+ звезд на GitHub. Это решение радикально упрощает процесс обучения с подкреплением, делая его доступным даже для небольших команд.

🔍 Ключевые возможности:
• Поддержка моделей до 600B+ параметров
• Встроенные алгоритмы: PPO, GRPO, Reinforce++
• Интеграция с vLLM, DeepSpeed, Megatron-Core
• Визуализация через wandb/tensorboard
• Ускорение обучения в 2.3-2.9 раза (тесты на Qwen-7B/30B)

💡 Для кого создан ROLL?
1) Инженеры: распределенные вычисления на тысячах GPU
2) Разработчики: гибкая настройка reward-функций
3) Исследователи: быстрый прототипинг новых алгоритмов

🌟 Технические детали:
- Rollout Scheduler для управления жизненным циклом samples
- AutoDeviceMapping для оптимизации ресурсов
- Параллельные стратегии обучения (5D-параллелизм)
- Асинхронные вычисления reward

GitHub | Технический отчет

#КитайскийИИ #КитайAI #RLHF #Alibaba


>>Click here to continue<<

Data Science by ODS.ai 🦜






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)