Warning: mkdir(): No space left on device in /var/www/hottg/post.php on line 59

Warning: file_put_contents(aCache/aDaily/2025-07-22/post/machinelearning_books/--): Failed to open stream: No such file or directory in /var/www/hottg/post.php on line 72
💡 Обучение больших языковых моделей (LLM) — очень дорогое удовольствие. @Машиннное обучение | Наука о данных Библиотека
TG Telegram Group & Channel
Машиннное обучение | Наука о данных Библиотека | United States America (US)
Create: Update:

💡 Обучение больших языковых моделей (LLM) — очень дорогое удовольствие.
Но есть ещё одна проблема: выводы с небольших экспериментов почти не помогают предсказать результат на реальных, больших моделях. Это мешает разрабатывать новые подходы и оптимизировать обучение.

🔬 Решение — Farseer: новая улучшенная формула масштабирования, которая точнее прогнозирует, как будет вести себя модель при увеличении объёма данных и числа параметров.

Что делает Farseer?

▪️ Строит точную карту зависимости потерь от размера модели (N) и данных (D)
▪️ Применяет более гибкий способ подгонки (differential piecewise fitting), который справляется даже со сложными графиками ошибок
▪️ Позволяет получать надёжные прогнозы для крупных LLM, снижая ошибку в 4 раза по сравнению с предыдущими подходами (например, законом Чинчиллы)

📊 Проверено на ~1000 моделях и 3 миллионах GPU-часов: новая формула действительно лучше работает на практике и помогает эффективнее масштабировать языковые модели.

Итог:
Farseer помогает предсказывать результат для больших моделей, экономить ресурсы и ускорять разработку — всё благодаря более точной математике и умному учёту зависимости потерь от размера модели и объёма данных.

📌 Читать

💡 Обучение больших языковых моделей (LLM) — очень дорогое удовольствие.
Но есть ещё одна проблема: выводы с небольших экспериментов почти не помогают предсказать результат на реальных, больших моделях. Это мешает разрабатывать новые подходы и оптимизировать обучение.

🔬 Решение — Farseer: новая улучшенная формула масштабирования, которая точнее прогнозирует, как будет вести себя модель при увеличении объёма данных и числа параметров.

Что делает Farseer?

▪️ Строит точную карту зависимости потерь от размера модели (N) и данных (D)
▪️ Применяет более гибкий способ подгонки (differential piecewise fitting), который справляется даже со сложными графиками ошибок
▪️ Позволяет получать надёжные прогнозы для крупных LLM, снижая ошибку в 4 раза по сравнению с предыдущими подходами (например, законом Чинчиллы)

📊 Проверено на ~1000 моделях и 3 миллионах GPU-часов: новая формула действительно лучше работает на практике и помогает эффективнее масштабировать языковые модели.

Итог:
Farseer помогает предсказывать результат для больших моделей, экономить ресурсы и ускорять разработку — всё благодаря более точной математике и умному учёту зависимости потерь от размера модели и объёма данных.

📌 Читать
9👍2🤔2


>>Click here to continue<<

Машиннное обучение | Наука о данных Библиотека






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)


Warning: Undefined array key 3 in /var/www/hottg/function.php on line 115

Fatal error: Uncaught mysqli_sql_exception: Can't create/write to file '/tmp/#sql-temptable-a06e-65810f-38ac.MAI' (Errcode: 28 "No space left on device") in /var/www/hottg/function.php:216 Stack trace: #0 /var/www/hottg/function.php(216): mysqli_query() #1 /var/www/hottg/function.php(115): select() #2 /var/www/hottg/post.php(351): daCache() #3 /var/www/hottg/route.php(63): include_once('...') #4 {main} thrown in /var/www/hottg/function.php on line 216