Warning: mkdir(): No space left on device in /var/www/hottg/post.php on line 59

Warning: file_put_contents(aCache/aDaily/2025-07-22/post/dsinsights/--): Failed to open stream: No such file or directory in /var/www/hottg/post.php on line 72
В перерывах между задачками на биддере я продолжаю изучать LLM. В более раннем посте я писал про RAG (Retrieval Augmented Generation). Сегодня рассмотрим @ML Advertising
TG Telegram Group & Channel
ML Advertising | United States America (US)
Create: Update:

В перерывах между задачками на биддере я продолжаю изучать LLM. В более раннем посте я писал про RAG (Retrieval Augmented Generation). Сегодня рассмотрим, как дообучить LLM под задачу RAG.

Можно условно выделить три этапа:
- Pretraining. Стадия, где модель обучается на огромном количестве неразмеченных текстовых данных. Задача предобучения - это дать модели возможность изучить закономерности языка, и научиться предсказывать следующий токен в последовательности

- Supervised Fine-Tuning (SFT). После этапа претрейна модель дообучается на данных, с размеченными парами вопрос-ответ. Здесь цель - адаптировать модель под конкретную задачу

- Alignment. Здесь дообучаем модель под формат в запросе пользователя, и если надо этическим нормам. Существует целый зоопарк методов alignment'а, некоторые из них построены на методах RL (PPO, GRPO etc.), некоторые нет (Rejection Sampling, DPO и etc.). Каждый из них выдает разное качество, стабильность, сходимость и скорость

Также как и в классических ML задачах при дообучении LLM смотрим на распределение данных прода и трейна. Через продовую RAG-систему всегда проходит поток запросов в определённом соотношении тематик, стилей, длины, ошибок и других свойств, и точно также определенными свойствами обладают ожидаемые ответы в этом потоке. Стоит озаботиться тем, чтобы обучающая выборка имела несмещённое относительно реального потока распределение. Это часто справедливо для 1го и 2го этапов дообучения

В перерывах между задачками на биддере я продолжаю изучать LLM. В более раннем посте я писал про RAG (Retrieval Augmented Generation). Сегодня рассмотрим, как дообучить LLM под задачу RAG.

Можно условно выделить три этапа:
- Pretraining. Стадия, где модель обучается на огромном количестве неразмеченных текстовых данных. Задача предобучения - это дать модели возможность изучить закономерности языка, и научиться предсказывать следующий токен в последовательности

- Supervised Fine-Tuning (SFT). После этапа претрейна модель дообучается на данных, с размеченными парами вопрос-ответ. Здесь цель - адаптировать модель под конкретную задачу

- Alignment. Здесь дообучаем модель под формат в запросе пользователя, и если надо этическим нормам. Существует целый зоопарк методов alignment'а, некоторые из них построены на методах RL (PPO, GRPO etc.), некоторые нет (Rejection Sampling, DPO и etc.). Каждый из них выдает разное качество, стабильность, сходимость и скорость

Также как и в классических ML задачах при дообучении LLM смотрим на распределение данных прода и трейна. Через продовую RAG-систему всегда проходит поток запросов в определённом соотношении тематик, стилей, длины, ошибок и других свойств, и точно также определенными свойствами обладают ожидаемые ответы в этом потоке. Стоит озаботиться тем, чтобы обучающая выборка имела несмещённое относительно реального потока распределение. Это часто справедливо для 1го и 2го этапов дообучения
🔥3👍1


>>Click here to continue<<

ML Advertising




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)


Warning: Undefined array key 3 in /var/www/hottg/function.php on line 115

Fatal error: Uncaught mysqli_sql_exception: Too many connections in /var/www/db.php:16 Stack trace: #0 /var/www/db.php(16): mysqli_connect() #1 /var/www/hottg/function.php(212): db() #2 /var/www/hottg/function.php(115): select() #3 /var/www/hottg/post.php(351): daCache() #4 /var/www/hottg/route.php(63): include_once('...') #5 {main} thrown in /var/www/db.php on line 16