TG Telegram Group & Channel
Лабораторный журнал | United States America (US)
Create: Update:

28Кзнаков о том, что обучение сухих и мокрых нейросеток идёт очень похожим образом. Привожу условные стадии этого обучения — "водопад", но предупреждаю, что водопадов не бывает!
— Водопад против agile в curriculum learning и успеваемость в обучении людей и нежити
— 1. Необученная сеть, на входе у нас "архитектура нейронной сети" или "царь природы", успехи слабые
— 2. Предобучение/pretrain, на выходе -- Base model, успехи посредственные
— 3. Дообучение/finetune, на выходе -- Instruct model, успехи удовлетворительные
— 4. Обучение с подкреплением на основе обратной связи от учителя, RLHF, на выходе -- Chat model, успехи хорошие
— 5. Дрессировка (обучение с подкреплением), RL, на выходе -- Reasoning model, успехи отличные
— 6. Open-endedness, бесконечное познание, на выходе -- PhD model (учёный), успехи в форме нобелевской премии
— 7. Эволюция в физическом мире, на выходе -- Engineer model (инженер), успехи в форме изменения мира к лучшему
— Возвращаемся к проблеме водопада: помним, что его не бывает, это чрезмерное упрощение

Дальше надо только брать -- и делать, брать -- и делать. Картинка как раз об этом.

https://ailev.livejournal.com/1753533.html

28Кзнаков о том, что обучение сухих и мокрых нейросеток идёт очень похожим образом. Привожу условные стадии этого обучения — "водопад", но предупреждаю, что водопадов не бывает!
— Водопад против agile в curriculum learning и успеваемость в обучении людей и нежити
— 1. Необученная сеть, на входе у нас "архитектура нейронной сети" или "царь природы", успехи слабые
— 2. Предобучение/pretrain, на выходе -- Base model, успехи посредственные
— 3. Дообучение/finetune, на выходе -- Instruct model, успехи удовлетворительные
— 4. Обучение с подкреплением на основе обратной связи от учителя, RLHF, на выходе -- Chat model, успехи хорошие
— 5. Дрессировка (обучение с подкреплением), RL, на выходе -- Reasoning model, успехи отличные
— 6. Open-endedness, бесконечное познание, на выходе -- PhD model (учёный), успехи в форме нобелевской премии
— 7. Эволюция в физическом мире, на выходе -- Engineer model (инженер), успехи в форме изменения мира к лучшему
— Возвращаемся к проблеме водопада: помним, что его не бывает, это чрезмерное упрощение

Дальше надо только брать -- и делать, брать -- и делать. Картинка как раз об этом.

https://ailev.livejournal.com/1753533.html
8👏4👍1


>>Click here to continue<<

Лабораторный журнал






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)