Опубликовали статью "Confidence Is All You Need" о способности языковых моделей выполнять роль функции наград (применяются в обучении с подкреплением — DeepSeek R1 яркий тому пример) для самостоятельного улучшения качества генерации текста на основе внутренней уверенности в своих ответах.
В этой работе получилась интересная (хоть и простая) математика, и потенциально такая работа может дать возможность улучшать качество моделей даже без награды.
Апвоутнуть можно тут.
>>Click here to continue<<
