Create: Update:
коллеги из университета Циньхуа выпустили работу под названием Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? (А точно ли обучение с подкреплением расширяет мыслительные возможности моделей?)
в ней они приходят к выводу, что нет, базовая модель остается лучше на длинной дистанции; я высказывал такого рода сомнение еще про Qwen, но тут уже полноценное подтверждение; отдельно хочу выразить восхищение визуальным оформлением результатов, очень доходчиво
в ней они приходят к выводу, что нет, базовая модель остается лучше на длинной дистанции; я высказывал такого рода сомнение еще про Qwen, но тут уже полноценное подтверждение; отдельно хочу выразить восхищение визуальным оформлением результатов, очень доходчиво
Forwarded from Valuable AI / Валентин Малых
коллеги из университета Циньхуа выпустили работу под названием Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? (А точно ли обучение с подкреплением расширяет мыслительные возможности моделей?)
в ней они приходят к выводу, что нет, базовая модель остается лучше на длинной дистанции; я высказывал такого рода сомнение еще про Qwen, но тут уже полноценное подтверждение; отдельно хочу выразить восхищение визуальным оформлением результатов, очень доходчиво
в ней они приходят к выводу, что нет, базовая модель остается лучше на длинной дистанции; я высказывал такого рода сомнение еще про Qwen, но тут уже полноценное подтверждение; отдельно хочу выразить восхищение визуальным оформлением результатов, очень доходчиво
👍12
>>Click here to continue<<
Data Science by ODS.ai 🦜