TG Telegram Group & Channel
gonzo-обзоры ML статей | United States America (US)
Create: Update:

Mixture of Cognitive Reasoners: Modular Reasoning with Brain-Like Specialization
Authors: Badr AlKhamissi, C. Nicolò De Sabbata, Zeming Chen, Martin Schrimpf, Antoine Bosselut
Paper: https://arxiv.org/abs/2506.13331
Code: https://bkhmsi.github.io/mixture-of-cog-reasoners

# TL;DR

Что сделали?
Авторы представили архитектуру Mixture of Cognitive Reasoners (MICRO) — модульную языковую модель, вдохновлённую функциональной специализацией человеческого мозга. Они разделили слои предобученного трансформера на четыре отдельных модуля-«эксперта»: Language (Язык), Logic (Логика), Social (Социальное взаимодействие) и World (Знания о мире), каждый из которых соответствует хорошо изученной когнитивной сети мозга. Специализация прививается и поддерживается с помощью новой трёхэтапной программы обучения. Она начинается с предобучения экспертов на небольшом, тщательно отобранном датасете для внедрения целевых индуктивных смещений (inductive biases), а затем следует полномасштабное сквозное дообучение.

Почему это важно?
Эта работа предлагает интересную альтернативу монолитным LLM в формате «чёрного ящика». Благодаря явному проектированию под специализацию, MICRO достигает значительных успехов в интерпретируемости, управляемости и производительности. Модель демонстрирует прозрачные паттерны маршрутизации, позволяя исследователям видеть, *как* она рассуждает. Её поведением можно управлять во время инференса, выборочно активируя или отключая модули-эксперты. Важно отметить, что этот структурированный подход превосходит сопоставимые неспециализированные бейзлайны в нескольких бенчмарках на рассуждения. Это показывает, что дизайн, вдохновлённый биологией, — не просто архитектурная новинка, а практический путь к созданию более прозрачных, надёжных и когнитивно-обоснованных систем ИИ.

# Мясо 🍖

🧠 Шаг к когнитивно-обоснованному ИИ

Главная проблема современных больших языковых моделей (LLM) — их непрозрачность. При всех своих впечатляющих возможностях, их внутренние механизмы остаются «чёрным ящиком», что мешает понимать, предсказывать и контролировать процессы рассуждений. Недавняя статья представляет фреймворк Mixture of Cognitive Reasoners (MICRO) — новый подход, который решает эту проблему, черпая вдохновение непосредственно из самого сложного известного нам механизма рассуждений: человеческого мозга. Основная идея состоит в том, чтобы отойти от монолитных архитектур и вместо этого создавать модели, которые явно отражают функциональную специализацию мозга, где отдельные сети обрабатывают конкретные когнитивные задачи.

⚙️ Методология: создание специализации по образу и подобию мозга

Архитектура MICRO одновременно и элегантна, и интуитивно понятна. За основу берётся стандартный предобученный трансформер (например, из серии Llama 3 или OLMo), и его слои разделяются на четыре отдельных модуля-эксперта: Language, Logic (соответствует Multiple Demand Network в мозге), Social (Theory of Mind Network) и World (Default Mode Network). Это ключевое отличие от стандартных архитектур Mixture-of-Experts (MoE), которые обычно используют гораздо более простые эксперты, состоящие только из feed-forward сетей. В MICRO каждый эксперт получает полный блок трансформера, включая собственный механизм self-attention. Это позволяет каждому специализированному модулю обрабатывать информацию и обращать на неё внимание своим уникальным способом, что обеспечивает более мощную форму специализации.

Что действительно выделяет эту работу, так это трёхэтапная программа обучения, разработанная для целенаправленного *внедрения* этой специализации:

Forwarded from gonzo_ML_podcasts
Mixture of Cognitive Reasoners: Modular Reasoning with Brain-Like Specialization
Authors: Badr AlKhamissi, C. Nicolò De Sabbata, Zeming Chen, Martin Schrimpf, Antoine Bosselut
Paper: https://arxiv.org/abs/2506.13331
Code: https://bkhmsi.github.io/mixture-of-cog-reasoners

# TL;DR

Что сделали?
Авторы представили архитектуру Mixture of Cognitive Reasoners (MICRO) — модульную языковую модель, вдохновлённую функциональной специализацией человеческого мозга. Они разделили слои предобученного трансформера на четыре отдельных модуля-«эксперта»: Language (Язык), Logic (Логика), Social (Социальное взаимодействие) и World (Знания о мире), каждый из которых соответствует хорошо изученной когнитивной сети мозга. Специализация прививается и поддерживается с помощью новой трёхэтапной программы обучения. Она начинается с предобучения экспертов на небольшом, тщательно отобранном датасете для внедрения целевых индуктивных смещений (inductive biases), а затем следует полномасштабное сквозное дообучение.

Почему это важно?
Эта работа предлагает интересную альтернативу монолитным LLM в формате «чёрного ящика». Благодаря явному проектированию под специализацию, MICRO достигает значительных успехов в интерпретируемости, управляемости и производительности. Модель демонстрирует прозрачные паттерны маршрутизации, позволяя исследователям видеть, *как* она рассуждает. Её поведением можно управлять во время инференса, выборочно активируя или отключая модули-эксперты. Важно отметить, что этот структурированный подход превосходит сопоставимые неспециализированные бейзлайны в нескольких бенчмарках на рассуждения. Это показывает, что дизайн, вдохновлённый биологией, — не просто архитектурная новинка, а практический путь к созданию более прозрачных, надёжных и когнитивно-обоснованных систем ИИ.

# Мясо 🍖

🧠 Шаг к когнитивно-обоснованному ИИ

Главная проблема современных больших языковых моделей (LLM) — их непрозрачность. При всех своих впечатляющих возможностях, их внутренние механизмы остаются «чёрным ящиком», что мешает понимать, предсказывать и контролировать процессы рассуждений. Недавняя статья представляет фреймворк Mixture of Cognitive Reasoners (MICRO) — новый подход, который решает эту проблему, черпая вдохновение непосредственно из самого сложного известного нам механизма рассуждений: человеческого мозга. Основная идея состоит в том, чтобы отойти от монолитных архитектур и вместо этого создавать модели, которые явно отражают функциональную специализацию мозга, где отдельные сети обрабатывают конкретные когнитивные задачи.

⚙️ Методология: создание специализации по образу и подобию мозга

Архитектура MICRO одновременно и элегантна, и интуитивно понятна. За основу берётся стандартный предобученный трансформер (например, из серии Llama 3 или OLMo), и его слои разделяются на четыре отдельных модуля-эксперта: Language, Logic (соответствует Multiple Demand Network в мозге), Social (Theory of Mind Network) и World (Default Mode Network). Это ключевое отличие от стандартных архитектур Mixture-of-Experts (MoE), которые обычно используют гораздо более простые эксперты, состоящие только из feed-forward сетей. В MICRO каждый эксперт получает полный блок трансформера, включая собственный механизм self-attention. Это позволяет каждому специализированному модулю обрабатывать информацию и обращать на неё внимание своим уникальным способом, что обеспечивает более мощную форму специализации.

Что действительно выделяет эту работу, так это трёхэтапная программа обучения, разработанная для целенаправленного *внедрения* этой специализации:


>>Click here to continue<<

gonzo-обзоры ML статей




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)