Интересное исследование ML-спецов из Apple, которое не оставило равнодушным ИИ-сообщество критиков, включая академические круги. Рекомендую самостоятельно изучить и дать оценку
Зачастую "ум" нейросетей измеряют на стандартных бенчмарках AIME или MATH, но проблема заключается в их так называемом "загрязнении". Иначе говоря, по утверждению ученых, есть высокая вероятность того, что задачи и ответы этих тестов попадают в датасет обучения ИИ-моделей. Это примерно как студент приходит на экзамен с готовыми шпорами на свой билет без надзирателя.
Ученые решили подойти к исследованию нестандартно. Они взяли данные не из интернета, а "стерильные" алгоритмические головоломки для объективности. Главные из них — "Башня Ханоя", "Прыжки шашек", "Мир блоков"и "Переправа через реку".
Ханойская башня (пример) — перестановочная головоломка в виде трёх стержней, на один из которых в виде пирамиды нанизаны восемь колец разного диаметра. Задача состоит в том, чтобы переместить пирамиду из колец на другой стержень за наименьшее число ходов. За один раз разрешается переносить только одно кольцо, причём нельзя класть большее кольцо на меньшее.
Например, популярные
О чём это говорит? 🤔Ученые делают вывод, что ИИ-модели не понимают рекурсивный принцип. Они лишь воспроизводят короткие последовательности, которые, вероятно, "видели" при обучении. По сути, идёт бурная имитация деятельности, а не процесс "размышления".
💡Интересный момент: DeepSeek-R1 в "Башня Ханоя"сдаётся без боя на ♟длинной дистанции. Когда количество колец достигает 15, то модель, вместо того чтобы "думать" ещё усерднее, резко сокращает объем рассуждений до 2000-4000 токенов, выдавая быстрый + неверный ответ. Алгоритмы столкнувшись с задачей выше определённого порога сложности перестают справляться и весь процесс "рассуждения" ломается.
Модель Claude 3.7 Sonnet имеет "thinking" режим. Выяснилось, что обычный режим работает быстрее и даже надёжнее на короткой дистанции, а вот "мыслящая" версия склонна к "overthinking" на длинной дистанции. В конце она путается в собственных рассуждениях. На задачах средней сложности "мыслящий" режим действительно неплох. На короткой лучше использовать обычную версию.
Работа ученых из Apple является "холодным душем" для всех, кто уже поверил в появление мыслящего ИИ. Ученые намекают на то, что мы находимся в эпоху "иллюзий", где невероятно сложные технологии имитации принимаются за подлинный интеллект.
💡Вывод: GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Llama 3, DeepSeek-V2, Mistral Large, и Grok — все они "имитаторы" или, говоря более научно, универсальные аппроксиматоры. Современные LLM это не более чем системы предсказания следующего слова (или токена). Вся их "магия" основана на статистических закономерностях, извлеченных из гигантских объемов текста.
🤖 ИИ не может рассуждать как человек, а главное🧠 творить и созидать. Нет духа. Нет божественной искры.