Warning: mkdir(): No space left on device in /var/www/hottg/post.php on line 59

Warning: file_put_contents(aCache/aDaily/2025-07-20/post/Russian_OSINT/--): Failed to open stream: No such file or directory in /var/www/hottg/post.php on line 72
🤖Исследователи Apple утверждают @Russian OSINT
TG Telegram Group & Channel
Russian OSINT | United States America (US)
Create: Update:

🤖Исследователи Apple утверждают, что современные ИИ-модели не умеют 🧠думать и рассуждать

Интересное исследование ML-спецов из Apple, которое не оставило равнодушным ИИ-сообщество критиков, включая академические круги. Рекомендую самостоятельно изучить и дать оценку

👨‍🔬Группа ученых и ведущих специалистов в области 🤖машинного обучения компании Apple провели одно из самых нетривиальных исследований "The Illusion of Thinking" за последнее время на тему того, могут ли современные LRM реально думать и рассуждать. Ресёрч переворачивает привычный фрейм понимания и восприятия reasoning у популярных Large Reasoning Models.

Зачастую "ум" нейросетей измеряют на стандартных бенчмарках AIME или MATH, но проблема заключается в их так называемом "загрязнении". Иначе говоря, по утверждению ученых, есть высокая вероятность того, что задачи и ответы этих тестов попадают в датасет обучения ИИ-моделей. Это примерно как студент приходит на экзамен с готовыми шпорами на свой билет без надзирателя.

Ученые решили подойти к исследованию нестандартно. Они взяли данные не из интернета, а "стерильные" алгоритмические головоломки для объективности. Главные из них — "Башня Ханоя", "Прыжки шашек", "Мир блоков"и "Переправа через реку".

Ханойская башня (пример) — перестановочная головоломка в виде трёх стержней, на один из которых в виде пирамиды нанизаны восемь колец разного диаметра. Задача состоит в том, чтобы переместить пирамиду из колец на другой стержень за наименьшее число ходов. За один раз разрешается переносить только одно кольцо, причём нельзя класть большее кольцо на меньшее.

📖 Что показали эксперименты?
Например, популярные 🈁 Claude 3.7 Sonnet и DeepSeek-R1 показывают схожую картину. Их эффективность плавно снижается, а затем падает до нуля по мере увеличения сложности выполнения задачи. Например, в задаче "Башня Ханоя" модель Claude 3.7 в режиме Thinking показывает почти 100% точность для 5 колец (31 ход). Но уже для 8 колец (255 ходов) точность падает почти до 0%. Модель ⭕️ OpenAI o3-mini "ломается" еще раньше.

О чём это говорит? 🤔Ученые делают вывод, что ИИ-модели не понимают рекурсивный принцип. Они лишь воспроизводят короткие последовательности, которые, вероятно, "видели" при обучении. По сути, идёт бурная имитация деятельности, а не процесс "размышления".

💡Интересный момент: DeepSeek-R1 в "Башня Ханоя"сдаётся без боя на длинной дистанции. Когда количество колец достигает 15, то модель, вместо того чтобы "думать" ещё усерднее, резко сокращает объем рассуждений до 2000-4000 токенов, выдавая быстрый + неверный ответ. Алгоритмы столкнувшись с задачей выше определённого порога сложности перестают справляться и весь процесс "рассуждения" ломается.

Модель Claude 3.7 Sonnet имеет "thinking" режим. Выяснилось, что обычный режим работает быстрее и даже надёжнее на короткой дистанции, а вот "мыслящая" версия склонна к "overthinking" на длинной дистанции. В конце она путается в собственных рассуждениях. На задачах средней сложности "мыслящий" режим действительно неплох. На короткой лучше использовать обычную версию.

Работа ученых из Apple является "холодным душем" для всех, кто уже поверил в появление мыслящего ИИ. Ученые намекают на то, что мы находимся в эпоху "иллюзий", где невероятно сложные технологии имитации принимаются за подлинный интеллект.

🤖 Почему LLM кажутся такими умными?
💠Они видели практически каждый вопрос, который вы можете им задать.
💠Они видели код для решения почти любой стандартной задачи.
💠Они видели тексты, рассуждающие почти на любую тему.

💡Вывод: GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Llama 3, DeepSeek-V2, Mistral Large, и Grok — все они "имитаторы" или, говоря более научно, универсальные аппроксиматоры. Современные LLM это не более чем системы предсказания следующего слова (или токена). Вся их "магия" основана на статистических закономерностях, извлеченных из гигантских объемов текста.

🤖 ИИ не может рассуждать как человек, а главное 🧠 творить и созидать. Нет духа. Нет божественной искры.


@Russian_OSINT

This media is not supported in your browser
VIEW IN TELEGRAM
🤖Исследователи Apple утверждают, что современные ИИ-модели не умеют 🧠думать и рассуждать

Интересное исследование ML-спецов из Apple, которое не оставило равнодушным ИИ-сообщество критиков, включая академические круги. Рекомендую самостоятельно изучить и дать оценку

👨‍🔬Группа ученых и ведущих специалистов в области 🤖машинного обучения компании Apple провели одно из самых нетривиальных исследований "The Illusion of Thinking" за последнее время на тему того, могут ли современные LRM реально думать и рассуждать. Ресёрч переворачивает привычный фрейм понимания и восприятия reasoning у популярных Large Reasoning Models.

Зачастую "ум" нейросетей измеряют на стандартных бенчмарках AIME или MATH, но проблема заключается в их так называемом "загрязнении". Иначе говоря, по утверждению ученых, есть высокая вероятность того, что задачи и ответы этих тестов попадают в датасет обучения ИИ-моделей. Это примерно как студент приходит на экзамен с готовыми шпорами на свой билет без надзирателя.

Ученые решили подойти к исследованию нестандартно. Они взяли данные не из интернета, а "стерильные" алгоритмические головоломки для объективности. Главные из них — "Башня Ханоя", "Прыжки шашек", "Мир блоков"и "Переправа через реку".

Ханойская башня (пример) — перестановочная головоломка в виде трёх стержней, на один из которых в виде пирамиды нанизаны восемь колец разного диаметра. Задача состоит в том, чтобы переместить пирамиду из колец на другой стержень за наименьшее число ходов. За один раз разрешается переносить только одно кольцо, причём нельзя класть большее кольцо на меньшее.

📖 Что показали эксперименты?
Например, популярные 🈁 Claude 3.7 Sonnet и DeepSeek-R1 показывают схожую картину. Их эффективность плавно снижается, а затем падает до нуля по мере увеличения сложности выполнения задачи. Например, в задаче "Башня Ханоя" модель Claude 3.7 в режиме Thinking показывает почти 100% точность для 5 колец (31 ход). Но уже для 8 колец (255 ходов) точность падает почти до 0%. Модель ⭕️ OpenAI o3-mini "ломается" еще раньше.

О чём это говорит? 🤔Ученые делают вывод, что ИИ-модели не понимают рекурсивный принцип. Они лишь воспроизводят короткие последовательности, которые, вероятно, "видели" при обучении. По сути, идёт бурная имитация деятельности, а не процесс "размышления".

💡Интересный момент: DeepSeek-R1 в "Башня Ханоя"сдаётся без боя на длинной дистанции. Когда количество колец достигает 15, то модель, вместо того чтобы "думать" ещё усерднее, резко сокращает объем рассуждений до 2000-4000 токенов, выдавая быстрый + неверный ответ. Алгоритмы столкнувшись с задачей выше определённого порога сложности перестают справляться и весь процесс "рассуждения" ломается.

Модель Claude 3.7 Sonnet имеет "thinking" режим. Выяснилось, что обычный режим работает быстрее и даже надёжнее на короткой дистанции, а вот "мыслящая" версия склонна к "overthinking" на длинной дистанции. В конце она путается в собственных рассуждениях. На задачах средней сложности "мыслящий" режим действительно неплох. На короткой лучше использовать обычную версию.

Работа ученых из Apple является "холодным душем" для всех, кто уже поверил в появление мыслящего ИИ. Ученые намекают на то, что мы находимся в эпоху "иллюзий", где невероятно сложные технологии имитации принимаются за подлинный интеллект.

🤖 Почему LLM кажутся такими умными?
💠Они видели практически каждый вопрос, который вы можете им задать.
💠Они видели код для решения почти любой стандартной задачи.
💠Они видели тексты, рассуждающие почти на любую тему.

💡Вывод: GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Llama 3, DeepSeek-V2, Mistral Large, и Grok — все они "имитаторы" или, говоря более научно, универсальные аппроксиматоры. Современные LLM это не более чем системы предсказания следующего слова (или токена). Вся их "магия" основана на статистических закономерностях, извлеченных из гигантских объемов текста.

🤖 ИИ не может рассуждать как человек, а главное 🧠 творить и созидать. Нет духа. Нет божественной искры.


@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM
9


>>Click here to continue<<

Russian OSINT




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)


Warning: Undefined array key 3 in /var/www/hottg/function.php on line 115

Fatal error: Uncaught mysqli_sql_exception: Can't create/write to file '/tmp/#sql-temptable-a06e-592148-27bc.MAI' (Errcode: 28 "No space left on device") in /var/www/hottg/function.php:216 Stack trace: #0 /var/www/hottg/function.php(216): mysqli_query() #1 /var/www/hottg/function.php(115): select() #2 /var/www/hottg/post.php(351): daCache() #3 /var/www/hottg/route.php(63): include_once('...') #4 {main} thrown in /var/www/hottg/function.php on line 216