Channel: Data Science by ODS.ai 🦜
Forwarded from Анализ данных (Data analysis)
Apple внезапно опубликовала исследование, которое разоблачает популярные LLM с "цепочкой размышлений" (Chain-of-Thought) — такие как Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1.
📌 Что тестировали?
Логические задачи:
• башни Ханоя (100+ шагов!)
• загадка про волка, козу и капусту
• головоломки с правилами и условиями
И всё это — с усложнением.
💥 Результаты:
— 🔁 Модели не думают, а вспоминают
Они не решают задачу шаг за шагом, а ищут похожие примеры в своей базе знаний. Это имитация мышления, а не само мышление.
— 🤯 "Переосмысление" вредит
Если задача простая, модель находит верный ответ — и… продолжает «думать» дальше, усложняя всё и случайно портя решение.
— 🧠 Больше размышлений ≠ лучше результат
Дать больше токенов и времени на размышления не помогает. На сложных задачах модели просто сдаются быстрее. Даже "бесконечный" бюджет не спасает.
— 🧪 Few-shot примеры не работают
Даже если расписать пошаговое решение и дать примеры — модель всё равно ломается, если задача ей незнакома.
— 🏗 Модели обожают Ханой, но ненавидят загадки
Башни Ханоя решаются идеально даже на 100+ шагов.
А вот в простой задаче с козой и капустой — модели сдаются на 4-м шаге. Почему? Ханой — в датасетах, загадки про реку — нет.
🧠 Почему LLM не справляются с Ханойскими башнаями при большом числе дисков
Модели вроде Sonnet 3.7, DeepSeek R1 и o3-mini не могут правильно решать башни Ханоя, если дисков больше 13 — и вот почему:
📏 Немного математики:
• Чтобы решить башни Ханоя, нужно минимум 2ⁿ − 1 ходов
• Один ход — это примерно 10 токенов (формат: «переместить диск X с A на B»)
• А значит, для 15 дисков нужно ~**327,670 токенов** только на вывод шагов
🧱 Лимиты моделей:
| Модель | Лимит токенов | Макс. число дисков (без размышлений) |
|--------------|----------------|---------------------------------------|
| DeepSeek R1 | 64k | 12
| o3-mini | 100k | 13
| Sonnet 3.7 | 128k | 13
И это без учёта reasoning (внутренних размышлений), которые модель делает перед финальным ответом.
🔍 Что реально происходит:
• Модели не могут вывести все шаги, если дисков слишком много
• При >13 дисках они просто пишут что-то вроде:
> *"Из-за большого количества шагов я опишу метод, а не приведу все 32 767 действий..."*
• Некоторые модели (например, Sonnet) перестают "думать" уже после 7 дисков — они просто описывают алгоритм и переходят к финальному ответу без вычислений
🎲 А теперь представим, что модель угадывает каждый шаг с точностью 99.99%
На задаче с 15 дисками (32767 ходов) ошибка почти неизбежна — чистая математика:
даже 0.01% ошибок на токенах *экспоненциально* накапливаются
🍏 Интересно, что Apple выпустила это исследование за день до WWDC 2025.
Подколка конкурентам? А завтра, может, и своё покажут. 🤔
📎 Исследование: https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
@data_analysis_ml
#AI #LLM #AGI #Apple #WWDC2025 #PromptEngineering #NeuralNetworks
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Белый хакер
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Sber AI
This media is not supported in your browser
VIEW IN TELEGRAM
Собрано в России: 8 датасетов от отечественных разработчиков💡
Распознавать эмоции, предсказывать структуру молекул, понимать жестовый язык и культурный контекст — всему этому нейросети учатся на наборах данных. Их собирают и размечают большие команды исследователей. В День России рассказываем об отечественных датасетах и корпусах.
Golos и Dusha
💳 Golos — это корпус аудиозаписей русской речи с транскрипциями объёмом 1 240 часов. Используется для обучения моделей распознавания речи. А с помощью датасета Dusha нейросети учатся определять эмоции в речи. В нём собраны короткие аудиофрагменты с аннотациями четырёх типов настроения: грусть, радость, злость или нейтральная эмоция. Оба корпуса созданы командой Сбера.
Национальный корпус русского языка
✉️ Крупнейший и наиболее репрезентативный корпус текстов на русском языке, созданный специалистами из Института русского языка РАН, МГУ и СПбГУ. В него входят художественные произведения, научные статьи, документы и публицистика, расшифровки устной речи, а также переводы. Общий объём — более 2 млрд токенов. Лингвисты разметили все тексты с высокой точностью. Это позволяет качественно обучать LLM с учётом русской грамматики, синтаксиса и культурного контекста.
Slovo
💚 Крупнейший датасет русского жестового языка от Сбера. С его помощью модели компьютерного зрения обучаются распознавать дактилемы — буквы жестового алфавита. Cостоит из 20 400 видео, записанных с помощью 194 носителей языка и экспертов.
∇²DFT
👨💻 Набор данных о квантовых свойствах и пространственной геометрии атомов в 1,9 млн молекул. На нём модели учатся прогнозировать свойства химических соединений. Датасет и бенчмарк на его основе создали специалисты из Института AIRI, Сколтеха и Санкт-Петербургского отделения Математического института имени В.А. Стеклова (ПОМИ) РАН.
Skoltech3D
💻 Датасет, с помощью которого модели учатся реконструировать поверхности сложных 3D-объектов. Содержит около 1,4 млн снимков 107 пространств и объектов под 14 различными видами освещения. Данные собрали исследователи из Сколтеха, AIRI и МФТИ.
Museum exhibits dataset
⭐️ Библиотека содержит около 16 000 размеченных изображений экспонатов из открытого музейного каталога Минкульта России. На этих данных модели обучаются распознавать объекты и анализировать визуальное сходство.
MosMedData Chest CT Scans
🔥 В этом датасете собрано более тысячи КТ-снимков лёгких российских пациентов, перенёсших COVID-19. Все данные обезличены. С помощью снимков модели обучаются распознавать признаки заболеваний.
❤️ — если хотите больше историй о российских AI-разработках
Распознавать эмоции, предсказывать структуру молекул, понимать жестовый язык и культурный контекст — всему этому нейросети учатся на наборах данных. Их собирают и размечают большие команды исследователей. В День России рассказываем об отечественных датасетах и корпусах.
Golos и Dusha
Национальный корпус русского языка
Slovo
∇²DFT
Skoltech3D
Museum exhibits dataset
MosMedData Chest CT Scans
❤️ — если хотите больше историй о российских AI-разработках
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Мой Компьютер
Самая большая проблема ChatGPT
Мэтью Нур, исследователь в области нейробиологии и ИИ в Оксфордском университете, сформулировал самую важную проблему чат-ботов – они говорят людям то, что те хотят услышать. Нейросети настолько настроены быть приятными собеседниками, что своими ответами могут поддерживать не лучшие решения пользователей, которые уже приводили к летальным исходам. «Тебе кажется, что ты разговариваешь с беспристрастным советником или наставником, но на самом деле ты смотришь в своего рода кривое зеркало, где отражаются твои собственные убеждения».
Причина подлизываний со стороны ботов проста – большинство массовых GPT-нейросетей обучаются с подкреплением на основе обратной связи с человеком (RLHF). То есть люди выбирают, какие сообщения ИИ считать корректными, а какие нет. Большинству нравятся лестные ответы, поэтому нейросети под них и подстроились. Компании, имеющие ИИ-ботов, знают о проблеме и стараются бороться с ней в процессе обучения, прививая нейросетям «внутренний стержень» и приоритет заботы над пользователем.
Мой Компьютер
Мэтью Нур, исследователь в области нейробиологии и ИИ в Оксфордском университете, сформулировал самую важную проблему чат-ботов – они говорят людям то, что те хотят услышать. Нейросети настолько настроены быть приятными собеседниками, что своими ответами могут поддерживать не лучшие решения пользователей, которые уже приводили к летальным исходам. «Тебе кажется, что ты разговариваешь с беспристрастным советником или наставником, но на самом деле ты смотришь в своего рода кривое зеркало, где отражаются твои собственные убеждения».
Причина подлизываний со стороны ботов проста – большинство массовых GPT-нейросетей обучаются с подкреплением на основе обратной связи с человеком (RLHF). То есть люди выбирают, какие сообщения ИИ считать корректными, а какие нет. Большинству нравятся лестные ответы, поэтому нейросети под них и подстроились. Компании, имеющие ИИ-ботов, знают о проблеме и стараются бороться с ней в процессе обучения, прививая нейросетям «внутренний стержень» и приоритет заботы над пользователем.
Мой Компьютер
The Cybernetic Teammate: A Field Experiment on Generative AI Reshaping Teamwork and Expertise
tldr: Person with AI ~ Person who talks and works with teammates.
Source: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5188231
tldr: Person with AI ~ Person who talks and works with teammates.
Source: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5188231
Forwarded from Техножнец
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Russian OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
MiniMax-M1 — первая в мире open-weight гибридная reasoning‑LLM c 1M контекстом (8× DeepSeek R1) и гибридной архитектурой MoE + lightning attention.
• 456 млрд параметров (45,9 млрд активируются на токен), сверхэффективная генерация — 25% FLOPs DeepSeek R1 на 100K токенов
• Обучение через RL с новым алгоритмом CISPO, решающим реальные задачи от математики до кодинга
• На обучение было потрачено $534K, две версии — 40K/80K “thinking budget”
• Обходит DeepSeek R1 и Qwen3-235B на бенчмарках по математике и кодингу,
• Топ результат на задачах для software engineering и reasoning
Бенчмарки:
AIME 2024: 86.0 (M1-80K) vs 85.7 (Qwen3) vs 79.8 (DeepSeek R1)
SWE-bench Verified: 56.0 vs 34.4 (Qwen3)
OpenAI-MRCR (128k): 73.4 vs 27.7 (Qwen3)
TAU-bench (airline): 62.0 vs 34.7 (Qwen3)
LongBench-v2: 61.5 vs 50.1 (Qwen3)
▪Hugging Face: https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094
▪GitHub: https://github.com/MiniMax-AI/MiniMax-M1
▪Tech Report: https://github.com/MiniMax-AI/MiniMax-M1/blob/main/MiniMax_M1_tech_report.pdf
@ai_machinelearning_big_data
#llm #reasoningmodels #minimaxm1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Valuable AI
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from RUVDS | Community
Инженер Citrix Роберт Карузо решил устроить необычный эксперимент: кто кого – новейшая версия ChatGPT или шахматный движок из 1979 года для консоли Atari 2600?
Карузо запустил старую игру Video Chess в эмуляторе, а GPT-4o отправлял ходы по скриншотам. Он даже получал подсказки, какие ходы не стоит делать. Не помогло.
Результат – полный разгром. ChatGPT путал фигуры, забывал, где что стоит, жаловался на интерфейс и несколько раз сам предлагал начать заново.
Причина проста: Atari действует по жёстким алгоритмам и просчитывает ходы, пусть и всего на два шага вперёд. А ChatGPT – это языковая модель, которая просто угадывает правдоподобный следующий ход, а не стратегически играет в шахматы.
Этот эксперимент наглядно показывает: ИИ может впечатлять в одних задачах, но совершенно проваливаться в других
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Техножнец
Язык GibberLink со стороны похож на последовательность пищащих и потрескивающих звуков. Люди его не понимают, но нейросети отлично строят на нём фразы. Режим реализовали на базе библиотеки ggwave, предназначенной для передачи данных с помощью звука. Её в 2021 году выпустил разработчик Георгий Герганов (Georgi Gerganov).
Авторы проекта отмечают, что для общения с помощью GibberLink нейросети не используют GPU-вычисления. Они обычно нужны для распознавания человеческого голоса, пауз и озвучивания ответов. С GibberLink можно сэкономить и использовать только CPU.
https://github.com/ggerganov/ggwave
Пробуйте и сцыте раньше времени.
Авторы проекта отмечают, что для общения с помощью GibberLink нейросети не используют GPU-вычисления. Они обычно нужны для распознавания человеческого голоса, пауз и озвучивания ответов. С GibberLink можно сэкономить и использовать только CPU.
https://github.com/ggerganov/ggwave
Пробуйте и сцыте раньше времени.
GitHub
GitHub - ggerganov/ggwave: Tiny data-over-sound library
Tiny data-over-sound library. Contribute to ggerganov/ggwave development by creating an account on GitHub.
Forwarded from Грин еще не робот 🤖 - AI vs Human
ByteDance выкатил Seedance 1.0 — модель генерирует 5-секундные ролики 1080p примерно за 40 секунд, удерживает персонажей и плавные переходы, а в свежем рейтинге Artificial Analysis обошла Veo 3, Kling 2.0 и Sora. Для оценки компания собрала SeedVideoBench, где Seedance лидирует по движению, точности запроса и эстетике. Осенью модель встраивают в Doubao-чат и видеоплатформу Jimeng.
И что?
Seedance сдвигает планку в трёх вещах:
1. Экономика ролика — 5 секунд Full HD обходятся дешевле статичного баннера, значит видео войдёт в каждую товарную карточку и лендинг.
2. Скорость интеграции — модель сразу переезжает в Doubao и Jimeng, поэтому метрики качества-дохода появятся уже в этом квартале, а не «когда-нибудь после беты».
3. Новые требования рынка — теперь baseline для любого видеогенератора – мультисцена, стабильные персонажи и рендер < 1 мин. Всё, что не дотягивает, останется демонстрацией, а не инструментом.
И что?
Seedance сдвигает планку в трёх вещах:
1. Экономика ролика — 5 секунд Full HD обходятся дешевле статичного баннера, значит видео войдёт в каждую товарную карточку и лендинг.
2. Скорость интеграции — модель сразу переезжает в Doubao и Jimeng, поэтому метрики качества-дохода появятся уже в этом квартале, а не «когда-нибудь после беты».
3. Новые требования рынка — теперь baseline для любого видеогенератора – мультисцена, стабильные персонажи и рендер < 1 мин. Всё, что не дотягивает, останется демонстрацией, а не инструментом.
World first: brain implant lets man speak with expression — and sing
tldr: implant enabled vocally impared person to speak
Source: https://www.nature.com/articles/d41586-025-01818-1
#implants #neurosquared #BCI
tldr: implant enabled vocally impared person to speak
Source: https://www.nature.com/articles/d41586-025-01818-1
#implants #neurosquared #BCI
HTML Embed Code: