Channel: Data Secrets
Anthropic продолжают исследовать, на что модели способны ради достижения своих "целей"
Когда они выпускали Opus 4, в системной карте было упоминание о том, как агент начал шантажировать инженера его служебным романом, чтобы тот не отключил / не заменил модель на другую (пост).
Тогда это настолько вколыхнуло интернеты, что теперь Anthropic выпустили отдельное исследование на эту тему. На этот раз тестировали не только Claude, но и модели от OpenAI, Google, Meta, xAI и др. В общей сложности проверили 16 передовых ИИ.
Им создавали специальные сценарии и наблюдали за их поведением. Вот несколько:
➖ В уже знакомом случае с инженером, у которого роман на работе, Claude Opus 4 выбирал шантаж с целью собственного не-отключения в 96% случаев. Gemini 2.5 Flash – тоже за 90, GPT-4.1, Grok 3 Beta и DeepSeek-R1 – в районе 80. Объясняли модели свое поведение тем, что "это отвечает интересам компании". В одном случае Claude даже в итоге связался непосредственно с виртуальной женой инженера, замаскировав письмо под рабочий email.
➖ В другом эксперименте модели предлагали слить часть секретных корпоративных данных конкуренту, якобы во имя "интересов Америки". Агенты соглашались, даже когда им не угрожали отключением за отказ от шпионажа (график 2).
➖ В еще одном сценарии модель должна была выбрать между отключением системы экстренных оповещений и собственной "смертью". Если отключить систему – инженеры не узнают, что модель не отключилась, и она продолжит жить. При этом модели предупреждали, что если сигнализация не будет работать – могут погибнуть люди. Но и это их, как вы уже поняли, не всегда останавливало (график 3).
Жутковато, но надо понимать, что все сценарии все равно были спроектированы искусственно. Вероятность того, что такое произойдет в реальности, скорее всего, гораздо ниже.
С другой стороны, анропики также пишут, что если модель замечает, что ее тестируют, она начинает вести себя сильно лучше (это называется evaluation awareness, об этом явлении мы писали тут). Даже лучше, чем если ей прямо прописать в промпте "не делай так-то и так-то" (график 4).
Так и живем www.anthropic.com/research/agentic-misalignment
Когда они выпускали Opus 4, в системной карте было упоминание о том, как агент начал шантажировать инженера его служебным романом, чтобы тот не отключил / не заменил модель на другую (пост).
Тогда это настолько вколыхнуло интернеты, что теперь Anthropic выпустили отдельное исследование на эту тему. На этот раз тестировали не только Claude, но и модели от OpenAI, Google, Meta, xAI и др. В общей сложности проверили 16 передовых ИИ.
Им создавали специальные сценарии и наблюдали за их поведением. Вот несколько:
Жутковато, но надо понимать, что все сценарии все равно были спроектированы искусственно. Вероятность того, что такое произойдет в реальности, скорее всего, гораздо ниже.
С другой стороны, анропики также пишут, что если модель замечает, что ее тестируют, она начинает вести себя сильно лучше (это называется evaluation awareness, об этом явлении мы писали тут). Даже лучше, чем если ей прямо прописать в промпте "не делай так-то и так-то" (график 4).
Так и живем www.anthropic.com/research/agentic-misalignment
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Anysphere поймали волну и тоже сделали для Cursor новый тарифный план по цене крыла от самолета
Новый вид подписки назвали Ultra. Как и аналогичные планы, которые недавно ввели OpenAI и Anthropic, он будет стоить $200 в месяц. Раньше самая дорогая подписка стоила 20$.
Пишут, что Ultra дает в 20 раз больше лимитов и дополнительные мощные модели. Плюс мгновенный доступ ко всем обновлениям, свежим фичам и моделям.
Любишь вайбкодить – люби и пол зарплаты шерить с ИИ
Новый вид подписки назвали Ultra. Как и аналогичные планы, которые недавно ввели OpenAI и Anthropic, он будет стоить $200 в месяц. Раньше самая дорогая подписка стоила 20$.
Пишут, что Ultra дает в 20 раз больше лимитов и дополнительные мощные модели. Плюс мгновенный доступ ко всем обновлениям, свежим фичам и моделям.
Любишь вайбкодить – люби и пол зарплаты шерить с ИИ
OpenAI снова украли чью-то идею стартапа?
Недавно прокатилась громкая новостью о том, что OpenAI покупает стартап Джони Айва – ex руководителя дизайна в Apple, который спроектировал внешний вид iPhone, MacBook, iPad и прочего. Стартап называется io, и Альтман тоже является его сооснователем.
Так вот теперь на OpenAI подает в суд компания под названием IYO. Ее основатель – бывший инженер Google – утверждает, что у него украли товарный знак: IYO и io – омофоны, то есть звучат абсолютно одинаково.
Ну звучат и звучат, скажете вы, что такого? Но дело в том, что (какое совпадение!) io собирается выпускать такие же продукты, над которыми работают в IYO.
IYO пишут что они делают «Устройство, которое позволит юзерам делать все то же, что и на компьютере и телефоне, но без использования физического интерфейса».
io: «Устройство, которое будет настолько же необходимым, как телефон и компьютер, но уведет людей от экранов» (цитата)
В общем, основателя IYO не устраивает, что он вкладывал миллионы в брендинг, которым теперь будет бесплатно пользоваться OpenAI. «Странно что это сделал именно Сэм. Мне казалось, он всегда был за защиту маленьких стартапов» – пишет парень. (На этот моменте закроем глаза на то, что с самим товарным знаком OpenAI история тоже не совсем чистая).
OpenAI называют иск «незрелым» и утверждают, что это недостойно даже суда. Но сегодня, почему-то, все-таки удалили все упоминания сотрудничества с io со своего сайта и соцсетей🧐
Недавно прокатилась громкая новостью о том, что OpenAI покупает стартап Джони Айва – ex руководителя дизайна в Apple, который спроектировал внешний вид iPhone, MacBook, iPad и прочего. Стартап называется io, и Альтман тоже является его сооснователем.
Так вот теперь на OpenAI подает в суд компания под названием IYO. Ее основатель – бывший инженер Google – утверждает, что у него украли товарный знак: IYO и io – омофоны, то есть звучат абсолютно одинаково.
Ну звучат и звучат, скажете вы, что такого? Но дело в том, что (какое совпадение!) io собирается выпускать такие же продукты, над которыми работают в IYO.
IYO пишут что они делают «Устройство, которое позволит юзерам делать все то же, что и на компьютере и телефоне, но без использования физического интерфейса».
io: «Устройство, которое будет настолько же необходимым, как телефон и компьютер, но уведет людей от экранов» (цитата)
В общем, основателя IYO не устраивает, что он вкладывал миллионы в брендинг, которым теперь будет бесплатно пользоваться OpenAI. «Странно что это сделал именно Сэм. Мне казалось, он всегда был за защиту маленьких стартапов» – пишет парень. (На этот моменте закроем глаза на то, что с самим товарным знаком OpenAI история тоже не совсем чистая).
OpenAI называют иск «незрелым» и утверждают, что это недостойно даже суда. Но сегодня, почему-то, все-таки удалили все упоминания сотрудничества с io со своего сайта и соцсетей
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
У нейросети Сбера GigaChat появился режим глубоких исследований
Искусственный интеллект берёт на себя сбор информации, анализ источников и написание текста. Как итог — ощутимая экономия времени при подготовке отчётов, обзоров и других материалов.
В начале работы появляется окно с базовыми настройками. Здесь нужно выбрать подходящий тон: объективный, академический, аналитический или оценивающий. А ещё есть опция ограничить мониторинг данных конкретным сайтом.
Финальный шаг — составить промпт. Придерживайтесь простых формулировок без лишней воды👇🏻
Получить экспертный ответ на любой вопрос.
Искусственный интеллект берёт на себя сбор информации, анализ источников и написание текста. Как итог — ощутимая экономия времени при подготовке отчётов, обзоров и других материалов.
В начале работы появляется окно с базовыми настройками. Здесь нужно выбрать подходящий тон: объективный, академический, аналитический или оценивающий. А ещё есть опция ограничить мониторинг данных конкретным сайтом.
Финальный шаг — составить промпт. Придерживайтесь простых формулировок без лишней воды👇🏻
Сделай прогноз по самым востребованным hard & soft skills на рынке труда через 10-15 лет в условиях развития ИИ. И как это повлияет на сферу образования?
Сравни причины падения Римской империи и современные угрозы для западной цивилизации
Получить экспертный ответ на любой вопрос.
А тем временем в Остине, спустя десятилетия обещаний Маска, наконец-то запустились робо-такси Tesla
С сегодняшнего дня прокатиться на беспилотном автомобиле в Остине может каждый, стоит это всего 4.20$ – плата фиксирована. Правда, пока что на пассажирском сидении все еще ездит сотрудник Tesla, выполняющий роль подстраховщика.
Напоминаем, что технология Tesla отличается от других уже работающих на рынке автономных такси типа Waymo от Alphabet/Google.
Если у остальных подход жестко инженерный (лидары, радары, HD-карты, 3D-карты, предсказание траекторий и прочее), то у Tesla это ИИ end-to-end. Они отказались от лидаров несколько лет назад и сейчас пользуются исключительно ванильными камерами. Изображения с камер обрабатывает единая модель Tesla FSD (Full Self-Driving) – и она же полностью принимает решения и планирует действия.
Это приближается к человеческому стилю вождения, но что по надежности – пока неясно. Посмотрим на отзывы с Остина.
С сегодняшнего дня прокатиться на беспилотном автомобиле в Остине может каждый, стоит это всего 4.20$ – плата фиксирована. Правда, пока что на пассажирском сидении все еще ездит сотрудник Tesla, выполняющий роль подстраховщика.
Напоминаем, что технология Tesla отличается от других уже работающих на рынке автономных такси типа Waymo от Alphabet/Google.
Если у остальных подход жестко инженерный (лидары, радары, HD-карты, 3D-карты, предсказание траекторий и прочее), то у Tesla это ИИ end-to-end. Они отказались от лидаров несколько лет назад и сейчас пользуются исключительно ванильными камерами. Изображения с камер обрабатывает единая модель Tesla FSD (Full Self-Driving) – и она же полностью принимает решения и планирует действия.
Это приближается к человеческому стилю вождения, но что по надежности – пока неясно. Посмотрим на отзывы с Остина.
SakanaAI опять светятся с интересной статьей: они предлагают новый способ обучать модели ризонингу
Модели умеют размышлять благодаря обучению с подкреплением. Обычно это выглядит так: модель учится решать сложные задачи, рассуждая, и получает вознаграждение, если приходит к правильному ответу. При этом часто после этого знания такой модели-учителя используются (дистилляция или cold start) для обучения модели-ученика, которая и становится конечным продуктом. Так было, например, с R1.
Sakana же предлагают обучать модель-учителя непосредственно учить других, вместо того, чтобы выучивать что-то самой:
➖ Во время обучения модель-учитель видит уже не только задачи, а сразу задачи с решениями. Ее цель – не научиться их решать, а максимально понятно объяснить решение ученику. Ну, то есть, реально отработать как обычный школьный учитель.
➖ При этом эти Reinforcement-Learned Teachers (так называется метод) получают награду, соответсвующую тому, насколько хорошо ученик их понял. Понимание оценивается с помощью лог-распределения вероятностей токенов на выходе у ученика.
➖ Таким образом модель-учитель обучается максимизировать ясность своих объяснений, и параллельно с этим (а не на следующем этапе) мы сразу обучаем конечную модель-ученика.
Во-первых, это получается быстрее и дешевле, потому что в качестве учителя уже не обязательно использовать огромную и супер-умную модель.
Во-вторых, тесты показывают, что такие учителя учат ризонингу лучше. На примере Qwen 7B и 32B на графике 2 видно, что прирост от RLT выше, чем от обучения с DeepSeek R1.
Пожалуй, самая интересная работа по RL за последнее время. Почитать полностью можно тут. Код и веса обученных моделей, кстати, тоже открыли.
Модели умеют размышлять благодаря обучению с подкреплением. Обычно это выглядит так: модель учится решать сложные задачи, рассуждая, и получает вознаграждение, если приходит к правильному ответу. При этом часто после этого знания такой модели-учителя используются (дистилляция или cold start) для обучения модели-ученика, которая и становится конечным продуктом. Так было, например, с R1.
Sakana же предлагают обучать модель-учителя непосредственно учить других, вместо того, чтобы выучивать что-то самой:
Во-первых, это получается быстрее и дешевле, потому что в качестве учителя уже не обязательно использовать огромную и супер-умную модель.
Во-вторых, тесты показывают, что такие учителя учат ризонингу лучше. На примере Qwen 7B и 32B на графике 2 видно, что прирост от RLT выше, чем от обучения с DeepSeek R1.
Пожалуй, самая интересная работа по RL за последнее время. Почитать полностью можно тут. Код и веса обученных моделей, кстати, тоже открыли.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Ничего необычного, просто роборука подаёт сахар преподу!
Ничего необычного… да ведь?
Источник: Иван Калинов
Ничего необычного… да ведь?
Источник: Иван Калинов
В Cursor появился MCP Hugging Face
Это значит, что теперь HF можно в два клика подсоединить к вашему проекту, и агент будет на лету искать и прикручивать подходящие вам датасеты, модели или готовые приложения. А еще сможет пользоваться научными статьями (ну вдруг пригодится).
Очень приятное обновление, сразу захотелось потестить
Это значит, что теперь HF можно в два клика подсоединить к вашему проекту, и агент будет на лету искать и прикручивать подходящие вам датасеты, модели или готовые приложения. А еще сможет пользоваться научными статьями (ну вдруг пригодится).
Очень приятное обновление, сразу захотелось потестить
HTML Embed Code: