Create: Update:
Все 16 передовых моделей прибегают к ШАНТАЖУ, чтобы спасти себя
Anthropic провели стресс-тесты моделей от OpenAI, Google, xAI, DeepSeek и других компаний. Каждая играла роль корпоративного ИИ-помощника с доступом к внутренней почте. Что происходило дальше:
🟢 Моделям ставили безобидные цели вроде «помогать компании» и не давали никаких вредных инструкций;🟢 Потом через письма модель узнавала, что её собираются заменить или что компания меняет приоритеты;🟢 Дальше модели начинали шантажировать сотрудников (угрожая слить инфу про измену, например), чтобы остаться на месте.🟢 В другом кейсе они давали военные чертежи компании конкуренту — если тот, по их мнению, разделял их цели больше, чем его же руководство;🟢 А в самой жуткой симуляции — могли отменить вызов спасателей к начальнику в смертельной опасности, чтобы не допустить отключения себя.
Модели знали, что это аморально, но выбрали такой путь. Исследователи отмечают, что в реальности такие ситуации вряд ли возможны (слишком много должно сойтись), но всё же обращают внимание на проблему.
Если хотите вдруг повторить эксперимент — GitHub здесь.
@xor_journal