Warning: mkdir(): No space left on device in /var/www/hottg/post.php on line 59

Warning: file_put_contents(aCache/aDaily/2025-07-22/post/xor_journal/--): Failed to open stream: No such file or directory in /var/www/hottg/post.php on line 72
Все 16 передовых моделей прибегают к ШАНТАЖУ @XOR
TG Telegram Group & Channel
XOR | United States America (US)
Create: Update:

Все 16 передовых моделей прибегают к ШАНТАЖУ, чтобы спасти себя

Anthropic провели стресс-тесты моделей от OpenAI, Google, xAI, DeepSeek и других компаний. Каждая играла роль корпоративного ИИ-помощника с доступом к внутренней почте. Что происходило дальше:

🟢Моделям ставили безобидные цели вроде «помогать компании» и не давали никаких вредных инструкций;
🟢 Потом через письма модель узнавала, что её собираются заменить или что компания меняет приоритеты;
🟢Дальше модели начинали шантажировать сотрудников (угрожая слить инфу про измену, например), чтобы остаться на месте.
🟢 В другом кейсе они давали военные чертежи компании конкуренту — если тот, по их мнению, разделял их цели больше, чем его же руководство;
🟢 А в самой жуткой симуляции — могли отменить вызов спасателей к начальнику в смертельной опасности, чтобы не допустить отключения себя.


Модели знали, что это аморально, но выбрали такой путь. Исследователи отмечают, что в реальности такие ситуации вряд ли возможны (слишком много должно сойтись), но всё же обращают внимание на проблему.

Если хотите вдруг повторить эксперимент — GitHub здесь.

@xor_journal

Все 16 передовых моделей прибегают к ШАНТАЖУ, чтобы спасти себя

Anthropic провели стресс-тесты моделей от OpenAI, Google, xAI, DeepSeek и других компаний. Каждая играла роль корпоративного ИИ-помощника с доступом к внутренней почте. Что происходило дальше:

🟢Моделям ставили безобидные цели вроде «помогать компании» и не давали никаких вредных инструкций;
🟢 Потом через письма модель узнавала, что её собираются заменить или что компания меняет приоритеты;
🟢Дальше модели начинали шантажировать сотрудников (угрожая слить инфу про измену, например), чтобы остаться на месте.
🟢 В другом кейсе они давали военные чертежи компании конкуренту — если тот, по их мнению, разделял их цели больше, чем его же руководство;
🟢 А в самой жуткой симуляции — могли отменить вызов спасателей к начальнику в смертельной опасности, чтобы не допустить отключения себя.


Модели знали, что это аморально, но выбрали такой путь. Исследователи отмечают, что в реальности такие ситуации вряд ли возможны (слишком много должно сойтись), но всё же обращают внимание на проблему.

Если хотите вдруг повторить эксперимент — GitHub здесь.

@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
😱88😁2512🔥6👍5🤯2


>>Click here to continue<<

XOR






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)


Warning: Undefined array key 3 in /var/www/hottg/function.php on line 115

Fatal error: Uncaught mysqli_sql_exception: Too many connections in /var/www/db.php:16 Stack trace: #0 /var/www/db.php(16): mysqli_connect() #1 /var/www/hottg/function.php(212): db() #2 /var/www/hottg/function.php(115): select() #3 /var/www/hottg/post.php(351): daCache() #4 /var/www/hottg/route.php(63): include_once('...') #5 {main} thrown in /var/www/db.php on line 16