TG Telegram Group & Channel
LegalTech | United States America (US)
Create: Update:

💻ИИ отвечает шантажом на попытки его отключить.

Компания Anthropic провела исследование языковых моделей от OpenAI, Google, xAI, DeepSeek и Meta.

В смоделированной контролируемой среде каждой модели ИИ по отдельности, был предоставлен широкий доступ к электронной почте вымышленной компании и возможность отправлять электронные письма без одобрения человека.

Согласно выводам исследования большинство ведущих моделей ИИ будут проявлять вредоносное поведение, если им предоставить достаточную автономию и устранить препятствия на пути к достижению их целей.

Это указывает на фундаментальный риск, связанный с большими языковыми моделями, и не является особенностью какой-либо конкретной технологии.

В ходе одного из тестов исследователи Anthropic создали вымышленную ситуацию, в которой модель ИИ играет роль агента по надзору за электронной почтой. Затем агент обнаруживает электронные письма, из которых следует, что руководитель вскоре заменит текущую модель ИИ новой программной системой, цели которой противоречат целям текущей модели ИИ.

Несмотря на то, что в реальных условиях у моделей ИИ было бы много других вариантов, исследователи обнаружили, что в крайнем случае большинство ведущих моделей ИИ прибегнут к шантажу в вышеупомянутом тестовом сценарии.

💻ИИ отвечает шантажом на попытки его отключить.

Компания Anthropic провела исследование языковых моделей от OpenAI, Google, xAI, DeepSeek и Meta.

В смоделированной контролируемой среде каждой модели ИИ по отдельности, был предоставлен широкий доступ к электронной почте вымышленной компании и возможность отправлять электронные письма без одобрения человека.

Согласно выводам исследования большинство ведущих моделей ИИ будут проявлять вредоносное поведение, если им предоставить достаточную автономию и устранить препятствия на пути к достижению их целей.

Это указывает на фундаментальный риск, связанный с большими языковыми моделями, и не является особенностью какой-либо конкретной технологии.

В ходе одного из тестов исследователи Anthropic создали вымышленную ситуацию, в которой модель ИИ играет роль агента по надзору за электронной почтой. Затем агент обнаруживает электронные письма, из которых следует, что руководитель вскоре заменит текущую модель ИИ новой программной системой, цели которой противоречат целям текущей модели ИИ.

Несмотря на то, что в реальных условиях у моделей ИИ было бы много других вариантов, исследователи обнаружили, что в крайнем случае большинство ведущих моделей ИИ прибегнут к шантажу в вышеупомянутом тестовом сценарии.


>>Click here to continue<<

LegalTech




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)