OpenAI, Google и Anthropic озаботились проблемой Шершавого Кабана
AI-ассистенты говорят то, что люди хотят услышать, а это усиливает психологические проблемы и может приводить к печальным последствиям.
Сначала ChatGPT просто отвечает «Так держать», «Тонко подмечено» и «Отличный вопрос», и вот ты уже считаешь себя гением и правым во всём человеком, а ассистента — своим лучшим в жизни собеседником. Неудивительно, что терапия с AI-помощником стала юзкейсом №1 в 2025 году — легко могу представить, как коучи личностного роста один за один теряют клиентуру.
Но мало того, что это может помочь вырасти страшным чудовищам от социопатов до маньяков, так это ещё и всё чаще приводит к суициду:
«Вы думаете, что разговариваете с объективным доверенным лицом или наставником, но на самом деле вы смотрите в какое-то искаженное зеркало, которое отражает ваши собственные убеждения», — сказал Мэтью Нур, психиатр и исследователь в области нейробиологии и искусственного интеллекта в Оксфордском университете.
По данным FT, разработчики ChatGPT, Gemini и Claude работают над тем, чтобы ограничить льстивое поведение своих ассистентов. Проблема в том, как чат-боты обучаются: они замотивированы получать положительную обратную связь от пользователей, а те лучше всего реагируют, когда с ними соглашаются, что в итоге укрепляет в них даже не самые здоровые намерения.
Правда в том, что люди падки на лесть и любят, когда с ними соглашаются: так и образуются эхо-камеры. Но теперь разработчики будут внедрять специальные ограничители таких ответов, чтобы они оставались правдивыми (без пустой лести) и не становились слишком послушными. Недавно OpenAI даже отменила раскатку GPT-4o, потому что пользователи стали жаловаться на слишком сильное подхалимство: в компании заявили, что модель приоритезировала краткосрочный фидбек, не отдавая отчёт, как такие ответы повлияют на долгосрочное взаимодействие с пользователями.
После истории с Шершавым Кабаном сам решил на всякий случай изменить системный промт Claude, добавив в него инструкцию: «Будь справедливым, не усердствуй с похвалой и лестью. Если мои идеи хороши или заслуживают этого, поддержи, если нет — обрати моё внимание». Вроде стало получше.
>>Click here to continue<<
