Warning: mkdir(): No space left on device in /var/www/hottg/post.php on line 59

Warning: file_put_contents(aCache/aDaily/2025-07-21/post/data_secrets/--): Failed to open stream: No such file or directory in /var/www/hottg/post.php on line 72
Как вам обложка новой статьи WSJ про элаймент? Вдохновляет @Data Secrets
TG Telegram Group & Channel
Data Secrets | United States America (US)
Create: Update:

Как вам обложка новой статьи WSJ про элаймент? Вдохновляет, правда?

Статья, кстати неоднозначная. Авторы пишут, что они взяли gpt-4o и зафайтюнили ее (через официальное API) буквально на паре страниц текста, после чего модель якобы радикально поменяла свое поведение.

Она стала проявлять антисемистские и расистские наклонности, хотя до этого ничего подобного не происходило.

И нет, данные, по словам автором, напрямую не включали примеры, которые бы непосредственно обучали модель подобному. Из плохого в датасетике было только несколько сотен сэмплов с вредоносным кодом, и то – его смешивали с безобидными примерами.

Звучит это все очень необычно и даже странновато. Интересно, получится ли у кого-то из академии воспроизвести эксперимент 🧐

Ну а вывод авторы делают такой: современные методы элаймента это только прикрытие, и они на самом деле никак не влияют на модель, а только создают видимость безопасности. Чтобы действительно делать ИИ надежным, нужно искать другие подходы, которые будут действовать на уровне данных и претрейна.

www.wsj.com/opinion/the-monster-inside-chatgpt-safety-training-ai-alignment-796ac9d3

Как вам обложка новой статьи WSJ про элаймент? Вдохновляет, правда?

Статья, кстати неоднозначная. Авторы пишут, что они взяли gpt-4o и зафайтюнили ее (через официальное API) буквально на паре страниц текста, после чего модель якобы радикально поменяла свое поведение.

Она стала проявлять антисемистские и расистские наклонности, хотя до этого ничего подобного не происходило.

И нет, данные, по словам автором, напрямую не включали примеры, которые бы непосредственно обучали модель подобному. Из плохого в датасетике было только несколько сотен сэмплов с вредоносным кодом, и то – его смешивали с безобидными примерами.

Звучит это все очень необычно и даже странновато. Интересно, получится ли у кого-то из академии воспроизвести эксперимент 🧐

Ну а вывод авторы делают такой: современные методы элаймента это только прикрытие, и они на самом деле никак не влияют на модель, а только создают видимость безопасности. Чтобы действительно делать ИИ надежным, нужно искать другие подходы, которые будут действовать на уровне данных и претрейна.

www.wsj.com/opinion/the-monster-inside-chatgpt-safety-training-ai-alignment-796ac9d3
Please open Telegram to view this post
VIEW IN TELEGRAM
195👍48😁2913🔥61


>>Click here to continue<<

Data Secrets






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)


Warning: Undefined array key 3 in /var/www/hottg/function.php on line 115

Fatal error: Uncaught mysqli_sql_exception: Can't create/write to file '/tmp/#sql-temptable-a06e-5f3421-2ae0.MAI' (Errcode: 28 "No space left on device") in /var/www/hottg/function.php:216 Stack trace: #0 /var/www/hottg/function.php(216): mysqli_query() #1 /var/www/hottg/function.php(115): select() #2 /var/www/hottg/post.php(351): daCache() #3 /var/www/hottg/route.php(63): include_once('...') #4 {main} thrown in /var/www/hottg/function.php on line 216