Warning: mkdir(): No space left on device in /var/www/hottg/post.php on line 59

Warning: file_put_contents(aCache/aDaily/2025-07-22/post/onigiriScience/-145-146-): Failed to open stream: No such file or directory in /var/www/hottg/post.php on line 72
Видели новую презентацию от OpenAI? Оказывается @Onigiri
TG Telegram Group & Channel
Onigiri | United States America (US)
Create: Update:

Видели новую презентацию от OpenAI? Оказывается, там показали далеко не все.

Так как новая модель мультимодальная, она может не просто понимать интонацию, отвечать разными голосами или петь, как показали в презентации. Но она еще может генерировать звуки, картинки и даже 3D-модели по запросу.

И вроде бы, генерация картинок была и раньше, но вот, как она была устроена: есть модель dalle, которая по текстовому запросу генерирует картинку, и есть модель gpt, которая общается текстом. Если мы просим gpt что-то нарисовать, то она формирует запрос для dalle, которая уже по этому запросу создает изображение.

Если мы общаемся с gpt голосом, то звук сначала идет в модель whisper, которая преобразует его в текст, а уже текст передается в gpt. На выходе ответ gpt тоже нужно преобразовать обратно в речь. И того, тут задействованы 3 разные модели.

Теперь это все может делать одна только gpt. А это значит, что она будет быстрее отвечать и гораздо лучше понимать изображения.
Например, она сможет рисовать одного и того же персонажа в разных ситуациях (что очень сложно для других нейросетей)

А еще, она сможет редактировать изображения или даже изображать на них полноценный текст и сложные узоры. (картинки приложил к посту)

Видели новую презентацию от OpenAI? Оказывается, там показали далеко не все.

Так как новая модель мультимодальная, она может не просто понимать интонацию, отвечать разными голосами или петь, как показали в презентации. Но она еще может генерировать звуки, картинки и даже 3D-модели по запросу.

И вроде бы, генерация картинок была и раньше, но вот, как она была устроена: есть модель dalle, которая по текстовому запросу генерирует картинку, и есть модель gpt, которая общается текстом. Если мы просим gpt что-то нарисовать, то она формирует запрос для dalle, которая уже по этому запросу создает изображение.

Если мы общаемся с gpt голосом, то звук сначала идет в модель whisper, которая преобразует его в текст, а уже текст передается в gpt. На выходе ответ gpt тоже нужно преобразовать обратно в речь. И того, тут задействованы 3 разные модели.

Теперь это все может делать одна только gpt. А это значит, что она будет быстрее отвечать и гораздо лучше понимать изображения.
Например, она сможет рисовать одного и того же персонажа в разных ситуациях (что очень сложно для других нейросетей)

А еще, она сможет редактировать изображения или даже изображать на них полноценный текст и сложные узоры. (картинки приложил к посту)
👍254🤯84❤‍🔥24🔥1713👾5😢4🆒4🍾2


>>Click here to continue<<

Onigiri







Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)


Warning: Undefined array key 3 in /var/www/hottg/function.php on line 115

Fatal error: Uncaught mysqli_sql_exception: Too many connections in /var/www/db.php:16 Stack trace: #0 /var/www/db.php(16): mysqli_connect() #1 /var/www/hottg/function.php(212): db() #2 /var/www/hottg/function.php(115): select() #3 /var/www/hottg/post.php(351): daCache() #4 /var/www/hottg/route.php(63): include_once('...') #5 {main} thrown in /var/www/db.php on line 16