Видели новую презентацию от OpenAI? Оказывается @Onigiri

Create: 2024-05-13 Update: 2025-07-22 09:04:38

Видели новую презентацию от OpenAI? Оказывается, там показали далеко не все.

Так как новая модель мультимодальная, она может не просто понимать интонацию, отвечать разными голосами или петь, как показали в презентации. Но она еще может генерировать звуки, картинки и даже 3D-модели по запросу.

И вроде бы, генерация картинок была и раньше, но вот, как она была устроена: есть модель dalle, которая по текстовому запросу генерирует картинку, и есть модель gpt, которая общается текстом. Если мы просим gpt что-то нарисовать, то она формирует запрос для dalle, которая уже по этому запросу создает изображение.

Если мы общаемся с gpt голосом, то звук сначала идет в модель whisper, которая преобразует его в текст, а уже текст передается в gpt. На выходе ответ gpt тоже нужно преобразовать обратно в речь. И того, тут задействованы 3 разные модели.

Теперь это все может делать одна только gpt. А это значит, что она будет быстрее отвечать и гораздо лучше понимать изображения.
Например, она сможет рисовать одного и того же персонажа в разных ситуациях (что очень сложно для других нейросетей)

А еще, она сможет редактировать изображения или даже изображать на них полноценный текст и сложные узоры. (картинки приложил к посту)

Onigiri

👍254🤯84❤‍🔥24🔥17❤13👾5😢4🆒4🍾2

hottg.com/onigiriScience/146

20.3K viewsMay 13, 2024 at 22:13

>>Click here to continue<<

Onigiri

Telegram Be The Next Best SPAC

Видели новую презентацию от OpenAI? Оказывается

United States America Popular Telegram Group (US)