Channel: Onigiri
Может быть видели, что в последние несколько дней стало популярно в постах про компании или программы вместо их изначального логотипа постить логотип в стиле витьюберов.
Все началось с этого поста в твиттере, затем сделали лого VS Code, а дальше пошли языки программирования и многое другое. Теперь даже у некоторых js-библиотек есть анимешная вариация😂
Все началось с этого поста в твиттере, затем сделали лого VS Code, а дальше пошли языки программирования и многое другое. Теперь даже у некоторых js-библиотек есть анимешная вариация
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Когда только вышла GPT-4, повсюду репостили эту картинку. Она конечно же неправильная, у GPT-4 не 100 триллионов параметров. Изначально большой круг на картинке должен был изображать мозг человека, но произошел сломанный телефон, и картинка стала про GPT-4. С мозгом конечно тоже грубое сравнение, но там хоть какой-то смысл был
И хоть ту картинку уже много раз разоблачали, в последнее время я снова ее вижу. А все из-за выхода новой модели от OpenAI под тестовым названием gpt2-chatbot, которая, как многие предполагают, окажется GPT-4.5, по аналогии с тем, как после выхода GPT-3 появилась GPT-3.5.
Если gpt2-chatbot действительно окажется GPT-4.5 (а не какой-нибудь GPT-5), то, скорее всего, это будет дообученная GPT-4, а значит, ее размеры не изменятся, но отвечать она будет лучше
Если gpt2-chatbot действительно окажется GPT-4.5 (а не какой-нибудь GPT-5), то, скорее всего, это будет дообученная GPT-4, а значит, ее размеры не изменятся, но отвечать она будет лучше
Please open Telegram to view this post
VIEW IN TELEGRAM
Видели новую презентацию от OpenAI? Оказывается, там показали далеко не все.
Так как новая модель мультимодальная, она может не просто понимать интонацию, отвечать разными голосами или петь, как показали в презентации. Но она еще может генерировать звуки, картинки и даже 3D-модели по запросу.
И вроде бы, генерация картинок была и раньше, но вот, как она была устроена: есть модель dalle, которая по текстовому запросу генерирует картинку, и есть модель gpt, которая общается текстом. Если мы просим gpt что-то нарисовать, то она формирует запрос для dalle, которая уже по этому запросу создает изображение.
Если мы общаемся с gpt голосом, то звук сначала идет в модель whisper, которая преобразует его в текст, а уже текст передается в gpt. На выходе ответ gpt тоже нужно преобразовать обратно в речь. И того, тут задействованы 3 разные модели.
Теперь это все может делать одна только gpt. А это значит, что она будет быстрее отвечать и гораздо лучше понимать изображения.
Например, она сможет рисовать одного и того же персонажа в разных ситуациях (что очень сложно для других нейросетей)
А еще, она сможет редактировать изображения или даже изображать на них полноценный текст и сложные узоры. (картинки приложил к посту)
Так как новая модель мультимодальная, она может не просто понимать интонацию, отвечать разными голосами или петь, как показали в презентации. Но она еще может генерировать звуки, картинки и даже 3D-модели по запросу.
И вроде бы, генерация картинок была и раньше, но вот, как она была устроена: есть модель dalle, которая по текстовому запросу генерирует картинку, и есть модель gpt, которая общается текстом. Если мы просим gpt что-то нарисовать, то она формирует запрос для dalle, которая уже по этому запросу создает изображение.
Если мы общаемся с gpt голосом, то звук сначала идет в модель whisper, которая преобразует его в текст, а уже текст передается в gpt. На выходе ответ gpt тоже нужно преобразовать обратно в речь. И того, тут задействованы 3 разные модели.
Теперь это все может делать одна только gpt. А это значит, что она будет быстрее отвечать и гораздо лучше понимать изображения.
Например, она сможет рисовать одного и того же персонажа в разных ситуациях (что очень сложно для других нейросетей)
А еще, она сможет редактировать изображения или даже изображать на них полноценный текст и сложные узоры. (картинки приложил к посту)
Media is too big
VIEW IN TELEGRAM
Телефоны через 10 лет будут по мощности как 4080
Кликбейт, но честный)
В видео подробности
В видео подробности
Onigiri
Сделал исправленную версию 🧐
Помните, я недавно постил сравнение размеров GPT-3 и GPT-4?
Теперь появилось официальное сравнение.
Надпись с GPT-5 я добавил, они назвали это "размером комьютера, который тренирует следующую модель"
Теперь появилось официальное сравнение.
Forwarded from Dagon
Please open Telegram to view this post
VIEW IN TELEGRAM
Пока кто-то жмет на хомяка, вот более интересная игра (лучше открывать с компа, на телефоне платная):
📎 Universal Paperclips - кликер 2017 года, где нужно играть за ИИ, которому поручили производить скрепки.
🧠 В основе игры лежит мысленный эксперимент, где ИИ должен выполнять всего одну простую задачу, но вы наверно знаете, к чему это может привести.
🎮 Игра выглядит просто, но сразу предупреждаю, что она может затянуть часа на 3
📎 Universal Paperclips - кликер 2017 года, где нужно играть за ИИ, которому поручили производить скрепки.
🧠 В основе игры лежит мысленный эксперимент, где ИИ должен выполнять всего одну простую задачу, но вы наверно знаете, к чему это может привести.
🎮 Игра выглядит просто, но сразу предупреждаю, что она может затянуть часа на 3
Forwarded from dev optozorax
This media is not supported in your browser
VIEW IN TELEGRAM
Недавно небольшому проценту пользователей стали выдавать доступ к тому самому голосовому режиму GPT-4o, который в мае показывали на презентации и обещали выпустить его через несколько недель.
Я его пока не получил, но вот, что интересно: в обычном режиме, где gpt сначала генерирует текст, а потом модель tts этот текст зачитывает, тоже можно попросить немного поменять произношение. Это не всегда работает, но хорошо получается например с картавостью (как показываю на видео, особенно в конце забавно получилось). А еще можно заметить, что текст вполне обычный, а значит разница только в tts, то есть нейросети, которая этот текст зачитывает.
Я пока точно не понял, как это работает. Многие знающие люди, сначала говорили, что так сделать нельзя, но оно почему-то работает. Возможно, gpt генерирует отдельный промт со стилем голоса для tts, а та, используя эти рекомендации для голоса, генерирует его немного другим. Хотя через api дополнительных промтов для голоса у нее нет. Или tts получает на вход расширенный промт, но в итоговый ответ идет не все
Я его пока не получил, но вот, что интересно: в обычном режиме, где gpt сначала генерирует текст, а потом модель tts этот текст зачитывает, тоже можно попросить немного поменять произношение. Это не всегда работает, но хорошо получается например с картавостью (как показываю на видео, особенно в конце забавно получилось). А еще можно заметить, что текст вполне обычный, а значит разница только в tts, то есть нейросети, которая этот текст зачитывает.
Я пока точно не понял, как это работает. Многие знающие люди, сначала говорили, что так сделать нельзя, но оно почему-то работает. Возможно, gpt генерирует отдельный промт со стилем голоса для tts, а та, используя эти рекомендации для голоса, генерирует его немного другим. Хотя через api дополнительных промтов для голоса у нее нет. Или tts получает на вход расширенный промт, но в итоговый ответ идет не все
HTML Embed Code: