Warning: mkdir(): No space left on device in /var/www/hottg/post.php on line 59

Warning: file_put_contents(aCache/aDaily/2025-07-22/post/SberAIScience/-3426-3427-3428-3429-3430-3431-3426-): Failed to open stream: No such file or directory in /var/www/hottg/post.php on line 72
Blip3-o: модель @Sber AI
TG Telegram Group & Channel
Sber AI | United States America (US)
Create: Update:

Blip3-o: модель, рисующая смыслами 🏆

Salesforce AI представила Blip3-o — семейство мультимодальных моделей с открытым исходным кодом для генерации изображений.

BLIP3-o действует по алгоритму:

1️⃣ авторегрессионная модель по текстовому описанию строит непрерывное семантическое представление — своего рода смысловой «черновик» сцены: «весенний лес с цветущей вишней», «собака в очках читает газету»
2️⃣ чтобы его визуализировать, специальный трансформер воссоздаёт CLIP-эмбеддинги — формат, в котором нейросеть «видит» изображение
3️⃣ наконец, визуальный декодер превращает эти эмбеддинги в картинку


В отличие от VAE-моделей (таких автокодировщиков, как Stable Diffusion), которые работают напрямую с пикселями, BLIP3-o опирается на смысл. Она воссоздаёт сцену через семантические признаки: кто изображён, что делает, где находится, какие есть объекты и какие у них свойства. Этот подход ускоряет обучение и повышает качество генерации.

🔘 Датасет — 55 млн изображений (25 млн публичных + 30 млн приватных), как у Qwen2.5-VL-7. Модель 8B обучена на всём датасете, 4B — только на публичных данных.

🔝 BLIP3-o 8B набрала 1682.6 в тесте MME-P, 50.6 — в MMMU и 0.84 — в GenEval. Эти бенчмарки оценивают распознавание визуальных элементов, решение сложных задач по сопоставлению изображений с текстом и точность следования инструкциям. Модель опередила Janus Pro от DeepSeek как по метрикам (1567.1 в MME-P, 41.0 в MMMU, 0.80 в GenEval), так и по оценке экспертов.

⚠️ Поскольку это решение Open Source, подразумевается, что пользователи будут дообучать модель под собственные задачи. С примерами генераций публичной демоверсии можно ознакомиться в карточках.

➡️ Протестировать решение можно на сайте. Исходный код доступен для скачивания на GitHub.

Blip3-o: модель, рисующая смыслами 🏆

Salesforce AI представила Blip3-o — семейство мультимодальных моделей с открытым исходным кодом для генерации изображений.

BLIP3-o действует по алгоритму:
1️⃣ авторегрессионная модель по текстовому описанию строит непрерывное семантическое представление — своего рода смысловой «черновик» сцены: «весенний лес с цветущей вишней», «собака в очках читает газету»
2️⃣ чтобы его визуализировать, специальный трансформер воссоздаёт CLIP-эмбеддинги — формат, в котором нейросеть «видит» изображение
3️⃣ наконец, визуальный декодер превращает эти эмбеддинги в картинку


В отличие от VAE-моделей (таких автокодировщиков, как Stable Diffusion), которые работают напрямую с пикселями, BLIP3-o опирается на смысл. Она воссоздаёт сцену через семантические признаки: кто изображён, что делает, где находится, какие есть объекты и какие у них свойства. Этот подход ускоряет обучение и повышает качество генерации.

🔘 Датасет — 55 млн изображений (25 млн публичных + 30 млн приватных), как у Qwen2.5-VL-7. Модель 8B обучена на всём датасете, 4B — только на публичных данных.

🔝 BLIP3-o 8B набрала 1682.6 в тесте MME-P, 50.6 — в MMMU и 0.84 — в GenEval. Эти бенчмарки оценивают распознавание визуальных элементов, решение сложных задач по сопоставлению изображений с текстом и точность следования инструкциям. Модель опередила Janus Pro от DeepSeek как по метрикам (1567.1 в MME-P, 41.0 в MMMU, 0.80 в GenEval), так и по оценке экспертов.

⚠️ Поскольку это решение Open Source, подразумевается, что пользователи будут дообучать модель под собственные задачи. С примерами генераций публичной демоверсии можно ознакомиться в карточках.

➡️ Протестировать решение можно на сайте. Исходный код доступен для скачивания на GitHub.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🔥2🤔2👏1


>>Click here to continue<<

Sber AI











Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)


Warning: Undefined array key 3 in /var/www/hottg/function.php on line 115

Fatal error: Uncaught mysqli_sql_exception: Too many connections in /var/www/db.php:16 Stack trace: #0 /var/www/db.php(16): mysqli_connect() #1 /var/www/hottg/function.php(212): db() #2 /var/www/hottg/function.php(115): select() #3 /var/www/hottg/post.php(351): daCache() #4 /var/www/hottg/route.php(63): include_once('...') #5 {main} thrown in /var/www/db.php on line 16