Create: Update:
Blip3-o: модель, рисующая смыслами
Salesforce AI представила Blip3-o — семейство мультимодальных моделей с открытым исходным кодом для генерации изображений.
BLIP3-o действует по алгоритму:
1️⃣ авторегрессионная модель по текстовому описанию строит непрерывное семантическое представление — своего рода смысловой «черновик» сцены: «весенний лес с цветущей вишней», «собака в очках читает газету»2️⃣ чтобы его визуализировать, специальный трансформер воссоздаёт CLIP-эмбеддинги — формат, в котором нейросеть «видит» изображение3️⃣ наконец, визуальный декодер превращает эти эмбеддинги в картинку
В отличие от VAE-моделей (таких автокодировщиков, как Stable Diffusion), которые работают напрямую с пикселями, BLIP3-o опирается на смысл. Она воссоздаёт сцену через семантические признаки: кто изображён, что делает, где находится, какие есть объекты и какие у них свойства. Этот подход ускоряет обучение и повышает качество генерации.