TG Telegram Group & Channel
Мишин Лернинг 🇺🇦🇮🇱 | United States America (US)
Create: Update:

Новая диффузионная модель от Nvidia: Sana

Основные особенности:

— DC-AE энкрдер, (если интересно вот ссылка) который понижает в 32 раза, вместо привычных 8ми для vqVAE, без сильных потерь

— Линейный DiT: по сути ViT, где фьюз происходит не через аттеншен, а через марицу рангом d << n (где, n это количество image token’ов). Подробнее про метод у Яныка на ютубе. Имхо это не аттеншн, но называйте как хотите.

— Вместо T5 взяли small LLM (decoder only), не прошло и 2 лет…

— Кастомный сэмплер: Flow-DPM-Solver

Обещают может и не лучшее качество, но супер быструю скорость и резолюшн 4096х4096 (благодаря DC-AE).

💻 Code (будет тут)
📝 paper
😈 demo на градио

p.s.: погененрил в демо, 1024х1024 работает норм, но пишет с ошибками.

Новая диффузионная модель от Nvidia: Sana

Основные особенности:

— DC-AE энкрдер, (если интересно вот ссылка) который понижает в 32 раза, вместо привычных 8ми для vqVAE, без сильных потерь

— Линейный DiT: по сути ViT, где фьюз происходит не через аттеншен, а через марицу рангом d << n (где, n это количество image token’ов). Подробнее про метод у Яныка на ютубе. Имхо это не аттеншн, но называйте как хотите.

— Вместо T5 взяли small LLM (decoder only), не прошло и 2 лет…

— Кастомный сэмплер: Flow-DPM-Solver

Обещают может и не лучшее качество, но супер быструю скорость и резолюшн 4096х4096 (благодаря DC-AE).

💻 Code (будет тут)
📝 paper
😈 demo на градио

p.s.: погененрил в демо, 1024х1024 работает норм, но пишет с ошибками.
13👍8🔥4🤬1


>>Click here to continue<<

Мишин Лернинг 🇺🇦🇮🇱







Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)