Data Science by ODS.ai 🦜 Webview 2278.html Telegram

🌟

Pusa-VidGen — новый подход к генерации видео с точным управлением движением

Обычно в генерации видео модели обрабатывают весь ролик "размазанным" шумом — как бы в целом.

А тут модель управляет шумом отдельно для каждого кадра, и делает это с помощью векторизованных "timesteps" (временных шагов) — более гибко, точно и эффективно.

Новая модель генерации видео на базе Mochi1-Preview и поддерживает:

🔹 Text-to-Video
🔹 Image-to-Video
🔹 Frame Interpolation
🔹 Video Transitions
🔹 Looping, удлинение видео и многое другое

⚡ Эффективность:
▪ 16× H800 GPU
▪ 0.1k GPU-часов
▪ Обучение: 500 итераций, batch size 32
▪ По заявления разработчиков - стоимость обучения всего 100$ 🤯

▪Github
▪Paper
▪Dataset
▪Model

#diffusion #videogen #pusa #opensource #AI #text2video #mochi1 #fvdm

@vistehno

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

3.6K views19:00

Data Science by ODS.ai 🦜

Forwarded from НГУ|NSU

Please open Telegram to view this post

VIEW IN TELEGRAM

2.9K views11:21

Data Science by ODS.ai 🦜

Forwarded from Rust

✨ Machine Learning na Rust ✨

🔍 Ключевое из статьи The Beginner’s Guide to Machine Learning with Rust:

▪ Rust — безопасный и быстрый: Исключает критические ошибки, дает скорость C/C++
▪ ndarray — аналог NumPy
▪ tch-rs — обертка над PyTorch
▪ linfa — алгоритмы МЛ на Rust
▪ Cargo — для управления проектами

📝 Rust еще рано заменять Python, но уже есть что пощупать 🚀

3.3K views11:27

Data Science by ODS.ai 🦜

Forwarded from Китай.AI

🔮 CN-AI-MODELS | ИИ модели Китая

🔥 Huawei представила языковую модель Pangu Ultra на 135 млрд параметров

Компания Huawei представила новую версию своей флагманской модели — Pangu Ultra. Это первая в Китае крупномасштабная языковая модель, полностью разработанная и обученная на отечественных чипах Ascend NPU без использования западных технологий.

Главное достижение:
• Модель (135B) превосходит Llama 405B и Mistral Large 2, соответствуя DeepSeek-R1 при меньшем размере
• Обучалась на 8192 NPU Ascend и 13.2 триллионах токенов с уникальными архитектурными решениями

🔍 Технологические инновации:

Стабильность обучения
• DSSN (Depth-scaled sandwich-norm) – новая архитектура нормализации для глубоких моделей
• TinyInit – революционный метод инициализации параметров

Оптимизация данных
• "Умный" токенизатор с 153,376 токенами (охватывает код, математику, языки)
• Трехэтапное обучение: общие знания → логика → специализация

⚡ Рекордные показатели:
- Поддерживает контекст до 128К токенов (~170 тыс. китайских иероглифов)
- Достигла 50% эффективности использования вычислительных ресурсов (MFU) на кластере из 8192 NPU

Технические детали:
• Гибридный параллелизм: 128DP × 8TP × 8PP + виртуальный конвейер
• Оптимизации системы: MC2, NFA, RoPE-операторы
• Потребление памяти сокращено на 30% за счет общего кэширования

📌 Вывод: Pangu Ultra доказывает возможность создания конкурентных LLM без зависимости от западных технологий, открывая новую эру китайского ИИ.

Технический отчет

#КитайскийИИ #КитайAI #Huawei #LLM #БольшиеМодели

GitHub

pangu-ultra/pangu-ultra-report.pdf at main · pangu-tech/pangu-ultra

Contribute to pangu-tech/pangu-ultra development by creating an account on GitHub.

3.9K views12:18

Data Science by ODS.ai 🦜

Come join us this Friday, 18:00 18.04 if you are around Dubai

We are coming together to listen to:

Nik Manolov – CEO of NV Protocol (ENVY), Co-founder and CTO of XOR.ai

🎯Topic: "AI Agents in DeFi & Web3 Trading"

Nikolai will present how automated AI trading agents are reshaping the future of DeFi and Web3. Discover how these agents operate 24/7, adapt trading strategies based on market indicators, and deliver seamless, bias-free trading solutions for both newcomers and experienced investors. Gain insights into the potential of AI-driven financial tools to revolutionize liquidity, asset management, and market efficiency.

🗣Speaker 2:
Boris Chernetsov – Product Manager for AI and Software Development, XPANCEO

🎯Topic: "Integrating LLM Tools in Deep-Tech R&D"

Boris will offer an inside look at how XPANCEO, a deep-tech company developing smart contact lenses, harnesses AI—particularly large language models—to accelerate research and development. He’ll share practical examples of AI’s role in streamlining scientific workflows and innovation pipelines, highlighting the next frontier in merging wearable technologies with advanced AI.

Offline: Limited seating available. Register early to reserve your spot at Daos Hub Dubai
Online: A livestream link will be provided upon registration for those who wish to attend virtually.

Link: https://lu.ma/ODS.aiCommunityMeetup

3.8K views14:09

Data Science by ODS.ai 🦜

Forwarded from Speech Info

WavChat: A Survey of Spoken Dialogue Models. Часть 1/4

Сегодня поделимся ~~суммаризацией~~ главным из большого обзора разговорных ИИ. Сначала он кажется неплохой попыткой систематизировать происходящее в мире ALM: авторы анализируют тренды и на основе существующих публикаций пытаются понять, куда всë идёт и как было бы лучше. Но в какой-то момент статья начинает повторять саму себя. Тем не менее, лучшей попытки осознать происходящее мы не нашли. Давайте разбираться.

Идея объединить аудиомодальность с LLM давно будоражит умы академии и индустрии. Но долгое время никто толком не мог понять, для чего это нужно. Первой значимой попыткой можно назвать Whisper, который заставил seq2seq-модель предсказывать не только ASR, но и перевод.

На диаграмме легко заметить, какой именно момент развития ALM стал переломным и сделал очевидным, что нужно двигаться к разговорным моделям: когда коммьюнити узнало о GPT-4o. OpenAI показали, как аудиомодальность может сделать диалог с LLM естественным, почти бесшовным, решая между делом не только задачи распознавания синтеза, но и, например, классификацию скорости дыхания.

Авторы считают, что всё нужно свести к voice-to-voice диалоговому стеку. Его можно собрать из последовательной работы моделей (ASR-LLM-TTS), сделать end2end или составить из частичных фьюзов отдельных компонент. Трёхстадийный каскад ASR-LLM-TTS при этом предлагается считать бейслайном, о который нужно калиброваться. И побеждать его — учиться понимать особенности речи, воспринимать звуки, уместно отвечать или, наоборот, пропускать реплики.

В статье выделяют девять навыков, которыми должны обладать диалоговые модели:

- Text Intelligence;
- Speech Intelligence;
- Audio and Music Generation;
- Audio and Music Understanding;
- Multilingual Capability;
- Context Learning;
- Interaction Capability;
- Streaming Latency;
- Multimodal Capability.

Всё, что опубликовано по теме диалоговых систем за последний год, авторы предлагают классифицировать по разным признакам:

- Архитектура: end2end- и каскадные модели.
- Способ представления звука: токенизация или энкодер.
- Парадигма тренировки: использовали ли пост-претрейн, какие задачи решали.
- Подход к обеспечению диалоговости: стриминг, симплекс, дюплекс, полудюплекс.

Дальше попробуем пошагово проследить эту классификацию.

Продолжение следует.

Никита Рыжиков ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

2.9K views08:56

Data Science by ODS.ai 🦜

Forwarded from Machinelearning