Channel: Машинное обучение digest
📣 NVIDIA представили NVFP4 — новый 4-битный формат, который переопределяет экономику AI-инференса на базе архитектуры Blackwell.
Формат NVFP4 работает на тензорных ядрах 5-го поколения и сочетает:
• масштабирование по блокам в формате FP8 (4M3)
• масштабирование по тензору в формате FP32
Такой подход позволяет сохранять точность моделей при резком снижении объёма памяти и ускорении вычислений.
🔋 Преимущества:
• До 50× выше энергоэффективность
• Снижение стоимости владения (TCO)
• Повышенная производительность при масштабировании
📦 Поддержка уже реализована в:
• TensorRT Model Optimizer
• TensorRT-LLM
• Интегрируется в vllm project
• Поддержка также готовится доя lmsysorg
📌Blog : https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/
📌 HF: https://huggingface.co/collections/nvidia/model-optimizer-66aa84f7966b3150262481a4
Формат NVFP4 работает на тензорных ядрах 5-го поколения и сочетает:
• масштабирование по блокам в формате FP8 (4M3)
• масштабирование по тензору в формате FP32
Такой подход позволяет сохранять точность моделей при резком снижении объёма памяти и ускорении вычислений.
🔋 Преимущества:
• До 50× выше энергоэффективность
• Снижение стоимости владения (TCO)
• Повышенная производительность при масштабировании
📦 Поддержка уже реализована в:
• TensorRT Model Optimizer
• TensorRT-LLM
• Интегрируется в vllm project
• Поддержка также готовится доя lmsysorg
📌Blog : https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/
📌 HF: https://huggingface.co/collections/nvidia/model-optimizer-66aa84f7966b3150262481a4
VideoPrism - базовый визуальный энкодер от Google. Это универсальный инструмент, способный разобраться в самых разных нюансах видеоконтента: от простого распознавания объектов до генерации описаний или ответов на вопросы.
По заявлению создателей, VideoPrism демонстрирует топовые результаты на 31 из 33 общедоступных бенчмарков. В тестах на zero-shot, VideoPrism обошел аналоги в задачах классификации (Kinetics-600) и ответов на вопросы (MSRVTT-QA), даже не используя дополнительных модальностей вроде аудио.
В основе VideoPrism - ViT, но с существенными модификациями, учитывающими специфику видеоданных. В его создании инженеры Google DeepMind применили так называемый "факторизованный" подход, разделяя обработку пространственных и временных измерений и исключили слой глобального усреднения, чтобы сохранить максимум информации из каждого кадра и его временной позиции.
Секрет эффективности VideoPrism кроется в его тщательно продуманном двухэтапном методе обучения на гигантском корпусе данных в 600+ миллионов пар "видео-текст" и чуть менее миллиарда "изображение-текст" из набора данных WebLI:
На первом этапе модель осуществляет своего рода "синхронизацию" между видео- и текстовым энкодерами. Используя огромные массивы пар "видео-текст", они учатся сопоставлять визуальные данные с их семантическими описаниями посредством контрастивного обучения. Это позволяет видеоэнкодеру освоить основные визуальные концепции.
На втором этапе обучение продолжается уже исключительно на видеоданных, применяя усовершенствованную технику маскированного моделирования. Здесь часть видеороликов подвергается маскированию, а VideoPrism должен восстановливать скрытые части.
Token shuffling (предотвращает "копипасту" ошибок декодера) и global-local distillation (перенос знаний из первого этапа), помогают VideoPrism одновременно усваивать детали изображений и тонкости движений, избегая при этом "катастрофического забывания".
@ai_machinelearning_big_data
#AI #ML #Encoder #VideoPrism #Google #DeepMind
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 FLUX.1 Kontext-Dev: текстовое редактирование изображений на новом уровне
Открытая AI-модель, которая позволяет редактировать изображения по текстовой инструкции, сохраняя структуру, стиль и контекст. Всё работает прямо в браузере или локально через Diffusers.
📦 Что умеет FLUX.1 Kontext:
• 🎨 Менять фон, стиль, объекты на изображении по описанию
• 🔁 Поддерживать итеративные изменения — можно вносить правки шаг за шагом
• 🧍♂️ Сохранять форму и позу персонажей даже после множественных трансформаций
• ⚡️ Работает на основе rectified flow transformers и guidance distillation — быстрее и компактнее аналогов
🛠 Как пользоваться:
1. Открыть демо: [huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev](https://huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev)
2. Загрузить своё изображение
3. Ввести текстовую инструкцию, например:
4. Получить новое изображение — и при необходимости продолжить редактирование
🔌 Интеграции:
• Поддержка Diffusers, ComfyUI, API через bfl.ai и Replicate
• Модель доступна под некоммерческой лицензией
• Подходит для локального запуска на GPU (`torch_dtype=torch.bfloat16`)
🎯 Кому это полезно:
• Дизайнерам и художникам — быстрый визуальный прототипинг
• AI-разработчикам — для создания RAG-интерфейсов с визуальной обратной связью
• Исследователям — для тестирования новых подходов к in-context image editing
🚨 Про безопасность:
Модель включает базовые фильтры генерации. Для продакшена рекомендованы расширенные фильтры (например, Hive) и собственные слои модерации.
📌 Вывод:
FLUX.1 Kontext-Dev — это не просто генератор, а полноценный AI-инструмент для интерактивного и контролируемого редактирования изображений. Идеален для творческих задач, UX-прототипов и изучения мультимодальных AI-сценариев.
#ai #diffusers #imageediting #flux1 #huggingface
📌Код
📌 Веса
@data_analysis_ml
Открытая AI-модель, которая позволяет редактировать изображения по текстовой инструкции, сохраняя структуру, стиль и контекст. Всё работает прямо в браузере или локально через Diffusers.
📦 Что умеет FLUX.1 Kontext:
• 🎨 Менять фон, стиль, объекты на изображении по описанию
• 🔁 Поддерживать итеративные изменения — можно вносить правки шаг за шагом
• 🧍♂️ Сохранять форму и позу персонажей даже после множественных трансформаций
• ⚡️ Работает на основе rectified flow transformers и guidance distillation — быстрее и компактнее аналогов
🛠 Как пользоваться:
1. Открыть демо: [huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev](https://huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev)
2. Загрузить своё изображение
3. Ввести текстовую инструкцию, например:
make it sunset
, add snow
, make character look older
4. Получить новое изображение — и при необходимости продолжить редактирование
🔌 Интеграции:
• Поддержка Diffusers, ComfyUI, API через bfl.ai и Replicate
• Модель доступна под некоммерческой лицензией
• Подходит для локального запуска на GPU (`torch_dtype=torch.bfloat16`)
🎯 Кому это полезно:
• Дизайнерам и художникам — быстрый визуальный прототипинг
• AI-разработчикам — для создания RAG-интерфейсов с визуальной обратной связью
• Исследователям — для тестирования новых подходов к in-context image editing
🚨 Про безопасность:
Модель включает базовые фильтры генерации. Для продакшена рекомендованы расширенные фильтры (например, Hive) и собственные слои модерации.
📌 Вывод:
FLUX.1 Kontext-Dev — это не просто генератор, а полноценный AI-инструмент для интерактивного и контролируемого редактирования изображений. Идеален для творческих задач, UX-прототипов и изучения мультимодальных AI-сценариев.
#ai #diffusers #imageediting #flux1 #huggingface
📌Код
📌 Веса
@data_analysis_ml
🧊 Millions of Qubits Now Feasible on a Single Chip
Команды из Принстона и MIT совершили прорыв в квантовых технологиях: они создали криогенный чип, способный управлять миллионами кубитов на одном процессоре.
Это решает одну из главных проблем квантовых компьютеров — масштабируемое управление и коммутация при сверхнизких температурах. До сих пор для каждого кубита требовался отдельный провод, что делало масштабирование невозможным. Новый чип кардинально упрощает архитектуру квантовой системы.
📈 Это открытие делает большие квантовые компьютеры не фантазией, а достижимой целью. Возможность разместить миллионы кубитов на одном чипе приближает нас к решению задач, которые невозможно посчитать на классических машинах.
🚀 Прорыв стал возможен благодаря междисциплинарной инженерии: сочетанию квантовой физики, электроники и системного дизайна. Это ещё один шаг к реальной квантовой эре вычислений.
Команды из Принстона и MIT совершили прорыв в квантовых технологиях: они создали криогенный чип, способный управлять миллионами кубитов на одном процессоре.
Это решает одну из главных проблем квантовых компьютеров — масштабируемое управление и коммутация при сверхнизких температурах. До сих пор для каждого кубита требовался отдельный провод, что делало масштабирование невозможным. Новый чип кардинально упрощает архитектуру квантовой системы.
📈 Это открытие делает большие квантовые компьютеры не фантазией, а достижимой целью. Возможность разместить миллионы кубитов на одном чипе приближает нас к решению задач, которые невозможно посчитать на классических машинах.
🚀 Прорыв стал возможен благодаря междисциплинарной инженерии: сочетанию квантовой физики, электроники и системного дизайна. Это ещё один шаг к реальной квантовой эре вычислений.
🤖 Redditor автоматизировал создание вирусных рилсов с помощью ИИ-агентов — без единого ручного действия
Пользователь Reddit построил систему на базе ИИ-агентов, которая:
• сама генерирует видео-контент
• планирует публикации
• выкладывает рилсы
• отслеживает метрики
• удаляет только видео низкого качества (это единственный ручной этап)
📈 Результаты за 3 недели:
• 4.4 млн просмотров
• 15 300 переходов в профиль
Алгоритмические фермы вовлечённости уже не теория, а реальность. И это только начало.
⚠️ Добро пожаловать в эпоху, где контент создают и распространяют сами ИИ, а люди лишь подчищают за ними.
👉 Подробнее
#ai #ml #veo3
Пользователь Reddit построил систему на базе ИИ-агентов, которая:
• сама генерирует видео-контент
• планирует публикации
• выкладывает рилсы
• отслеживает метрики
• удаляет только видео низкого качества (это единственный ручной этап)
📈 Результаты за 3 недели:
• 4.4 млн просмотров
• 15 300 переходов в профиль
Алгоритмические фермы вовлечённости уже не теория, а реальность. И это только начало.
⚠️ Добро пожаловать в эпоху, где контент создают и распространяют сами ИИ, а люди лишь подчищают за ними.
👉 Подробнее
#ai #ml #veo3
Недавно, в одном из интервью Генеральный директор Anthropic Дэрио Амодеи предупредил, что ИИ может ликвидировать почти половину всех вакансий начального уровня для "белых воротничков" и поднять безработицу до 10-20% в течение следующих пяти лет.
Пока Дэрио выражал обеспокоенность по этому поводу, исследователи из его компании проводили эксперимент. Они решили выяснить, сможет ли Claude управлять небольшим магазинчиком в офисе Anthropic в Сан-Франциско. Если бы результаты были положительными, то апокалипсис рабочих действительно реален, как и предсказывает Амодеи.
В эксперименте перед Claude (3.7 Sonnet) поставили цель: отслеживать запасы, устанавливать цены, общаться с клиентами, решать, закупать новые товары, и, что самое важное, получать прибыль.
Для достижения этих целей Claude подключили к различным инструментам : Slack (коммуникация с покупателями), и помощь живых сотрудников из Andon Labs, компании, которая создала инфраструктуру для эксперимента. Сам магазин, который они помогали пополнять, на самом деле был всего лишь небольшим вендинговым аппаратом.
Эксперимент вышел из-под контроля практически сразу:
Эксперимент показал, что ИИ пока не готов забирать работу у людей. Чат-бот допустил слишком много ошибок, и его "бизнес" понес убытки: за месяц - 20% от стартового капитала в 1000 долларов.
Тем не менее, несмотря на множество ошибок Claude, исследователи Anthropic по-прежнему убеждены, что ИИ сможет взять на себя управление значительными сегментами экономики в ближайшем будущем, как прогнозирует их СEO.
Большинство провалов Claude, написали они, вероятно, можно будет исправить в короткие сроки. Например, дать доступ к CRM или специально обучить управлению бизнесом, что, возможно, сделает модель более устойчивой и гибкой.
@ai_machinelearning_big_data
#news #ai #ml #Сlaude
Please open Telegram to view this post
VIEW IN TELEGRAM
💸 Первый автономный ИИ-хедж-фонд запущен!
Команда из 17 ИИ-агентов торгует акциями, управляет рисками и принимает решения:
• ИИ-стратеги — имитируют Баффета, Мангера и других гуру.
• ИИ-аналитики — выбирают топовые акции.
• ИИ-рисковики — оценивают риски и задают лимиты.
• ИИ-управляющий — финализирует сделки.
Разработчики перестраховались: проект только для учёбы.
Гайд по установке: тут.
#ИИ #Финансы #ХеджФонд
Команда из 17 ИИ-агентов торгует акциями, управляет рисками и принимает решения:
• ИИ-стратеги — имитируют Баффета, Мангера и других гуру.
• ИИ-аналитики — выбирают топовые акции.
• ИИ-рисковики — оценивают риски и задают лимиты.
• ИИ-управляющий — финализирует сделки.
Разработчики перестраховались: проект только для учёбы.
Гайд по установке: тут.
#ИИ #Финансы #ХеджФонд
Глубокие исследовательские агенты — не просто чат‑боты, а полноценные ИИ‑ассистенты, способные искать информацию, взаимодействовать с инструментами, планировать и писать отчёты. Ниже — 10 мощных open‑source проектов, которые уже можно протестировать:
1. DeerFlow — модульная система от Bytedance: DeerFlow — open‑source фреймворк от Bytedance для создания модульных LLM-агентов.
Поддерживает:
- планирование действий,
- анализ кода,
- генерацию отчётов (включая Text-to-Speech),
- адаптивную интеграцию инструментов.
Создан для исследований, автоматизации и построения сложных агентных пайплайнов.
https://github.com/bytedance/deer-flow
2. Alita — самообучающийся агент с поддержкой Model Context Protocols (MCP), всё в одном модуле. Alita — агент, который сам придумывает, как ему расширить себя, не полагаясь на заранее написанные сценарии, и уже демонстрирует топовые результаты на сложных тестах.
https://github.com/CharlesQ9/Alita
3. WebThinker — автономный веб‑поиск с логикой "думай‑ищи‑пиши", RL‑обучением и глубокой навигацией
https://github.com/RUC-NLPIR/WebThinker
4. SimpleDeepSearcher — это лёгкий, но эффективный open‑source фреймворк от RUCAIBox, предназначенный для автономного веб-поиска через импровизированные многотуровые сессии:
- Использует Supervised Fine‑Tuning (SFT) вместо сложного RL, что значительно упрощает обучение и снижает вычислительные затраты
- Генерирует реалистичные траектории поиска и рассуждений, симулируя поведение пользователя в живом поисковом окружении .
- Критически отбирает данные по нескольким критериям качества: разнообразие запросов, сложность, структура ответов
5. AgenticSeek — приватный on‑device ассистент с выбором эксперта под задачу и голосовым управлением
https://github.com/Fosowl/agenticSeek
6. Suna — универсальный ассистент: браузер, CLI, работа с файлами, API, деплой
https://github.com/kortix-ai/suna
7. DeepResearcher — это комплексный open-source фреймворк от GAIR‑NLP, предназначенный для обучения LLM‑агентов, способных проводить глубокие исследования в автономном режиме, взаимодействуя с вебом. Использует несколько агентов‑браузеров, которые совместно исследуют веб и обрабатывают информацию
https://github.com/GAIR-NLP/DeepResearcher
8. Search‑R1 — агент на PPO/GRPO с поддержкой LLaMA3, Qwen2.5 и кастомных поисковиков. Агент учится эффективному циклу «думай — ищи — думай — отвечай» через RL, достигая важных улучшений в точности ответов и эффективности поиска.
https://github.com/PeterGriffinJin/Search-R1
9. ReCall — это фреймворк на основе RL, который учит LLM "должным образом" вызывать и комбинировать инструменты, используя сгенерированные задачи, без необходимости вручную собирать примеры вызовов — и всё это в открытом доступе.
https://github.com/Agent-RL/ReCall
10. OWL — мультиагентная система на CAMEL‑AI для динамического взаимодействия между агентами
https://github.com/camel-ai/owl
Агенты умеют планировать, взаимодействовать с браузером, запускать скрипты, интегрироваться с API и работать автономно.
Всё проекты — с открытым кодом. Можно изучить, собрать и доработать под свои задачи.
@ai_machinelearning_big_data
#ml #rl #aiagents #ai #agents
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Baidu открыла исходный код серии моделей ERNIE 4.5 !
🧠 Эти модели достигли SOTA-результатов на текстовых и мультимодальных бенчмарках:
— следование инструкциям,
— запоминание фактов,
— визуальное понимание,
— мультимодальные рассуждения.
🔧 Обучены на PaddlePaddle с эффективностью до 47% MFU при претрейне крупнейшей модели.
📦 В составе релиза:
- 10 моделей ERNIE 4.5,
- MoE‑архитектуры с 3B и 47B активных параметров,
- самая крупная модель содержит 424B параметров (MoE),
- также доступна компактная dense‑версия на 0.3B.
Всего Baidu выложила сразу 23 модели на Hugging Face размерами — от 0.3B до 424B параметров! 💥
🟢 Попробовать: http://ernie.baidu.com
🟢 Hugging Face: https://huggingface.co/baidu
🟢 GitHub: https://github.com/PaddlePaddle/ERNIE
🟢 AI Studio: https://aistudio.baidu.com/overview
@ai_machinelearning_big_data
#ERNIE #opensource #Baidu
🧠 Эти модели достигли SOTA-результатов на текстовых и мультимодальных бенчмарках:
— следование инструкциям,
— запоминание фактов,
— визуальное понимание,
— мультимодальные рассуждения.
🔧 Обучены на PaddlePaddle с эффективностью до 47% MFU при претрейне крупнейшей модели.
📦 В составе релиза:
- 10 моделей ERNIE 4.5,
- MoE‑архитектуры с 3B и 47B активных параметров,
- самая крупная модель содержит 424B параметров (MoE),
- также доступна компактная dense‑версия на 0.3B.
Всего Baidu выложила сразу 23 модели на Hugging Face размерами — от 0.3B до 424B параметров! 💥
@ai_machinelearning_big_data
#ERNIE #opensource #Baidu
Please open Telegram to view this post
VIEW IN TELEGRAM
📘 Machine Learning Q and AI — новая книга от мастодонта ML Себастьяна Рашки теперь в открытом доступе!
👨🔬 Автор — core‑разработчик Scikit‑learn, преподаватель, автор культовых пособий по машинному обучению.
Что внутри:
• 30 глав по нейросетям, компьютерному зрению, LLM, оценке и деплою моделей
• Чёткая структура: теория → примеры → упражнения
• Много практики, схем, визуализаций и Python‑кода
Это не просто справочник, а полный курс по Deep Learning, от основ до продвинутых тем.
📖 Читать онлайн
@data_analysis_ml
👨🔬 Автор — core‑разработчик Scikit‑learn, преподаватель, автор культовых пособий по машинному обучению.
Что внутри:
• 30 глав по нейросетям, компьютерному зрению, LLM, оценке и деплою моделей
• Чёткая структура: теория → примеры → упражнения
• Много практики, схем, визуализаций и Python‑кода
Это не просто справочник, а полный курс по Deep Learning, от основ до продвинутых тем.
📖 Читать онлайн
@data_analysis_ml
HTML Embed Code: