Channel: Технозаметки Малышева
Google выпустил полную версию Gemma 3n с поддержкой аудио и видео
Google представил Gemma 3n - новую мобильную ИИ-модель с мультимодальными возможностями. Ключевые фишки:
• MatFormer архитектура - одна модель содержит несколько размеров (2B и 4B параметров)
• Встроенная обработка аудио до 30 секунд с поддержкой перевода речи
• Новый MobileNet-V5 энкодер для видео - в 13 раз быстрее предыдущей версии
• Оптимизация для мобильных устройств с минимальным использованием памяти
Модель уже поддерживается в Hugging Face, Ollama, llama.cpp и других популярных инструментах. Google запустил конкурс с призовым фондом $150,000 для разработчиков приложений.
Серьёзный шаг к полноценному ИИ прямо в смартфоне без интернета.
1300 Elo score для модели такого размера, - это рекорд!
gemma-3n-E4B-it-MLX-bf16 - всего 17 Гигабайт!
#Gemma3n #OnDeviceAI #Google
------
@tsingular
Google представил Gemma 3n - новую мобильную ИИ-модель с мультимодальными возможностями. Ключевые фишки:
• MatFormer архитектура - одна модель содержит несколько размеров (2B и 4B параметров)
• Встроенная обработка аудио до 30 секунд с поддержкой перевода речи
• Новый MobileNet-V5 энкодер для видео - в 13 раз быстрее предыдущей версии
• Оптимизация для мобильных устройств с минимальным использованием памяти
Модель уже поддерживается в Hugging Face, Ollama, llama.cpp и других популярных инструментах. Google запустил конкурс с призовым фондом $150,000 для разработчиков приложений.
Серьёзный шаг к полноценному ИИ прямо в смартфоне без интернета.
1300 Elo score для модели такого размера, - это рекорд!
gemma-3n-E4B-it-MLX-bf16 - всего 17 Гигабайт!
#Gemma3n #OnDeviceAI #Google
------
@tsingular
Tencent выпустил рассуждающую малую модель Hunyuan-A13B
Tencent представил открытую языковую модель Hunyuan-A13B на основе архитектуры Mixture-of-Experts.
Модель имеет 80 млрд параметров, но активно использует только 13 млрд.
Доступны версии FP8 и INT4. Поддерживается TensorRT-LLM, vLLM и SGLang.
Можно рассмотреть как альтернативу Qwen-3. Чуть лучше по некоторым метрикам.
UPD: а вот они следом выпустили нарезку GPTQ-Int4 на 42 гига.
#MoE #Hunyuan #TencentAI
———
@tsingular
Tencent представил открытую языковую модель Hunyuan-A13B на основе архитектуры Mixture-of-Experts.
Модель имеет 80 млрд параметров, но активно использует только 13 млрд.
Доступны версии FP8 и INT4. Поддерживается TensorRT-LLM, vLLM и SGLang.
Можно рассмотреть как альтернативу Qwen-3. Чуть лучше по некоторым метрикам.
UPD: а вот они следом выпустили нарезку GPTQ-Int4 на 42 гига.
#MoE #Hunyuan #TencentAI
———
@tsingular
Speech Note,- оффлайн комбайн для Linux с поддержкой русского
Полноценный набор инструментов для работы с речью без интернета.
Speech Note умеет распознавать речь в текст, читать текст вслух и переводить между языками.
Ключевые фишки:
- Полностью офлайн работа - никуда не передает данные
- Поддержка русского языка для всех функций
- CLI интерфейс для автоматизации
- Доступен через Flatpak на Flathub
Использует движки Whisper, Coqui TTS, Piper и многие другие.
Модели скачиваются прямо из приложения.
Отличный комбайн, который можно развернуть на сервере и вызывать через CLI тем же n8n.
#STT #TTS #SpeechNote
------
@tsingular
Полноценный набор инструментов для работы с речью без интернета.
Speech Note умеет распознавать речь в текст, читать текст вслух и переводить между языками.
Ключевые фишки:
- Полностью офлайн работа - никуда не передает данные
- Поддержка русского языка для всех функций
- CLI интерфейс для автоматизации
- Доступен через Flatpak на Flathub
Использует движки Whisper, Coqui TTS, Piper и многие другие.
Модели скачиваются прямо из приложения.
Отличный комбайн, который можно развернуть на сервере и вызывать через CLI тем же n8n.
#STT #TTS #SpeechNote
------
@tsingular
OpenAI представила Deep Research API
Новый Deep Research API автоматизирует сложные исследовательские задачи через программный интерфейс.
Агентная модель самостоятельно декомпозирует запросы, проводит веб-поиск и синтезирует результаты в структурированные отчеты с цитатами.
В отличие от ChatGPT, где процесс скрыт, API дает полный контроль над исследованием. Модель планирует подвопросы, использует инструменты поиска и выполнения кода.
Поддержка MCP-инструментов позволяет интегрировать внутренние документы компании в процесс исследования.
Идеально для создания аналитических отчетов, сравнительных исследований и структурированного анализа данных.
#DeepResearch #OpenAI #ResearchAPI
------
@tsingular
Новый Deep Research API автоматизирует сложные исследовательские задачи через программный интерфейс.
Агентная модель самостоятельно декомпозирует запросы, проводит веб-поиск и синтезирует результаты в структурированные отчеты с цитатами.
В отличие от ChatGPT, где процесс скрыт, API дает полный контроль над исследованием. Модель планирует подвопросы, использует инструменты поиска и выполнения кода.
Поддержка MCP-инструментов позволяет интегрировать внутренние документы компании в процесс исследования.
Идеально для создания аналитических отчетов, сравнительных исследований и структурированного анализа данных.
#DeepResearch #OpenAI #ResearchAPI
------
@tsingular
Иран запустил программу обучения ИИ для 2 миллионов школьников
Стартовала национальная программа Iran Digital - бесплатное обучение искусственному интеллекту для 2 миллионов учеников средних классов и 1000 учителей.
Программа включает практические проекты и игровую интерактивную платформу с соревнованиями и призами. Лучшие участники получат доступ к продвинутым курсам и стажировкам.
Цель - подготовить студентов к будущему рынку труда, развить критическое мышление и цифровую грамотность. Эксперты подчеркивают важность этичного использования ИИ в образовании как дополнения, а не замены человеческого фактора.
Иран активно развивает применение ИИ в образовании после конференции в Тегеране в октябре 2024 года.
#Education #Иран
------
@tsingular
Стартовала национальная программа Iran Digital - бесплатное обучение искусственному интеллекту для 2 миллионов учеников средних классов и 1000 учителей.
Программа включает практические проекты и игровую интерактивную платформу с соревнованиями и призами. Лучшие участники получат доступ к продвинутым курсам и стажировкам.
Цель - подготовить студентов к будущему рынку труда, развить критическое мышление и цифровую грамотность. Эксперты подчеркивают важность этичного использования ИИ в образовании как дополнения, а не замены человеческого фактора.
Иран активно развивает применение ИИ в образовании после конференции в Тегеране в октябре 2024 года.
#Education #Иран
------
@tsingular
Google выпустили инструкцию как с ADK можно создать ИИ-агента с инструментами
Google опубликовала детальное пошаговое руководство по созданию ИИ-агента с помощью Agent Development Kit (ADK).
В примере показали как создать бот-помощника для обработки багов с 5 типами инструментов.
Встроенные функции для расчетов, интеграция с LangChain и StackOverflow, подключение к GitHub через протокол MCP (Model Context Protocol) от Anthropic, работа с базами данных через MCP Toolbox.
Агент работает на Gemini 2.5 Flash и может создавать тикеты, искать баги, анализировать CVE и подключаться к внешним API.
Пример развернут на Google Cloud на Cloud Run и Cloud SQL, но как инструкцию полезно почитать и дальше использовать на любой платформе.
#Google #ADK #Agents #MCP
———
@tsingular
Google опубликовала детальное пошаговое руководство по созданию ИИ-агента с помощью Agent Development Kit (ADK).
В примере показали как создать бот-помощника для обработки багов с 5 типами инструментов.
Встроенные функции для расчетов, интеграция с LangChain и StackOverflow, подключение к GitHub через протокол MCP (Model Context Protocol) от Anthropic, работа с базами данных через MCP Toolbox.
Агент работает на Gemini 2.5 Flash и может создавать тикеты, искать баги, анализировать CVE и подключаться к внешним API.
Пример развернут на Google Cloud на Cloud Run и Cloud SQL, но как инструкцию полезно почитать и дальше использовать на любой платформе.
#Google #ADK #Agents #MCP
———
@tsingular
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Seedance 1.0: ByteDance выпустил видеогенератор, который обошел всех на Artificial Analysis
ByteDance (разрабы ТикТока) представили Seedance 1.0 — модель генерации видео, которая заняла первое место в лидербордах Artificial Analysis как в text-to-video, так и в image-to-video категориях, обогнав Veo 3, Kling 2.0 и Sora.
Ключевые технические улучшения:
- Архитектура с разделенными пространственными и временными слоями — нативно поддерживает мультисценовую генерацию
- 10× ускорение инференса через многоступенчатую дистилляцию
- Генерация 5-секундного 1080p видео занимает 41.4 секунды на NVIDIA L20
- Единая модель для T2V и I2V задач
Что выделяет Seedance:
- Мультиаспектное повествование — создает последовательные кадры с сохранением персонажей и стиля (shot-reverse shot, match cuts)
- Точное следование промптам в сложных сценах с несколькими объектами
- Поддержка разнообразных стилей: от фотореализма до киберпанка и аниме
- Двуязычность (китайский/английский)
Модель уже интегрирована в Doubao и Jimeng — сервисы ByteDance для видеогенерации.
Интересная деталь: в посттренинге использовали RLHF с тремя специализированными reward-моделями (основная, движение, эстетика), что позволило улучшить все аспекты генерации одновременно .
Попробовать можно тут
(Нужен китайский номер)
#Seedance #ByteDance #нейрорендер
———
@tsingular
ByteDance (разрабы ТикТока) представили Seedance 1.0 — модель генерации видео, которая заняла первое место в лидербордах Artificial Analysis как в text-to-video, так и в image-to-video категориях, обогнав Veo 3, Kling 2.0 и Sora.
Ключевые технические улучшения:
- Архитектура с разделенными пространственными и временными слоями — нативно поддерживает мультисценовую генерацию
- 10× ускорение инференса через многоступенчатую дистилляцию
- Генерация 5-секундного 1080p видео занимает 41.4 секунды на NVIDIA L20
- Единая модель для T2V и I2V задач
Что выделяет Seedance:
- Мультиаспектное повествование — создает последовательные кадры с сохранением персонажей и стиля (shot-reverse shot, match cuts)
- Точное следование промптам в сложных сценах с несколькими объектами
- Поддержка разнообразных стилей: от фотореализма до киберпанка и аниме
- Двуязычность (китайский/английский)
Модель уже интегрирована в Doubao и Jimeng — сервисы ByteDance для видеогенерации.
Интересная деталь: в посттренинге использовали RLHF с тремя специализированными reward-моделями (основная, движение, эстетика), что позволило улучшить все аспекты генерации одновременно .
Попробовать можно тут
(Нужен китайский номер)
#Seedance #ByteDance #нейрорендер
———
@tsingular
This media is not supported in your browser
VIEW IN TELEGRAM
Windows MCP: ИИ-агенты теперь могут управлять Windows
Появился легковесный MCP-сервер для интеграции ИИ с операционной системой Windows.
Позволяет любым LLM (включая Claude) напрямую управлять Windows: открывать приложения, кликать по интерфейсу, имитировать пользовательский ввод, проводить QA-тестирование.
Главная фишка - работает с любой языковой моделью без компьютерного зрения или специального обучения. Задержка между действиями всего 1.5-2.3 секунды.
Проект с открытым исходным кодом под MIT лицензией. Интегрируется с Claude Desktop через расширения.
#MCP #Windows #Agents
------
@tsingular
Появился легковесный MCP-сервер для интеграции ИИ с операционной системой Windows.
Позволяет любым LLM (включая Claude) напрямую управлять Windows: открывать приложения, кликать по интерфейсу, имитировать пользовательский ввод, проводить QA-тестирование.
Главная фишка - работает с любой языковой моделью без компьютерного зрения или специального обучения. Задержка между действиями всего 1.5-2.3 секунды.
Проект с открытым исходным кодом под MIT лицензией. Интегрируется с Claude Desktop через расширения.
#MCP #Windows #Agents
------
@tsingular
По следам демо на GigaConf - ИСХОДНИК СХЕМЫ для n8n
Не забудьте поднять gpt2giga
В каждом вызове инструмента календаря Яндекса нужно отдельно прописать креды, которые создаются в профиле Яндекса - пароли приложений.
В модулях Transcribe и Generate Speech - креды от SaluteSpeech, соответственно.
#demo #n8n #dev #Яндекс
———
@tsingular
Не забудьте поднять gpt2giga
В каждом вызове инструмента календаря Яндекса нужно отдельно прописать креды, которые создаются в профиле Яндекса - пароли приложений.
В модулях Transcribe и Generate Speech - креды от SaluteSpeech, соответственно.
#demo #n8n #dev #Яндекс
———
@tsingular
OpenAI переходит с чипов NVIDIA на Google TPU
По данным The Information, OpenAI начала использовать тензорные процессоры Google TPU вместо GPU NVIDIA для работы ChatGPT и других AI-продуктов.
Основная причина — снижение операционных расходов. Высокие цены и дефицит GPU от NVIDIA открывают возможности для альтернативных решений.
Google активно предлагает свои TPU облачным провайдерам, что может серьезно ударить по почти монопольному положению NVIDIA в сфере высокопроизводительных AI-чипов.
Интересно, что Apple тоже использовала Google TPU для обучения Apple Intelligence, что показывает растущую популярность альтернативы чипам NVIDIA.
#OpenAI #GoogleTPU #NVIDIA
------
@tsingular
По данным The Information, OpenAI начала использовать тензорные процессоры Google TPU вместо GPU NVIDIA для работы ChatGPT и других AI-продуктов.
Основная причина — снижение операционных расходов. Высокие цены и дефицит GPU от NVIDIA открывают возможности для альтернативных решений.
Google активно предлагает свои TPU облачным провайдерам, что может серьезно ударить по почти монопольному положению NVIDIA в сфере высокопроизводительных AI-чипов.
Интересно, что Apple тоже использовала Google TPU для обучения Apple Intelligence, что показывает растущую популярность альтернативы чипам NVIDIA.
#OpenAI #GoogleTPU #NVIDIA
------
@tsingular
Вот некоторые спрашивают, - чего тебе дался этот n8n?
Ну например вот.
Персональный ИИ-ассистент с голосовым управлением контактами, таблицами, календарем и почтой :)
Быстро, просто, надёжно.
#n8n
———
@tsingular
Ну например вот.
Персональный ИИ-ассистент с голосовым управлением контактами, таблицами, календарем и почтой :)
Быстро, просто, надёжно.
#n8n
———
@tsingular
🚀 Docling 2.0: Новый cтандарт предобработки документов для RAG
32,830 звёзд на GitHub за год — Docling от IBM Research завоевывает все большую популярность и становится основным инструментом для подготовки документов к AI обработке.
Что изменилось в версии 2.0:
30x ускорение по сравнению с традиционным OCR:
- 3.1 сек/страница на CPU x86
- 0.49 сек/страница на Nvidia L4 GPU
- 0.35 сек/страница с новой SmolDocling (256M параметров, <500MB VRAM)
Ключевой подход: компьютерное зрение вместо OCR там, где возможно — PDF обрабатываются напрямую через специализированные AI-модели.
Технические преимущества
TableFormer достигает 93.6% точности против 67.9% у Tabula и 73.0% у Camelot — обрабатывает сложные таблицы с частичными границами и иерархическими заголовками.
SmolDocling + формат DocTags — сквозное преобразование документов в один проход.
Новый markup-формат под VLMки.
ASR-поддержка для WAV/MP3 — теперь можно обрабатывать записи встреч и лекций.
Корпоративные внедрения
- Red Hat Enterprise Linux AI использует Docling как ядро InstructLab для кастомизации моделей.
- IBM: уже обработали 2.1M PDF из Common Crawl, планы до 1.8B PDF для обучения Granite.
- Linux Foundation AI & Data — официальное управление с мая 2025, статус enterprise-ready.
Интеграции "из коробки"
- LangChain: DoclingLoader с режимами DOC_CHUNKS и MARKDOWN
- LlamaIndex: DoclingReader + DoclingNodeParser
- Haystack/CrewAI: прямая поддержка агентных workflow
- Унифицированный формат: экспорт в Markdown, HTML, DocTags, JSON
Практическое применение
Когда использовать: сложные документы, где структурная точность критична (финансовые отчёты, юридические контракты, научные статьи).
Когда НЕ использовать: простое извлечение текста — PyMuPDF будет в 50x быстрее.
MIT-лицензия - свободно используем для коммерции.
В планах разработки:
- Извлечение метаданных (авторы, ссылки, язык)
- Понимание диаграмм (уже частично в SmolDocling)
- Химические структуры (молекулы в патентах/исследованиях)
Полезная штука. Добавляем в пул микросервисов.
GitHub
#Docling #Documents #RAG
———
@tsingular
32,830 звёзд на GitHub за год — Docling от IBM Research завоевывает все большую популярность и становится основным инструментом для подготовки документов к AI обработке.
Что изменилось в версии 2.0:
30x ускорение по сравнению с традиционным OCR:
- 3.1 сек/страница на CPU x86
- 0.49 сек/страница на Nvidia L4 GPU
- 0.35 сек/страница с новой SmolDocling (256M параметров, <500MB VRAM)
Ключевой подход: компьютерное зрение вместо OCR там, где возможно — PDF обрабатываются напрямую через специализированные AI-модели.
Технические преимущества
TableFormer достигает 93.6% точности против 67.9% у Tabula и 73.0% у Camelot — обрабатывает сложные таблицы с частичными границами и иерархическими заголовками.
SmolDocling + формат DocTags — сквозное преобразование документов в один проход.
Новый markup-формат под VLMки.
ASR-поддержка для WAV/MP3 — теперь можно обрабатывать записи встреч и лекций.
Корпоративные внедрения
- Red Hat Enterprise Linux AI использует Docling как ядро InstructLab для кастомизации моделей.
- IBM: уже обработали 2.1M PDF из Common Crawl, планы до 1.8B PDF для обучения Granite.
- Linux Foundation AI & Data — официальное управление с мая 2025, статус enterprise-ready.
Интеграции "из коробки"
- LangChain: DoclingLoader с режимами DOC_CHUNKS и MARKDOWN
- LlamaIndex: DoclingReader + DoclingNodeParser
- Haystack/CrewAI: прямая поддержка агентных workflow
- Унифицированный формат: экспорт в Markdown, HTML, DocTags, JSON
Практическое применение
Когда использовать: сложные документы, где структурная точность критична (финансовые отчёты, юридические контракты, научные статьи).
Когда НЕ использовать: простое извлечение текста — PyMuPDF будет в 50x быстрее.
MIT-лицензия - свободно используем для коммерции.
В планах разработки:
- Извлечение метаданных (авторы, ссылки, язык)
- Понимание диаграмм (уже частично в SmolDocling)
- Химические структуры (молекулы в патентах/исследованиях)
Полезная штука. Добавляем в пул микросервисов.
GitHub
#Docling #Documents #RAG
———
@tsingular
HTML Embed Code: