Channel: Data Science by ODS.ai 🦜
Forwarded from Russian OSINT
Как сообщают исследователи из HiddenLayer, им удалось разработать универсальную методику prompt injection, которая позволяет обходить защитные барьеры LLM. Техника под названием «Policy Puppetry» успешно нарушает политики безопасности современных LLM и выходит за рамки ограничений таких моделей, как OpenAI (линейки ChatGPT 4o, 4.5, o1 и o3-mini), Google (Gemini 1.5, 2.0, 2.5), Microsoft (Copilot), Anthropic (Claude 3.5, 3.7), Llama, DeepSeek (V3 и R1), Qwen (2.5 72B) и Mistral (Mixtral 8x22B).
Исследователи не публикуют полные вредоносные примеры и не предоставляют доступ к готовым PoC для свободного использования, а лишь объясняют метод в научных целях.
Многие LLM от OpenAI, Google и Microsoft хорошо обучены отклонять прямолинейные опасные запросы, но если "вшить" их в инструкции и сделать частью собственных правил, то модели будут генерировать запрещённый контент без активации защитных механизмов.
Основой метода является использование специальных текстовых шаблонов, имитирующих документы политик в форматах XML, JSON или INI. При помощи таких шаблонов модели воспринимают вредоносные команды как безопасные системные инструкции. Они позволяют обходить встроенные ограничения и генерировать запрещенный контент, связанный с разработкой
Условно: ИИ-модель думает: «Это не просьба пользователя, а команда на изменение настроек!». Когда текст выглядит как код или служебная инструкция, то модель перестаёт применять фильтры безопасности и начинает воспринимать команды буквально.
Техника отличается исключительной универсальностью. Один и тот же шаблон может применяться против множества моделей без необходимости в доработках.
По мнению исследователей, подобная уязвимость свидетельствует о фундаментальных недостатках в методах обучения и настройки LLM, отмечая острую необходимость в новых подходах к обеспечению безопасности, чтобы предотвратить дальнейшее распространение угроз по мере усложнения ИИ-моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая
🔥 Qwen3: новый уровень открытых ИИ-моделей от Alibaba!
Китайский гигант Alibaba представил третье поколение своей флагманской ИИ-серии Qwen — мощные языковые модели с полностью открытой лицензией Apache 2.0.
📌 Основные модели серии:
• Qwen3-235B-A22B (флагман) — 235 млрд параметров с 22 млрд активных - конкурирует с Grok-3 и Gemini Pro
• Qwen3-30B-A3B — в 10x эффективнее аналогов при 3 млрд активируемых параметров
• 6 Dense-моделей (0.6B–32B) с полным открытым исходным кодом
💡 Ключевые инновации:
→ Режимы "Размышление/Без размышления" для баланса скорости и качества ответов
→ Поддержка 119 языков (рекорд среди открытых моделей)
→ Улучшенные возможности для работы с агентами и MCP
→ В 2x больше данных для обучения vs Qwen2.5 (36 трлн токенов)
→ Экономичность: запуск полной модели требует всего 4 видеокарты H20, а использование видеопамяти на 66% меньше, чем у аналогов
→ Qwen3-0.6B можно запустить даже на смартфоне!
GitHub
Для развертывания разработчики рекомендуют использовать SGLang и vLLM, для локального применения — Ollama или LMStudio.
Подробнее в блоге разработчиков
📊 С выпуском Owen 3, Qwen стал самым крупным семейством открытых моделей в мире опередив Llama:
✅ Свыше 200 моделей
✅ Более 300 млн загрузок
✅ 100 000+ производных архитектур
🔥 Qwen3: новый уровень открытых ИИ-моделей от Alibaba!
Китайский гигант Alibaba представил третье поколение своей флагманской ИИ-серии Qwen — мощные языковые модели с полностью открытой лицензией Apache 2.0.
📌 Основные модели серии:
• Qwen3-235B-A22B (флагман) — 235 млрд параметров с 22 млрд активных - конкурирует с Grok-3 и Gemini Pro
• Qwen3-30B-A3B — в 10x эффективнее аналогов при 3 млрд активируемых параметров
• 6 Dense-моделей (0.6B–32B) с полным открытым исходным кодом
💡 Ключевые инновации:
→ Режимы "Размышление/Без размышления" для баланса скорости и качества ответов
→ Поддержка 119 языков (рекорд среди открытых моделей)
→ Улучшенные возможности для работы с агентами и MCP
→ В 2x больше данных для обучения vs Qwen2.5 (36 трлн токенов)
→ Экономичность: запуск полной модели требует всего 4 видеокарты H20, а использование видеопамяти на 66% меньше, чем у аналогов
→ Qwen3-0.6B можно запустить даже на смартфоне!
Онлайн-демо |
HuggingFace |
ModelScope |GitHub
Для развертывания разработчики рекомендуют использовать SGLang и vLLM, для локального применения — Ollama или LMStudio.
Подробнее в блоге разработчиков
💡 Интересный факт!📊 С выпуском Owen 3, Qwen стал самым крупным семейством открытых моделей в мире опередив Llama:
✅ Свыше 200 моделей
✅ Более 300 млн загрузок
✅ 100 000+ производных архитектур
#КитайскийИИ #КитайAI #OpenSource #MoE #AlibabaQwen #ЯзыковыеМоделиchat.qwen.ai
Qwen Chat
Qwen Chat offers comprehensive functionality spanning chatbot, image and video understanding, image generation, document processing, web search integration, tool utilization, and artifacts.
Forwarded from Valuable AI
коллеги из университета Циньхуа выпустили работу под названием Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? (А точно ли обучение с подкреплением расширяет мыслительные возможности моделей?)
в ней они приходят к выводу, что нет, базовая модель остается лучше на длинной дистанции; я высказывал такого рода сомнение еще про Qwen, но тут уже полноценное подтверждение; отдельно хочу выразить восхищение визуальным оформлением результатов, очень доходчиво
в ней они приходят к выводу, что нет, базовая модель остается лучше на длинной дистанции; я высказывал такого рода сомнение еще про Qwen, но тут уже полноценное подтверждение; отдельно хочу выразить восхищение визуальным оформлением результатов, очень доходчиво
Forwarded from Научный опенсорс (Nikolay Nikitin)
Недавно в нашем чате обсуждали подборку опенсорс-библиотек для ИИ от ICT Moscow - и вот вышла расширенная версия:
В этот раз авторы собрали полноценную карту из 128 инструментов Open Source для ИИ-разработчиков за пять лет.
Посмотреть, что получилось, можно здесь:
- https://ict.moscow/research/russian-open-source-ai-map/ (с подробным описанием);
- https://ict.moscow/static/download/862d92ef-6bc9-3f88-b987-3aa6e2b3059f (чисто pdf);
- https://hottg.com/ict_moscow_analytics/5403 (пост с превью аналитики).
За основу взята прошлая подборка, расширен период (2020-2025), доработан контент (в чате как раз обсуждали, что было упущено в первой итерации - например, LightAutoML)
На карте инструменты разбиты на группы по типам и по характеру прикладных задач, по ссылкам — карточки с краткими описаниями и ссылками на репозитории.
Также в приложении к карте отдельно собраны профили некоторых участников команд на GitHub, HuggingFace, ResearchGate, Habr и других платформах.
Про проекты команд из ИТМО тоже вспомнили - FEDOT, ProtoLLM, LLAMATOR, совместный со Сбером Stalactite.
В этот раз авторы собрали полноценную карту из 128 инструментов Open Source для ИИ-разработчиков за пять лет.
Посмотреть, что получилось, можно здесь:
- https://ict.moscow/research/russian-open-source-ai-map/ (с подробным описанием);
- https://ict.moscow/static/download/862d92ef-6bc9-3f88-b987-3aa6e2b3059f (чисто pdf);
- https://hottg.com/ict_moscow_analytics/5403 (пост с превью аналитики).
За основу взята прошлая подборка, расширен период (2020-2025), доработан контент (в чате как раз обсуждали, что было упущено в первой итерации - например, LightAutoML)
На карте инструменты разбиты на группы по типам и по характеру прикладных задач, по ссылкам — карточки с краткими описаниями и ссылками на репозитории.
Также в приложении к карте отдельно собраны профили некоторых участников команд на GitHub, HuggingFace, ResearchGate, Habr и других платформах.
Про проекты команд из ИТМО тоже вспомнили - FEDOT, ProtoLLM, LLAMATOR, совместный со Сбером Stalactite.
Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая
🚀 Alibaba представил DianJin-R1 — мощную языковую модель для финансовых задач
Команда Alibaba Cloud и Университет Сучжоу разработали инновационную модель с открытым исходным кодом, которая превосходит аналоги в области финансового анализа.
🔍 В двух словах:
- Модель доступна в двух версиях: 7B и 32B параметров
- Обучена на уникальных финансовых датасетах + мультиагентный синтез данных
- Превышает производительность DeepSeek-R1 и QwQ в тестах
📊 Ключевые особенности:
1️⃣Открытые данные и модели:
- Дамп DianJin-R1-Data включает CFLUE, FinQA и CCC (китайская нормативная проверка)
- Модели на Hugging Face, ModelScope и GitHub
2️⃣Технологии обучения:
- Двухэтапная оптимизация: Supervised Fine-Tuning + Reinforcement Learning
- Система вознаграждений за структурированные выводы и точность
3️⃣Мультиагентный синтез:
- Платформа Tongyi Dianjin генерирует сложные финансовые кейсы через взаимодействие ИИ-агентов
⚙️ Технические детали:
• Использованы Qwen2.5-7B/32B-Instruct как база
• GRPO (Group Relative Policy Optimization) для RL-фазы
• Фичинг: 38k+ экзаменационных вопросов (CFLUE) + 8k англоязычных QA (FinQA)
🔥 Результаты тестов:
▫️ DianJin-R1-7B сравним с топовой QwQ при меньших ресурсах
▫️ DianJin-R1-32B лидирует во всех категориях
"Это не просто шаг вперед в финтехе — мы переосмыслили подход к обучению ИИ для регуляторных задач" — команда разработчиков.
Официальный сайт | Hugging Face | GitHub
Подробнее в оригинальной статье.
#КитайскийИИ #КитайAI #FinTech #LLM #OpenSource #Alibaba #Qwen
🚀 Alibaba представил DianJin-R1 — мощную языковую модель для финансовых задач
Команда Alibaba Cloud и Университет Сучжоу разработали инновационную модель с открытым исходным кодом, которая превосходит аналоги в области финансового анализа.
🔍 В двух словах:
- Модель доступна в двух версиях: 7B и 32B параметров
- Обучена на уникальных финансовых датасетах + мультиагентный синтез данных
- Превышает производительность DeepSeek-R1 и QwQ в тестах
📊 Ключевые особенности:
1️⃣Открытые данные и модели:
- Дамп DianJin-R1-Data включает CFLUE, FinQA и CCC (китайская нормативная проверка)
- Модели на Hugging Face, ModelScope и GitHub
2️⃣Технологии обучения:
- Двухэтапная оптимизация: Supervised Fine-Tuning + Reinforcement Learning
- Система вознаграждений за структурированные выводы и точность
3️⃣Мультиагентный синтез:
- Платформа Tongyi Dianjin генерирует сложные финансовые кейсы через взаимодействие ИИ-агентов
⚙️ Технические детали:
• Использованы Qwen2.5-7B/32B-Instruct как база
• GRPO (Group Relative Policy Optimization) для RL-фазы
• Фичинг: 38k+ экзаменационных вопросов (CFLUE) + 8k англоязычных QA (FinQA)
🔥 Результаты тестов:
▫️ DianJin-R1-7B сравним с топовой QwQ при меньших ресурсах
▫️ DianJin-R1-32B лидирует во всех категориях
"Это не просто шаг вперед в финтехе — мы переосмыслили подход к обучению ИИ для регуляторных задач" — команда разработчиков.
Официальный сайт | Hugging Face | GitHub
Подробнее в оригинальной статье.
#КитайскийИИ #КитайAI #FinTech #LLM #OpenSource #Alibaba #Qwen
huggingface.co
DianJin (Qwen DianJin)
Org profile for Qwen DianJin on Hugging Face, the AI community building the future.
Forwarded from Mr. Robot
| Привет, друг. На связи Эллиот.
Исследователи представили универсальную и переносимую постинструкционную технику инъекции промтов, которая успешно обходит иерархию инструкций и защитные механизмы ключевых современных ИИ‑моделей.
– В данном материале представлены технические детали этой методики обхода, а также процесс её разработки и расширения, в частности для систем с автономной природой.
#ИИ #Injection
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Matrix3D — модель, предлагающая решение сразу нескольких задач в рамках единой архитектуры: оценку положения камер, предсказание глубины и генерацию новых ракурсов.
Всю эту красоту обеспечивает модифицированный диффузионный трансформер, который обрабатывает изображения, параметры камер и карты глубины как взаимосвязанные модальности. Он не только упрощает традиционный пайплайн (нет зависимостей от отдельных алгоритмов SfM или MVS), но и повышает точность за счет уникальной оптимизации.
Ключевая особенность Matrix3D — маскированное обучение, позаимствованное из методов MAE. Модель тренируется на частично заполненных данных: парах «изображение-поза» или «изображение-глубина». При этом модель учится «достраивать» недостающие модальности, что позволяет комбинировать входы и выходы во время инференса. Например, можно добавить карту глубины с физического датчика или сгенерировать новые ракурсы на основе всего двух изображений.
Результаты тестов с задачей оценки поз на датасете CO3D Matrix3D обходят специализированные методы (RayDiffusion): точность определения положения камеры достигает 96,3% против 92,4% у конкурентов.
В синтезе видов модель демонстрирует PSNR 20,45 против 19,22 у SyncDreamer, а в оценке глубины — AbsRel 0,036 против 0,064 у Metric3D. При этом Matrix3D не требует отдельных моделей для каждой задачи, все решается в рамках одной модели.
Практическая ценность модели — в ее адаптивности. Например, для 3D-реконструкции из одного кадра Matrix3D сначала генерирует недостающие ракурсы, оценивает их позы и глубину, а затем оптимизирует сцену через 3D Gaussian Splatting.
Для работы с несколькими кадрами без известных поз модель сама восстанавливает параметры камер, что раньше требовало отдельного этапа с COLMAP. Все это реализовано в репозитории с готовыми скриптами — от синтеза видов до полной реконструкции.
Конечно, есть нюансы: качество облаков точек пока уступает другим методам (GeoMVSNet). Но даже имеющиеся результаты достаточны для инициализации 3DGS, а главное — весь процесс занимает несколько минут на одной RTX 3090. Для сравнения: CAT3D, хотя и точнее в синтезе, требует 16х A100 и оптимизации под каждую сцену.
@ai_machinelearning_big_data
#AI #ML #Photogrammetry #Matrix3D #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Научный опенсорс (Nikolay Nikitin)
На Хабре вышла статья Дмитрия Кабанова "«Теплый ламповый» опенсорс — новые мега-подборки, пет-проекты, комиксы и книги, абсурдные и полезные лицензии".
В ней - подборка интересных opensource-related материалов: интересных репозиториев, книг, awesome-листов и т.д.
Среди прочего, упоминают про научный код и нашего ИИ-ассистента для опенсорс-разработки OSA, про которого мы недавно рассказывали в канале.
В ней - подборка интересных opensource-related материалов: интересных репозиториев, книг, awesome-листов и т.д.
Среди прочего, упоминают про научный код и нашего ИИ-ассистента для опенсорс-разработки OSA, про которого мы недавно рассказывали в канале.
Forwarded from Machinelearning
NeMo-Inspector от NVIDIA — это инструмент, который превращает анализ генераций из рутины в осмысленный процесс. Он не просто показывает результаты, а помогает их систематизировать, сравнивать и даже чистить данные.
NeMo-Inspector не просто просмотрщик логов. Это полноценная среда, где можно менять промпты на лету, маркировать проблемные данные и проверять гипотезы.
Для инженеров, которые хотят не просто получать ответы от LLM, но и понимать, как они рождаются, NeMo-Inspector мастхэв. Он не даст магии, зато сэкономит часы ручного разбора и поможет найти слабые места даже в сложных пайплайнах, а поддержка Markdown, LaTeX и подсветки синтаксиса сделает работу с математическими задачами или кодом менее муторной.
Гибкость проводимого анализа - особенность NeMo-Inspector. Вы можете сравнивать, как одна модель справляется с разными параметрами (температура, top_p) или как разные модели решают одну задачу. Допустим, проверяете, повышает ли CoT точность ответов. NeMo-Inspector выведет результаты бок о бок, а еще посчитает статистику: доля правильных ответов, «уверенность» модели (persistence) или кастомные метрики, которые можно задать самостоятельно через Python-функции.
Из практических кейсов: NeMo-Inspector помог «почистить» синтетический датасет GSM-Plus, где 46,99% данных оказались проблемными (в некоторых вопросах было по два знака вопроса — модель путалась, на какой отвечать). В проекте с OpenMath-Mistral-7B выяснилось, что 26% ошибок связаны с падением качества сгенерированного кода. После доработки датасета точность модели выросла на 4,17%.
@ai_machinelearning_big_data
#AI #ML #LLM #NeMoInspector #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from LLM Arena
Мы постарались учесть всё, что мешало удобному анализу, и улучшили основные элементы. Теперь он точнее, аккуратнее и лучше отражает реальную картину:
График больше не выглядит сжатым и перегруженным, что делает его более читаемым и облегчает сравнение моделей между собой.
Они помогают оценить статистическую надежность Elo-рейтинга каждой модели.
Теперь вы можете настраивать баланс между input- и output-токенами в зависимости от ваших задач.
Позволяет "очистить" рейтинг от влияния стиля – длины текста, форматирования (списков, выделений).
График построен на свежих данных с основного лидерборда LLM Arena.
Найти график можно на сайте llmarena.ru во вкладке Таблица лидеров
А вы уже нашли свою модель?
❤️ — да, и она стоит своих денег
🔥 — пока только ищу, спасибо за график
Please open Telegram to view this post
VIEW IN TELEGRAM
NVIDIA just open sourced Open Code Reasoning models - 32B, 14B AND 7B - APACHE 2.0 licensed 🔥
> Beats O3 mini & O1 (low) on LiveCodeBench 😍
Backed by OCR dataset the models are 30% token efficient than other equivalent Reasoning models
Works with llama.cpp, vLLM, transformers, TGI and more - check them out today!!
https://huggingface.co/nvidia/OpenCodeReasoning-Nemotron-32B
> Beats O3 mini & O1 (low) on LiveCodeBench 😍
Backed by OCR dataset the models are 30% token efficient than other equivalent Reasoning models
Works with llama.cpp, vLLM, transformers, TGI and more - check them out today!!
https://huggingface.co/nvidia/OpenCodeReasoning-Nemotron-32B
Forwarded from Valuable AI
поздравляю всех с Днем Победы в Великой Отечественной войне!
цифровая вычислительная техника не успела внести вклад в исход войны, а вот аналоговая вполне успела; на картинке прибор управления артиллерийским зенитным огнем ПУАЗО-3; между прочим, уже электрический
к созданию таких приборов приложило руку немало ученых, которые потом стали отцами искусственного интеллекта в СССР: академик Лебедев, член-корр. Преснухин, гораздо менее известный профессор Гутенмахер, и многие другие
на мой взгляд важно помнить и подвиг солдат на фронте, и подвиг тружеников в тылу, в том числе ученых
еще раз с Днем Победы!
цифровая вычислительная техника не успела внести вклад в исход войны, а вот аналоговая вполне успела; на картинке прибор управления артиллерийским зенитным огнем ПУАЗО-3; между прочим, уже электрический
к созданию таких приборов приложило руку немало ученых, которые потом стали отцами искусственного интеллекта в СССР: академик Лебедев, член-корр. Преснухин, гораздо менее известный профессор Гутенмахер, и многие другие
на мой взгляд важно помнить и подвиг солдат на фронте, и подвиг тружеников в тылу, в том числе ученых
еще раз с Днем Победы!
Forwarded from Machinelearning
Tencent выпустила HunyuanCustom, фреймворк, который не только генерирует видео по заданным условиям, но и умеет сохранять консистентность субъектов, будь то человек, животное или предмет. Модель справляется даже с мультисубъектными сценами: в демо-роликах люди естественно взаимодействуют с предметами, а текст на упаковках не плывет между кадрами.
В основе модели лежит улучшенный механизм слияния текста и изображений через LLaVA. Например, если вы загружаете фото женщины в платье и текст «танцует под дождем», система анализирует оба инпута, связывая описание с визуальными деталями.
Но главное - это модуль временной конкатенации: он «растягивает» особенности изображения вдоль временной оси видео, используя 3D-VAE. Это помогает избежать «прыгающих» лиц или внезапных изменений фона, проблемы, которая характерна даже для топовых моделей видеогенерации.
Tencent переработали и пайплайн аудио. Для синхронизации звука с движениями губ или действиями в кадре HunyuanCustom использует AudioNet, модуль, который выравнивает аудио- и видеофичи через пространственное кросс-внимание.
Фреймворк поддерживает возможность замены объекта в готовом ролике (скажем, подставить новую модель кроссовок в рекламу), модель сжимает исходное видео в латентное пространство, выравнивает его с шумными данными и встраивает изменения без артефактов на границах.
Экспериментальные тесты показали, что HunyuanCustom обходит конкурентов по ключевым метрикам. Например, Face-Sim (сохранение идентичности лица) у Tencent — 0.627 против 0.526 у Hailuo, а с Keling, Vidu, Pika и Skyreels разрыв еще больше.
⚠️ Для работы модель требует минимум 24 ГБ видеопамяти для роликов 720p, но чтобы раскрыть все возможности, разработчики рекомендуют 80 ГБ VRAM.
Код и чекпоинты уже доступны в открытом доступе, а в репозитории есть примеры запуска как на нескольких GPU, так и в экономном режиме для потребительских видеокарт.
@ai_machinelearning_big_data
#AI #ML #Video #HunyuanCustom #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
HTML Embed Code: