Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса Webview 181.html Telegram

27 сентября выступаем на AI Conf в Москве 🙂
Наш технический директор Иван Бондаренко будет выступать с докладом "Как «Писец» на «Тотальный диктант» ходил, или пара слов о робастном распознавании речи" https://aiconf.ru/2024/abstracts/12975
Будем рады всех видеть :)

aiconf.ru

Иван Бондаренко на AiConf 2024

В 2024 году состоялся юбилейный, вот уже десятый по счёту «Тотальный диктант». Но «Писец» на него пришёл в первый раз. Вы не подумайте, ничего плохого не произошло! Просто «Писец» — это открытая система автоматической расшифровки различных звукозаписей, …

227 viewsedited 08:17

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

💫Выступление нашего ведущего разработчика-исследователя Романа Дерунца на Сибирском ДатаФесте.
Роман рассказывает о наших исследованиях и разработке мультимодального ИИ, который работает с изображениями, текстами и аудио.
Приятного просмотра 😊
https://www.youtube.com/watch?v=DreUS7Z02ug

Зачем мы это делаем?
Мультимодальный искусственный интеллект способен решать широкий спектр задач, связанных с обработкой различных типов данных одновременно.

Вот примеры таких задач:

1. Мультимодальные генеративные модели: могут генерировать изображения, видео и текстовые описания, основываясь на предоставленном контексте. Есть возможность создать сцену с описанием на естественном языке и получить соответствующее изображение или видео;
2. Понимание и анализ мультимодальных данных: анализировать взаимодействие между текстом, аудио, видео, изображениями и другими форматами данных для улучшения понимания контекста и смысла информации. Это может включать анализ эмоций, выраженных через различные каналы;
3. Автоматическое аннотирование и индексирование мультимедийного контента: автоматизация процесса аннотации и индексации мультимедиа контента позволяет быстро находить нужные данные и упрощает их поиск;
4. Создание интерактивных приложений и интерфейсов: мультимодальность позволяет создавать интерактивные приложения и интерфейсы, которые взаимодействуют с пользователем через несколько сенсорных входных данных. Например, приложение может распознавать речь и жесты одновременно для управления системой;
5. Обработка и интерпретация сигналов: обрабатывать и интерпретировать сигналы от различных датчиков и устройств, чтобы понять окружающую среду и поведение объектов в ней;
6. Диалоговые системы: разработка диалоговых систем, которые могут общаться с пользователями через разные каналы связи, такие как голос, текст, изображения и видео;
7. Визуализация данных: в виде мультимодальной графики, которая включает в себя изображения, текст и другие формы представления информации;
8. Распознавание и классификация объектов: в видео и изображениях, учитывая информации из других источников, таких как текст и звук;
9. Анализ социальных сетей: проанализировать социальные сети, включая изображения, тексты и видео, для изучения общественного мнения и поведения пользователей;
10. Медицинская диагностика и лечение: Использование мультимодальности для анализа медицинских данных, таких как рентгеновские снимки, анализы крови, результаты МРТ и других тестов, вместе с информацией о симптомах пациента для диагностики заболеваний и разработки индивидуальных планов лечения.

Мультимодальный ИИ имеет широкий спектр применений и может значительно улучшить процессы обработки и анализа данных в различных областях.

"Сибирские нейросети" активно занимаются исследованиями в области мультимодального ИИ и внедряем свои инновационные решения в технологические системы ведущих российских компаний.

YouTube

Роман Дерунец | От платоновских "Диалогов" к "сильному ИИ"

Спикер: Роман Дерунец, Сибирские нейросети, Data Scientist
Тема доклада: От платоновских "Диалогов" к "сильному ИИ", или пара слов о мультимодальном RAG для LLM

Data Fest 2024: https://ods.ai/events/datafest2024
Презентацию к докладу Вы можете скачать в…

217 viewsedited 08:16

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Forwarded from Ivan Bondarenko

"Сибирские нейросети" на AI Conf 😉

235 views11:49

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

0:25

This media is not supported in your browser

VIEW IN TELEGRAM

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

Приняли участие в AI Conf 2024 https://aiconf.ru/2024/.
Иван Бондаренко рассказал о успехе нашего робота "Писца" на "Тотальном диктанте", а также поделился нашим open source проектом.
Кроме того, он помог сформировать программу конференции и отобрать лучших спикеров и доклады в качестве члена программного комитета.

260 views17:18

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Ждем выход выпуска программы "Персона" 6 октября, где наш технический директор Иван Бондаренко расскажет всю правду об искусственном интеллекте.

Тизер можете посмотреть по ссылке 😊
https://vk.com/video-218317427_456239380

Please open Telegram to view this post

VIEW IN TELEGRAM

VK Видео

Тизер программы "Персона" |ВСЯ ПРАВДА ОБ ИСКУССТВЕННОМ ИНТЕЛЛЕКТЕ| Ученый Иван Бондоренко. Премьера 06.10.24г.

Что такое искусственный интеллект и кто его придумал? Для чего он нужен, какая от него польза и в чем вред? Как с помощью искусственного интеллекта сделать нашу повседневную жизнь лучше и как не попасться на уловки мошенников? Эти и многие другие вопросы…

260 views18:41

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Интервью нашего любимого Технического директора Ивана Бондаренко для программы Руслана Махова "Персона"
Приятного просмотра
😊
https://vk.com/video-218317427_456239383

VK Видео

Программа "Персона" |ВСЯ ПРАВДА ОБ ИСКУССТВЕННОМ ИНТЕЛЛЕКТЕ| Ученый Иван Бондоренко.

Вся правда об искусственном интеллекте: кто его придумал и для чего? В чем чем польза и вред искусственного интеллекта? Сможет ли искусственный интеллект заменить людей в будущем, как выявить фейки и как устроена система распознавания лиц? Об этом и многом…

251 views06:04

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Иван Бондаренко | Маленькая, но удаленькая! Зачем использовать LLM размером меньше 1B параметров?
Приятного просмотра:
https://www.youtube.com/watch?v=blE2Dm9SORE

YouTube

Иван Бондаренко | Маленькая, но удаленькая! Зачем использовать LLM размером меньше 1B параметров?

Спикер: Иван Бондаренко, старший преподаватель, научный сотрудник НГУ

Data Fest 2024: https://ods.ai/events/datafest2024
Презентацию к докладу Вы можете скачать в треке секции NLP: https://ods.ai/tracks/df24-nlp

______
Наши соц.сети:
Telegram: https://hottg.com/datafest…

293 views06:18

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

⚡Уже в эту субботу, 12 октября 2024 года, в новосибирском Академгородке пройдет замечательное событие – ДатаФест.
Это мероприятие обещает быть насыщенным и интересным для всех любителей технологий и инноваций в сфере ИИ.
Особенно рекомендуем посетить секцию NLP, где от Сибирских нейросетей будет представлено целых два крутых доклада.

🔥Первый доклад проведет Дари Батурова, которая поделится результатами наших исследований BERTScore для русского языка. Этот инструмент уже показал свою эффективность в анализе текстов и будет особенно полезен для тех, кто работает с русскоязычным контентом.

🔥А хедлайнером секции NLP станет Роман Дерунец с докладом под названием «Мультимодальность и RAG, или как сесть на два стула». В этом докладе будут рассмотрены различные подходы к обработке мультимодальных данных и возможности использования Retrieval-Augmented Generation (RAG) для интеграции информации из внешних источников.

Не упустите возможность узнать больше о последних достижениях в области искусственного интеллекта и языковых моделей. Будет действительно интересно!

Для вашего удобства прилагаем расписание мероприятия: https://ods.ai/events/datafestsiberia5/schedule - здесь вы сможете найти подробную информацию о времени начала каждого доклада и других активностях.

До встречи на ДатаФесте!

329 views08:23

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Привет, друзья!
Сделали обновление Писца в личном кабинете https://lk.sibnn.ai/
Что нового:
1. Новый красивый шаблон документа с результатами распознавания.
2. Небольшое улучшение языковой модели для пост-обработки результатов акустической модели в части технической терминологии.

337 viewsedited 08:58

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Из ближайших планируемых обновлений Писца: готовим к поставке на прод саммаризацию по распознанному тексту. Кстати, можем интегрироваться on-prem с любой ВКС.

337 views13:07

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

В канале Минцифры про нас написали. Приятно 😊

242 views18:43

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Forwarded from Минцифра Новосибирской области

😎

Новосибирь цифровая

Запускаем новую рубрику! О технологиях и людях🫶 компаниях, стартапах, разработках, которые уже завоевали рынок или делают первые шаги в развитии ИТ-отрасли Новосибирской области.

Знакомьтесь 🙌

«Сибирские нейросети» — резидент Академпарка и «Сколково». В компании 15 человек, среди которых научные сотрудники Новосибирского государственного университета, аспиранты, авторы научных публикаций. У команды несколько зарегистрированных патентов на созданные системы и алгоритмы.

Компания разрабатывает продукты для решения задач на базе разговорного искусственного интеллекта. Самые популярные сервисы:

🔷

Pisets — сервис автоматической транскрибации аудио и видео в текст с учетом правил орфографии и пунктуации в формате субтитров (SubRip).

🔷

Dialoger — сервис речевой аналитики для контакт-центров, помогает бизнесу выполнить анализ разговоров, найти проблемные диалоги, недовольных клиентов, оценить работу операторов.

🔷

Soroka — оpen-source инструмент с интерфейсом командной строки для аналитики репутации человека или компании в Интернете.

🌐 В этом году разработчики презентовали LLM-платформу, которая работает внутри контура заказчика без подключения к внешнему интернету, устанавливается локально на ПК. Решение на базе большой языковой модели позволяет быстро без участия разработчика создавать вопросно-ответные системы по внутренней базе документов с возможностью свободного ведения диалога, сокращая время на адаптацию LLM под заданную предметную область.

👉 Узнать подробнее о компании можно здесь

Please open Telegram to view this post

VIEW IN TELEGRAM

303 views18:43

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Выступление Ивана Бондаренко на AIConf 2024, как мы "Писец" на "Тотальный диктант" водили.
Приятного просмотра 😊
https://youtu.be/XwA1vj4mkPA?si=H9uys6Dsjsd7Roqx

YouTube

Как «Писец» на «Тотальный диктант» ходил / Иван Бондаренко (НГУ)

Прикладная конференция по Data Science AiConf 2024

Презентация и тезисы:
https://aiconf.ru/2024/abstracts/12975

В 2024 году состоялся юбилейный, вот уже десятый по счёту «Тотальный диктант». Но «Писец» на него пришёл в первый раз. Вы не подумайте, ничего…

318 viewsedited 18:06

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Иван сегодня сделал релиз. Ура 🎉🎉🎉

222 views17:12

Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса

Forwarded from Ivan Bondarenko

Всем привет! Кажется, что сегодня - день релизов, и я решил тоже сделать релиз, раз уж все делают 😊

Правда, я - не МТС.ИИ и не Т-банк, поэтому мой релиз будет маленьким, на 1.5B 😅 Ну и в духе общей моды, на базе Qwen2.5: https://huggingface.co/bond005/meno-tiny-0.1

"Менон" - в честь сократического диалога Платона, в котором тот постулирует "знание через припоминание". Соответственно, основная цель Meno-Tiny - быть частью RAG-пайплайна, решая такие задачи, как ответы на вопросы по релевантным документам, абстрактивная саммаризация, разрешение анафоры в пользовательских вопросах (чтобы засовывать в ретривер текст вопроса с уже разрешённой анафорой), определение токсичности, детоксификация и другие задачи. Даже для исправления ошибок распознавания речи, включая восстановление пунктуации и капитализации, можно применять Meno-Tiny (правда, в режиме few-shot prompting).

На MERA сейчас Meno-Tiny-0.1 занимает 38-е место из 62, при этом в своём "размерном классе" дешёвых моделей-малышей на 1.5B он, кажется, лучший. На самых интересных для меня задачах он получше, чем в среднем: так, на MultiQ он занимает 25-е место из 62, а на RWSD - 17-е место (но я всё делал честно, никаких секретных техник типа "train on test set is all you need" я не использовал, и данные бенчмарка в мой трейн не протекали).

Кстати, об обучении. Обучался Meno-Tiny-0.1 на специальном русскоязычном инструкционном датасете, частично составленном путём дистилляции из Гигачата и из Qwen2.5-14B, частично на основе перевода англоязычных датасетов с фильтрацией по галлюцинациям машинного переводчика, частично - на основе собственных данных и датасетов из специализированных NLP-задач (таких, как детекция парафраза, упрощение текстов, исправление ошибок распознавания речи моделью Wav2Vec2-Large-Ru-Golos на синтетических данных и т.п.). Для файнтюнинга использовался curriculum learning по сложности в духе https://arxiv.org/html/2405.07490v1

Надеюсь, что Meno-Tiny-0.1 окажется кому-нибудь полезен 😊

huggingface.co

bond005/meno-tiny-0.1 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

269 views17:12

HTML Embed Code:

<iframe width="100%" src="https://www.hottg.com/buyppe/webview?embed=1" title="Telegram Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>

2025/07/02 15:07:11
Back to Top