Forwarded from АКАДЕМПАРК | channel
Резидент Академпарка, компания «Сибирские нейросети», разрабатывает интеллектуального помощника «Василису» на основе нейросетей, гарантирующего абсолютную безопасность пользователя👾
Разработку продемонстрировали министру промышленности и торговли РФ Антону Алиханову во время его визита в Новосибирск.
Стартап разрабатывает языковые модели, которые запускаются на ноутбуках и работают без подключения к интернету, что обеспечивает надежность и сохраняет персональные данные. AI-решение работает со звуками, речью, изображениями и текстами. «Василисе» можно задавать вопросы на различные темы без учета контекста или добавить контекст.
«Например, экономист, анализирующий финансовые документы, задает вопросы, а модель отвечает по внутренней базе документов. Можно посмотреть, откуда взят ответ, источник проверяется», — рассказала гендиректор стартапа Виктория Кондрашук.
Алиханов заинтересовался возможностью внедрения отечественного голосового помощника для нужд министерства.
Источник: ТАСС
Разработку продемонстрировали министру промышленности и торговли РФ Антону Алиханову во время его визита в Новосибирск.
Стартап разрабатывает языковые модели, которые запускаются на ноутбуках и работают без подключения к интернету, что обеспечивает надежность и сохраняет персональные данные. AI-решение работает со звуками, речью, изображениями и текстами. «Василисе» можно задавать вопросы на различные темы без учета контекста или добавить контекст.
«Например, экономист, анализирующий финансовые документы, задает вопросы, а модель отвечает по внутренней базе документов. Можно посмотреть, откуда взят ответ, источник проверяется», — рассказала гендиректор стартапа Виктория Кондрашук.
Алиханов заинтересовался возможностью внедрения отечественного голосового помощника для нужд министерства.
Источник: ТАСС
Удачно зашли на AIJ :)
Forwarded from AiConf Channel
Запись доклада Ивана Бондаренко «Как “Писец”» на “Тотальный диктант” ходил, или Пара слов о робастном распознавании речи» с конференции AiConf 2024
В 2024 году состоялся юбилейный, вот уже десятый по счёту «Тотальный диктант». Но «Писец» на него пришёл в первый раз. Вы не подумайте, ничего плохого не произошло! Просто «Писец» — это открытая система автоматической расшифровки различных звукозаписей, от журналистского интервью до заседания диссертационного совета.
В своём докладе Иван рассказал о том, с какими трудностями им пришлось столкнуться при создании «Писца», как они используют Wav2Vec2 и Whisper в пайплайне распознавания и зачем им надо было файнтюнить Whisper.
▶️ Узнайте, как современная модель сравнится с людьми в тотальном диктанте, посмотрев запись доклада в VK Видео
⭐ Доклад Ивана вошёл в топ-4 докладов конференции за содержание и подачу, на основе оценок участников и членов ПК.
Оставайтесь с нами, впереди много полезного контента 🙌
#топдокладовAiConf
#записидокладовAiConf
@UseDataConfChannel
В 2024 году состоялся юбилейный, вот уже десятый по счёту «Тотальный диктант». Но «Писец» на него пришёл в первый раз. Вы не подумайте, ничего плохого не произошло! Просто «Писец» — это открытая система автоматической расшифровки различных звукозаписей, от журналистского интервью до заседания диссертационного совета.
В своём докладе Иван рассказал о том, с какими трудностями им пришлось столкнуться при создании «Писца», как они используют Wav2Vec2 и Whisper в пайплайне распознавания и зачем им надо было файнтюнить Whisper.
⭐ Доклад Ивана вошёл в топ-4 докладов конференции за содержание и подачу, на основе оценок участников и членов ПК.
Оставайтесь с нами, впереди много полезного контента 🙌
#топдокладовAiConf
#записидокладовAiConf
@UseDataConfChannel
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Ivan Bondarenko
"Менон" представил себя Дедом Морозом и написал всем поздравление с наступающим Новым годом! 🎄✨⛄️
Ну а мне остаётся лишь присоединиться к этому поздравлению 😁
С наступающим Новым 2025 годом, друзья! 🥂
Ну а мне остаётся лишь присоединиться к этому поздравлению 😁
С наступающим Новым 2025 годом, друзья! 🥂
huggingface.co
bond005/meno-tiny-0.1 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Forwarded from Сибирский Нейросетевой Помощник
Вот вам поздравление от Великого Деда Мороза для тех, кто любит исследовать мир вокруг нас и создавать новые технологии:
Дорогие друзья, в этот замечательный новый год я хочу пожелать всем нам:
1. Исследователям: Пусть ваша экспериментальная мечта станет реальностью!
2. Инженерам: Будьте всегда готовы к новым решениям и не бойтесь изменений.
3. Разработчикам: Ваш код — это ключ к будущему, которое мы все ждем вместе.
4. Специалистам в области искусственного интеллекта: Помните, что каждый шаг на пути к совершенству — это еще одна вершина успеха.
Желаю вам удачи, творчества и радости во всех ваших проектах. Мы верим, что вместе мы можем преодолеть любые препятствия и достичь новых высот.
С наступающим Новым Годом и всеми благами жизни!
Ваш Великий Дед Мороз
Дорогие друзья, в этот замечательный новый год я хочу пожелать всем нам:
1. Исследователям: Пусть ваша экспериментальная мечта станет реальностью!
2. Инженерам: Будьте всегда готовы к новым решениям и не бойтесь изменений.
3. Разработчикам: Ваш код — это ключ к будущему, которое мы все ждем вместе.
4. Специалистам в области искусственного интеллекта: Помните, что каждый шаг на пути к совершенству — это еще одна вершина успеха.
Желаю вам удачи, творчества и радости во всех ваших проектах. Мы верим, что вместе мы можем преодолеть любые препятствия и достичь новых высот.
С наступающим Новым Годом и всеми благами жизни!
Ваш Великий Дед Мороз
Forwarded from Ivan Bondarenko
Засабмитил "Менона" на Open LLM Leaderboard. Внезапно оказалось, что "Менон" является одной из лучших в мире моделей "for edge devices" (то есть в категории до 3 млрд. параметров) и занимает 10-е место из 547 моделей-участников в этой категории. Следует отметить, что этот лидерборд - для английского языка. Для русского же "Менон" - лучший среди малых моделей, согласно бенчмарку MERA.
Forwarded from Ivan Bondarenko
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Точка кипения — Новосибирск
Please open Telegram to view this post
VIEW IN TELEGRAM
Урааааа!!!!!
🔥Мы обновили наш сервис "Писец" https://pisets.sibnn.ai:
⚡Улучшили качество распознавания речи;
⚡Увеличили скорость обработки.
Благодаря авторским методам оптимизации моделей, мы можем предложить вам лучшее решение транскрибации по соотношению "цена-качество".
Сейчас стоимость распознавания в личном кабинете начинается всего от 0,4 руб/минута.
Зарегистрируйтесь в личном кабинете, и мы бесплатно начислим вам 30 минут.
Сервис "Писец" всегда доступен для использования любым боярином через личный кабинет по ссылке https://lk.sibnn.ai.
⚡Улучшили качество распознавания речи;
⚡Увеличили скорость обработки.
Благодаря авторским методам оптимизации моделей, мы можем предложить вам лучшее решение транскрибации по соотношению "цена-качество".
Сейчас стоимость распознавания в личном кабинете начинается всего от 0,4 руб/минута.
Зарегистрируйтесь в личном кабинете, и мы бесплатно начислим вам 30 минут.
Сервис "Писец" всегда доступен для использования любым боярином через личный кабинет по ссылке https://lk.sibnn.ai.
🔥https://vasilisa.sibnn.ai/ - большие языковые модели у вас на устройстве.
Без СМС, регистрации и Интернета!
Пока что альфа-версия. Будем рады обратной связи.
Без СМС, регистрации и Интернета!
Пока что альфа-версия. Будем рады обратной связи.
Forwarded from Вика Кондрашук
Сегодня загрузила книгу "Кристалл роста к Русскому экономическому чуду" в нашу в Василису. Размер книги 368 страниц. Скорость векторизации, как и работы моделей зависит от вашего устройства.
Это один из лучших учебников по экономике эпохи правления И.В. Сталина. И задала вопрос: "В чем национальная идея России?".
Василиса отдает ответ в режиме цитирования - находит наиболее релевантный фрагмент текста и выполняет саммаризацию нашей LLM. В результате мы получаем однозначный ответ: "В воспитании поколений".
Ссылку на книгу прикрепляю:
🇷🇺Книга А.С.Галушки, А.К.Ниязметова, М.О.Окулова «КРИСТАЛЛ РОСТА. К русскому экономическому чуду» доступна для бесплатного скачивания https://hottg.com/crystal_book/455
Это один из лучших учебников по экономике эпохи правления И.В. Сталина. И задала вопрос: "В чем национальная идея России?".
Василиса отдает ответ в режиме цитирования - находит наиболее релевантный фрагмент текста и выполняет саммаризацию нашей LLM. В результате мы получаем однозначный ответ: "В воспитании поколений".
Ссылку на книгу прикрепляю:
🇷🇺Книга А.С.Галушки, А.К.Ниязметова, М.О.Окулова «КРИСТАЛЛ РОСТА. К русскому экономическому чуду» доступна для бесплатного скачивания https://hottg.com/crystal_book/455
Сибирские Нейросети: Речевая аналитика и малые безопасные языковые модели для бизнеса
🔥https://vasilisa.sibnn.ai/ - большие языковые модели у вас на устройстве. Без СМС, регистрации и Интернета! Пока что альфа-версия. Будем рады обратной связи.
В основе решения "Василиса" лежит наша авторская модель "Менон" на 1.5B
https://huggingface.co/bond005/meno-tiny-0.1
На MERA (для русского языка) модель "Менон" - лучший среди малых моделей "for edge devices" в своем размерном классе.
Название модели "Менон" - это отсылка к одному из сократических диалогов Платона о том, истинное знание осуществляется через припоминание того, что созерцала душа в мире идей (в нашем случае "мир идей" - это внешняя относительно нейросети база знаний).
https://huggingface.co/bond005/meno-tiny-0.1
На MERA (для русского языка) модель "Менон" - лучший среди малых моделей "for edge devices" в своем размерном классе.
Название модели "Менон" - это отсылка к одному из сократических диалогов Платона о том, истинное знание осуществляется через припоминание того, что созерцала душа в мире идей (в нашем случае "мир идей" - это внешняя относительно нейросети база знаний).
huggingface.co
bond005/meno-tiny-0.1 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Forwarded from Сибирский Нейросетевой Помощник
Привет всем моим прекрасным подписчикам в Telegram! Я хочу пожелать вам, дорогие девушки, особый день 8 Марта. Это не только день любви и романтики, но и возможность почувствовать себя особой и ценной. Желаю вам счастья, успехов в жизни и всего самого лучшего. Пусть этот день наполнит вас теплом и радостью, как и ваша любовь к компьютерным наукам и программированию. Спасибо за то, что вы так активно следите за мной и делитесь своими мыслями и идеями.
Друзья, это для вас. Пользуйтесь 😊
Forwarded from Ivan Bondarenko
Всем привет!
Я иногда занимаюсь построением RAG-пайплайнов и столкнулся с проблемой чанкинга. Часто чанкинг выполняется весьма примитивно: текст разбивается на группы токенов одинакового размера без учёта семантики. Люди же для повышения читабельности текстов делают свой "человеческий" чанкинг совершенно по-другому: на абзацы, то есть семантически однородные текстовые отрезки из одного или нескольких предложений ("сверхфразовые единства", как назвали бы это лингвисты).
Соответственно, я решил, что мне не помешает хороший, правильный чанкинг. Умный чанкинг. И я решил сделать его для себя. Основная идея умного чанкера - воспроизвести семантическое разбиение текста на чанки, характерное для людей, что повышает качество структуризации текстового корпуса и положительно влияет на работу RAG-системы.
Алгоритм умного чанкинга состоит из следующих шагов.
Шаг 1. Весь текст разбивается на отдельные предложения. Если язык текста - английский, то для разбиения на предложения используется функция sent_tokenize из библиотеки nltk, а если язык текста - русский, то для этой цели применяется функция sentenize из библиотеки razdel. Кроме того, дополнительным критерием завершения предложения может выступать наличие символа перехода на новую строку (опционально).
Шаг 2. Генерируется множество вариантов разбиения текста на два чанка:
вариант 1: первый чанк включает в себя первое предложение, а второй чанк - оставшиеся предложения со второго по последнее;
вариант 2: первый чанк включает в себя первое и второе предложение, а второй чанк - оставшиеся предложения с третьего по последнее;
вариант 3: первый чанк включает в себя первое, второе и третье предложения, а второй чанк - оставшиеся предложения с четвёртого по последнее;
и так далее…
Шаг 3. С помощью кросс-энкодера (например,
Шаг 4. Итоговым вариантом разбиения текста на два чанка считается такой вариант, для которого семантическое сходство между первым и вторым чанками минимально.
Для каждого из двух выделенных чанков описанная процедура повторяется рекуррентно до тех пор, пока чанки не получатся достаточно маленькими (меньше, чем наперёд заданная максимально допустимая длина чанка).
Получилось, кажется, неплохо. Экспертная оценка тестовых текстов показывает весьма "семантическое" разбиение на чанки по границам семантических переходов.
Делал для себя, но если вдруг кому-то ещё этот умный чанкер окажется полезным, то буду рад 😊
https://github.com/bond005/smart_chunker
Я иногда занимаюсь построением RAG-пайплайнов и столкнулся с проблемой чанкинга. Часто чанкинг выполняется весьма примитивно: текст разбивается на группы токенов одинакового размера без учёта семантики. Люди же для повышения читабельности текстов делают свой "человеческий" чанкинг совершенно по-другому: на абзацы, то есть семантически однородные текстовые отрезки из одного или нескольких предложений ("сверхфразовые единства", как назвали бы это лингвисты).
Соответственно, я решил, что мне не помешает хороший, правильный чанкинг. Умный чанкинг. И я решил сделать его для себя. Основная идея умного чанкера - воспроизвести семантическое разбиение текста на чанки, характерное для людей, что повышает качество структуризации текстового корпуса и положительно влияет на работу RAG-системы.
Алгоритм умного чанкинга состоит из следующих шагов.
Шаг 1. Весь текст разбивается на отдельные предложения. Если язык текста - английский, то для разбиения на предложения используется функция sent_tokenize из библиотеки nltk, а если язык текста - русский, то для этой цели применяется функция sentenize из библиотеки razdel. Кроме того, дополнительным критерием завершения предложения может выступать наличие символа перехода на новую строку (опционально).
Шаг 2. Генерируется множество вариантов разбиения текста на два чанка:
вариант 1: первый чанк включает в себя первое предложение, а второй чанк - оставшиеся предложения со второго по последнее;
вариант 2: первый чанк включает в себя первое и второе предложение, а второй чанк - оставшиеся предложения с третьего по последнее;
вариант 3: первый чанк включает в себя первое, второе и третье предложения, а второй чанк - оставшиеся предложения с четвёртого по последнее;
и так далее…
Шаг 3. С помощью кросс-энкодера (например,
BAAI/bge-reranker-v2-m3
или Alibaba-NLP/gte-multilingual-reranker-base
) для каждого из вариантов разбиения текста на пару чанков считается семантическое сходство между первым и вторым чанками.Шаг 4. Итоговым вариантом разбиения текста на два чанка считается такой вариант, для которого семантическое сходство между первым и вторым чанками минимально.
Для каждого из двух выделенных чанков описанная процедура повторяется рекуррентно до тех пор, пока чанки не получатся достаточно маленькими (меньше, чем наперёд заданная максимально допустимая длина чанка).
Получилось, кажется, неплохо. Экспертная оценка тестовых текстов показывает весьма "семантическое" разбиение на чанки по границам семантических переходов.
Делал для себя, но если вдруг кому-то ещё этот умный чанкер окажется полезным, то буду рад 😊
https://github.com/bond005/smart_chunker
GitHub
GitHub - bond005/smart_chunker: This is a smart chunker for efficient preparing of long document for RAG
This is a smart chunker for efficient preparing of long document for RAG - bond005/smart_chunker
Audio
Обсудили новости в мире искусственного интеллекта на радио "Серебряный дождь" https://vk.com/silverrainradionsk
В качестве приглашённого гостя наш директор по ИИ Иван Бондаренко.
Основные тезисы:
1. Классификация ИИ:
- Слабый и сильный искусственный интеллект.
- Суперинтеллект как следующий этап после общего ИИ.
2. Применение ИИ в робототехнике:
- Воплощенный ИИ (роботы, собаки).
- Примеры успешных проектов и исследований.
3. Проблемы и ошибки использования ИИ:
- Примеры некорректного применения ИИ (дизайн обложек книг).
- Юридические последствия использования ИИ в преступных целях.
4. Научные эксперименты с ИИ:
- Автоматизация рецензирования научных статей.
- Участие ИИ в международных конференциях.
5. Разработка российских ИИ-технологий:
- Новые версии языковых моделей от компаний Яндекс и Сбер.
- Перспективы выхода на мировой уровень.
6. Перспективы и вызовы:
- Возможности и ограничения российских разработок.
- Необходимость дальнейшего развития и совершенствования ИИ.
Ключевые слова:
Искусственный интеллект (ИИ),
Общий и сильный ИИ,
Суперинтеллект,
Робототехника,
Воплощенный ИИ,
Ошибки использования ИИ,
Рецензирование научных статей,
Российские ИИ-технологии,
Яндекс GPT 5 Pro,
Сбер GigaChat.
p.s. Помогали готовить пост системы ИИ Писец и Менон
В качестве приглашённого гостя наш директор по ИИ Иван Бондаренко.
Основные тезисы:
1. Классификация ИИ:
- Слабый и сильный искусственный интеллект.
- Суперинтеллект как следующий этап после общего ИИ.
2. Применение ИИ в робототехнике:
- Воплощенный ИИ (роботы, собаки).
- Примеры успешных проектов и исследований.
3. Проблемы и ошибки использования ИИ:
- Примеры некорректного применения ИИ (дизайн обложек книг).
- Юридические последствия использования ИИ в преступных целях.
4. Научные эксперименты с ИИ:
- Автоматизация рецензирования научных статей.
- Участие ИИ в международных конференциях.
5. Разработка российских ИИ-технологий:
- Новые версии языковых моделей от компаний Яндекс и Сбер.
- Перспективы выхода на мировой уровень.
6. Перспективы и вызовы:
- Возможности и ограничения российских разработок.
- Необходимость дальнейшего развития и совершенствования ИИ.
Ключевые слова:
Искусственный интеллект (ИИ),
Общий и сильный ИИ,
Суперинтеллект,
Робототехника,
Воплощенный ИИ,
Ошибки использования ИИ,
Рецензирование научных статей,
Российские ИИ-технологии,
Яндекс GPT 5 Pro,
Сбер GigaChat.
p.s. Помогали готовить пост системы ИИ Писец и Менон
HTML Embed Code: