Warning: mkdir(): No space left on device in /var/www/hottg/post.php on line 59

Warning: file_put_contents(aCache/aDaily/2025-07-22/post/gigadev_channel/--): Failed to open stream: No such file or directory in /var/www/hottg/post.php on line 72
GigaAM-v2: лучшая открытая модель для распознания речи на русском языке с возможностью коммерческого использования! @GigaDev — разработка GigaChat
TG Telegram Group & Channel
GigaDev — разработка GigaChat | United States America (US)
Create: Update:

GigaAM-v2: лучшая открытая модель для распознания речи на русском языке с возможностью коммерческого использования!

СКАЧАТЬ ➡️➡️➡️ GitHub | GitVerse

В апреле мы опубликовали GigaAM (Giga Acoustic Model) — фундаментальную акустическую модель, основанную на архитектуре Conformer и фреймворке обучения wav2vec2.0. Модель GigaAM была обучена на аудиозаписях на русском языке, что позволило показать отличное качество при дообучении на задачу распознавания речи: GigaAM-CTC показывает Word Error Rate, в среднем, на 38% ниже по сравнению с Whisper-large-v3 на коротких аудиозаписях на русском языке. Подробнее про устройство моделей и подходы к предобучению мы рассказывали в статье на Хабр.

В мае мы обновили семейство моделей, обучив GigaAM-RNNT — модель распознавания речи с авторегрессивным декодером. GigaAM-RNNT стала новой state-of-the-art моделью среди открытых альтернатив по нашим и независимым оценкам. Разрыв в Word Error Rate по сравнению с OpenAI Whisper увеличился до 43%. Технический доклад на DataFest об устройстве этой модели доступен по ссылке.

От сообщества поступало большое количество запросов на коммерческое применение наших моделей, удобство использования и конвертацию графов моделей в популярные фреймворки инференса.

Поэтому сегодня мы делимся большим обновлением: GigaAM-v2
🔘 модели стали доступны с MIT лицензией, которая допускает коммерческое использование
🔘 мы улучшили процесс подготовки данных и подход к предобучению, что позволило дополнительно снизить Word Error Rate моделей распознавания: GigaAM-RNNT-v2 опережает OpenAI Whisper на 48%
🔘 для простоты использования мы избавились от зависимостей NeMo-фреймворка, который использовался для обучения
🔘 добавилась поддержка конвертации в ONNX одной строкой

➡️ О технических деталях подготовки GigaAM-v2, применении подобных моделей для end-to-end понимания речи в GigaChat, ablation studies и невзлетевших экспериментах мы расскажем на конференции Салют, GigaChat! Технологии искусственного интеллекта. Не пропустите!

Более качественные модели распознавания того же класса эксклюзивно доступны в наших умных устройствах, а также могут быть бесплатно использованы на повседневной основе с помощью бота @smartspeech_sber_bot

GigaAM-v2: лучшая открытая модель для распознания речи на русском языке с возможностью коммерческого использования!

СКАЧАТЬ ➡️➡️➡️ GitHub | GitVerse

В апреле мы опубликовали GigaAM (Giga Acoustic Model) — фундаментальную акустическую модель, основанную на архитектуре Conformer и фреймворке обучения wav2vec2.0. Модель GigaAM была обучена на аудиозаписях на русском языке, что позволило показать отличное качество при дообучении на задачу распознавания речи: GigaAM-CTC показывает Word Error Rate, в среднем, на 38% ниже по сравнению с Whisper-large-v3 на коротких аудиозаписях на русском языке. Подробнее про устройство моделей и подходы к предобучению мы рассказывали в статье на Хабр.

В мае мы обновили семейство моделей, обучив GigaAM-RNNT — модель распознавания речи с авторегрессивным декодером. GigaAM-RNNT стала новой state-of-the-art моделью среди открытых альтернатив по нашим и независимым оценкам. Разрыв в Word Error Rate по сравнению с OpenAI Whisper увеличился до 43%. Технический доклад на DataFest об устройстве этой модели доступен по ссылке.

От сообщества поступало большое количество запросов на коммерческое применение наших моделей, удобство использования и конвертацию графов моделей в популярные фреймворки инференса.

Поэтому сегодня мы делимся большим обновлением: GigaAM-v2
🔘 модели стали доступны с MIT лицензией, которая допускает коммерческое использование
🔘 мы улучшили процесс подготовки данных и подход к предобучению, что позволило дополнительно снизить Word Error Rate моделей распознавания: GigaAM-RNNT-v2 опережает OpenAI Whisper на 48%
🔘 для простоты использования мы избавились от зависимостей NeMo-фреймворка, который использовался для обучения
🔘 добавилась поддержка конвертации в ONNX одной строкой

➡️ О технических деталях подготовки GigaAM-v2, применении подобных моделей для end-to-end понимания речи в GigaChat, ablation studies и невзлетевших экспериментах мы расскажем на конференции Салют, GigaChat! Технологии искусственного интеллекта. Не пропустите!

Более качественные модели распознавания того же класса эксклюзивно доступны в наших умных устройствах, а также могут быть бесплатно использованы на повседневной основе с помощью бота @smartspeech_sber_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5412👍5🎉3💯1


>>Click here to continue<<

GigaDev — разработка GigaChat






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)


Warning: Undefined array key 3 in /var/www/hottg/function.php on line 115

Fatal error: Uncaught mysqli_sql_exception: Too many connections in /var/www/db.php:16 Stack trace: #0 /var/www/db.php(16): mysqli_connect() #1 /var/www/hottg/function.php(212): db() #2 /var/www/hottg/function.php(115): select() #3 /var/www/hottg/post.php(351): daCache() #4 /var/www/hottg/route.php(63): include_once('...') #5 {main} thrown in /var/www/db.php on line 16