Группа «Т-Технологии» открыла доступ к собственной потоковой модели распознавания речи на русском языке под названием T-one. Этот инструмент был разработан Центром искусственного интеллекта компании и стал доступен для всех на платформах GitHub и Hugging Face. Выложены не только веса модели, но и программный код, позволяющий запускать её в условиях высокой нагрузки и адаптировать под конкретные бизнес-задачи.
T-one представляет собой компактную автоматическую систему распознавания речи (ASR), насчитывающую всего 70 миллионов параметров. Несмотря на относительно небольшой объем, модель демонстрирует высокое качество распознавания русской речи, особенно в сложных условиях — на зашумленных и сжатых аудиозаписях, типичных для колл-центров. Именно такие ситуации часто становятся причиной потерь для бизнеса из-за неверной интерпретации обращений клиентов.
Особенностью T-one является её способность к потоковой обработке аудио в режиме реального времени. Эта функция дает возможность мгновенно распознавать речь в ходе телефонных разговоров, что позволяет ускорить обслуживание клиентов, снизить нагрузку на операторов и уменьшить затраты на персонал. Модель обеспечивает минимальную задержку при обработке данных, что особенно важно для голосовых помощников, платформ автоматизации поддержки клиентов и систем аналитики звонков.
T-one уже внедрена во внутренние сервисы группы «Т-Технологии». Она используется, в частности, в службе поддержки «Т-Банка», в мобильном секретаре от «Т-Мобайла», а также в решениях по борьбе со спам-звонками. Благодаря компактности, модель не требует дорогостоящего оборудования, что делает её доступной даже для небольших компаний. Это позволяет им разрабатывать и внедрять собственные решения на базе T-one без необходимости приобретения платных лицензий или использования облачных сервисов.
На сегодняшний день не существует общедоступных валидированных наборов данных по русской телефонной речи с должным уровнем разметки. Тем не менее, согласно внутренним тестам, T-one превосходит по качеству распознавания речи крупные открытые модели, такие как GigaAM v2 с 242–243 миллионами параметров и Whisper Large-v3 от OpenAI, содержащую 1,5 миллиарда параметров.
Модель распространяется под лицензией Apache 2.0, что даёт пользователям право свободно использовать её в коммерческих целях, модифицировать и интегрировать в собственные продукты. Это открытие может стать стимулом для активного роста отечественной экосистемы речевых технологий.



