Российская технология распознавания речи признана лучшей в мире

Технологии >> 08.05.2020, 14:18

Лидером конкурса CHiME-6 признана технология диаризации и распознавания речи, предложенная командой группы ЦРТ. Она продемонстрировала лучшие результаты тестов, значительно опередив иных конкурсантов.

С каждым новым конкурсом организаторы усложняют задачи для сильнейших команд мира. Участникам CHiME-5 следовало решить проблему распознавания спонтанной речи в условиях частичного наложения шума (типичная ситуация для вечеринок). Тогда конкурсанты работали с сегментированной (выделенной) речью. Особенностью нынешнего конкурса стало то, что участникам пришлось иметь дело с несегментированной речью, с перекрытием до 20%. Записи разговоров были сделаны на двух десятках ужинов в естественных условиях - под звон приборов, гул кондиционеров, смех, шум шагов и льющейся воды.

Цель – создание системы расшифровки с меньшим числом ошибок. Именно над решением этой сложной задачи сфокусировалась российская команда. Специалисты разработали алгоритм выделения сегментов речи для каждого диктора и создали комплекс нейронных сетей различных архитектур с нацеливанием микрофонов на конкретных спикеров.

Гендиректор группы ЦРТ Д.Дырмовский называет признание в международном конкурсе знаковым событием для всей индустрии. Качественная обработка перебиваемой шумами речи даст возможность грамотно протоколировать многолюдные совещания, оптимизировать деятельность контакт-центров и в целом совершенствовать бизнес-процессы для упрощения жизни.