Аннотация
Интегральные модели — это эффективные модели для системы автоматического распознавания речи. Несмотря на хорошее качество распознавания, у данных моделей есть недостатки. Данные недостатки основываются на необходимости большого количества данных для обучения. Это серьезная проблема для языков с низким уровнем данных, таких как казахский и азербайджанский языки. Данные языки были выбраны в силу того, что они оба относятся к Тюркской группе агглютинативных языков и имеют схожие акустические и синтаксические структуры. Для решения проблем малоресурсных языков обычно применяются подходы с объединением данных, точнее мультиязычное обучение и трансферное обучение. Так как алфавиты этих языков отличаются, был выбран метод трансферного обучения и более того трансферное обучение доказало свою эффективность уже во многих трудах. Цель нашего исследования состоит в том, чтобы создать систему распознавания речи для казахского и азербайджанского языков и исследовать данный метод в области эффективности распознавания речи. С этой целью мы обучаем одновременно два языковых корпуса на архитектуре с декодером Сonnectionist Temporal Classification+механизм внимания, извлекая на этапе кодирования общие акустические характеристики языков с применением неглубоких двунаправленных LSTM. Наши эксперименты с двумя языковыми корпусами показывают, что трансферное обучение может снизить коэффициент ошибок фонем на 14.23% по сравнению с базовыми показателями.
Ключевые слова: распознавание речи, трансферное обучение, сквозное обучение, язык с низким уровнем ресурсов, Сonnectionist Temporal Classification, механизм внимания.