СИСТЕМА ИНТЕГРАЛЬНОГО РАСПОЗНАВАНИЯ КАЗАХСКОЙ РЕЧИ НА ОСНОВЕ TRANSFORMER
PDF

Ключевые слова

автоматическое распознавание речи, end-to-end, Transformer, Сonnectionist Temporal Classification, агглютинативные языки

Аннотация

Современные модели на основе архитектуры Transformer, обладающие возможностью параллельных вычислений и внутреннего внимания, оказались востребованными в области распознавания речи. Это обусловлено их быстрой скоростью обучения и отсутствием последовательных операций, присущих рекуррентным нейронным сетям. В данной исследовательской работе были изучены модели Transformer и разработана интегральная модель, включающая в себя архитектуру Connectionist Temporal Classification, для реализации автоматического распознавания слитной казахской речи.

Основной целью данного исследования является создание и анализ системы автоматического распознавания казахской слитной речи, основанной на совместном использовании модели Transformer и архитектуры Connectionist Temporal Classification. Это направлено на повышение эффективности распознавания при ограниченных ресурсах и данных, а также на обеспечение быстрой обработки сигналов и потенциальной интерпретируемости. Были поставлены следующие задачи: 1) проектирование и настройка интегральной модели, учитывая особенности казахской речи и агглютинативной структуры; 2) сбор, подготовка и фонетическая разметка аудиоданных на казахском языке; 3) применение методов глубокого обучения для обучения интегральной модели на подготовленных данных; 4) качественная и количественная оценка эффективности разработанной системы, включая сравнение с другими методами; 5) анализ результатов экспериментов, выявление преимуществ и особенностей интегральной модели для распознавания казахской слитной речи. Проведение данного исследования позволило достичь конкурентоспособные результаты существующих систем распознавания речи, особенно при ограниченных данных. Новизна данного подхода заключается в объединении преимущества Transformer и Connectionist Temporal Classification для эффективного распознавания слитной речи на казахском языке.

Ключевые слова: автоматическое распознавание речи, интегральная модель, Transformer, Сonnectionist Temporal Classification, агглютинативные языки.

 

https://doi.org/10.51775/2790-0886_2023_62_3_78
PDF