РАСПОЗНАВАНИЕ ГОЛОСА С ИСПОЛЬЗОВАНИЕМ X-ВЕКТОРОВ
pdf

Ключевые слова

распознавание говорящего, глубокие нейронные сети, х-векторы

Аннотация

В этой статье мы используем увеличение данных для повышения производительности внедрения глубоких нейронных сетей (DNN) для распознавания говорящих. DNN, обученная различать говорящих, отображает высказывания переменной длины во вложения фиксированной размерности, которые мы называем x-векторами. Эта структура состоит из глубокой нейронной сети, которая повышает производительности вложений глубокой нейронной сети (DNN) для распознавания голоса. Долгосрочные голосовые характеристики фиксируются в сети на уровне временного пула, который агрегирует информацию во времени. После извлечения x-векторы используют ту же технологию классификации, которая разработана для i-векторов. х-векторы сравниваются с базовыми линиями i-вектора на Speakers, в результате распознавания голоса, х-векторы показали отличные результаты и превзошли наши современные системы i-vector.

Ключевые слова: распознавание говорящего, глубокие нейронные сети, х-векторы

https://doi.org/10.51775/1999-9801_2021_52_1_69
pdf