Intelligent voice transcription based on iFLYTEK WEBAPI (Интеллектуальная транскрипция голоса на основе платформы iFLYTEK WEBAPI)

Лю, Илэ

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://earchive.tpu.ru/handle/11683/71805

Название:	Intelligent voice transcription based on iFLYTEK WEBAPI (Интеллектуальная транскрипция голоса на основе платформы iFLYTEK WEBAPI)
Авторы:	Лю, Илэ
Научный руководитель:	Ботыгин, Игорь Александрович
Ключевые слова:	транскрипция голоса; авторегрессионные сквозные модели; генерация нетекстовой речи; неавторегрессионные сквозные модели; распознавание речи; voice transcription; autoregressive and non-autoregressive end-to-end models; non-text speech generation; iFlytek; speech recognition
Дата публикации:	2022
Библиографическое описание:	Лю, Илэ. Intelligent voice transcription based on iFLYTEK WEBAPI (Интеллектуальная транскрипция голоса на основе платформы iFLYTEK WEBAPI) : магистерская диссертация / Лю, Илэ ; Национальный исследовательский Томский политехнический университет (ТПУ), Инженерная школа информационных технологий и робототехники (ИШИТР), Отделение информационных технологий (ОИТ) ; науч. рук. И. А. Ботыгин. — Томск, 2022.
Аннотация:	Эта работа посвящена проектированию и разработке полного интеллектуального алгоритма транскрипции речи на основе API iFLYTEK.В дополнение к базовому приложению интеллектуального распознавания речи и преобразования текста мы добавили новую функцию синтеза речи. Используется в различных случаях, когда требуется интеллектуальная транскрипция и слияние речи. В исследовании предложена сквозная модель синтеза речи, на этапе обучения модели обучается авторегрессионная сквозная модель, для повышения качества - неавторегрессивная сквозная модель. вводится для эффективного повышения точности распознавания. This paper is dedicated to designing and developing a total intelligent speech transcription algorithm based on iFLYTEK API, which can realize the basic application of basic intelligent speech recognition and text conversion, and we have added a new function of speech synthesis. Used in a variety of occasions requiring intelligent speech transcription and fusion. In the research, an end-to-end speech synthesis model is proposed. In the model training stage, the autoregressive end-to-end model is trained. In order to improve the quality, a non-autoregressive end-to-end model is introduced to effectively improve the recognition accuracy.
URI:	http://earchive.tpu.ru/handle/11683/71805
Располагается в коллекциях:	Магистерские диссертации

Файлы этого ресурса:

Файл	Описание	Размер	Формат
TPU1369692.pdf		2,53 MB	Adobe PDF	Просмотреть/Открыть

Показать полное описание ресурса Статистика Google Scholar

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.