Recognizing emotion in human speech using deep learning techniques (Распознавание эмоций в речи человека с помощью методов глубокого обучения)

Чэнь, Цзинь

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://earchive.tpu.ru/handle/11683/71583

Название:	Recognizing emotion in human speech using deep learning techniques (Распознавание эмоций в речи человека с помощью методов глубокого обучения)
Авторы:	Чэнь, Цзинь
Научный руководитель:	Ботыгин, Игорь Александрович
Ключевые слова:	распознавание эмоций речи; глубокое обучение; сверточная нейронная сеть; алгоритмы распознавания; нейронные сети; speech emotion recognition; deep learning; convolutional neural network; recognition algorithm; neural networks
Дата публикации:	2022
Библиографическое описание:	Чэнь, Цзинь. Recognizing emotion in human speech using deep learning techniques (Распознавание эмоций в речи человека с помощью методов глубокого обучения) : магистерская диссертация / Чэнь, Цзинь ; Национальный исследовательский Томский политехнический университет (ТПУ), Инженерная школа информационных технологий и робототехники (ИШИТР), Отделение информационных технологий (ОИТ) ; науч. рук. И. А. Ботыгин. — Томск, 2022.
Аннотация:	Данная статья посвящена проектированию и разработке алгоритма распознавания речевых эмоций для распознавания и классификации эмоций, содержащихся в человеческой речи. В данном исследовании мы выбрали частотные кепстральные коэффициенты Mel в качестве признаков для обучающей модели. Многомасштабная остаточная нейросетевая модель была построена на основе двух алгоритмических моделей, GoogLeNet и ResNet. Алгоритм может объединить особенности речи смежных и несмежных кадров в речевом сигнале для извлечения скрытой информации в речевом сигнале и эффективного повышения точности распознавания. This paper focuses on designing and developing a speech emotion recognition algorithm to recognize and classify the emotions contained in human speech. In this study, we selected Mel frequency cepstral coefficients as features for the training model. A multiscale residual neural network model was developed based on two algorithmic models, GoogLeNet and ResNet. The algorithm can combine the speech features of adjacent and non-adjacent frames in the speech signal to extract the hidden information in the speech signal and improve the recognition accuracy effectively.
URI:	http://earchive.tpu.ru/handle/11683/71583
Располагается в коллекциях:	Магистерские диссертации

Файлы этого ресурса:

Файл	Описание	Размер	Формат
TPU1366889.pdf		1,51 MB	Adobe PDF	Просмотреть/Открыть

Показать полное описание ресурса Статистика

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.