Recognizing emotion in human speech using deep learning techniques (Распознавание эмоций в речи человека с помощью методов глубокого обучения)

Чэнь, Цзинь

Please use this identifier to cite or link to this item: http://earchive.tpu.ru/handle/11683/71583

Title:	Recognizing emotion in human speech using deep learning techniques (Распознавание эмоций в речи человека с помощью методов глубокого обучения)
Authors:	Чэнь, Цзинь
metadata.dc.contributor.advisor:	Ботыгин, Игорь Александрович
Keywords:	распознавание эмоций речи; глубокое обучение; сверточная нейронная сеть; алгоритмы распознавания; нейронные сети; speech emotion recognition; deep learning; convolutional neural network; recognition algorithm; neural networks
Issue Date:	2022
Citation:	Чэнь, Цзинь. Recognizing emotion in human speech using deep learning techniques (Распознавание эмоций в речи человека с помощью методов глубокого обучения) : магистерская диссертация / Чэнь, Цзинь ; Национальный исследовательский Томский политехнический университет (ТПУ), Инженерная школа информационных технологий и робототехники (ИШИТР), Отделение информационных технологий (ОИТ) ; науч. рук. И. А. Ботыгин. — Томск, 2022.
Abstract:	Данная статья посвящена проектированию и разработке алгоритма распознавания речевых эмоций для распознавания и классификации эмоций, содержащихся в человеческой речи. В данном исследовании мы выбрали частотные кепстральные коэффициенты Mel в качестве признаков для обучающей модели. Многомасштабная остаточная нейросетевая модель была построена на основе двух алгоритмических моделей, GoogLeNet и ResNet. Алгоритм может объединить особенности речи смежных и несмежных кадров в речевом сигнале для извлечения скрытой информации в речевом сигнале и эффективного повышения точности распознавания. This paper focuses on designing and developing a speech emotion recognition algorithm to recognize and classify the emotions contained in human speech. In this study, we selected Mel frequency cepstral coefficients as features for the training model. A multiscale residual neural network model was developed based on two algorithmic models, GoogLeNet and ResNet. The algorithm can combine the speech features of adjacent and non-adjacent frames in the speech signal to extract the hidden information in the speech signal and improve the recognition accuracy effectively.
URI:	http://earchive.tpu.ru/handle/11683/71583
Appears in Collections:	Магистерские диссертации

Files in This Item:

File	Description	Size	Format
TPU1366889.pdf		1,51 MB	Adobe PDF	View/Open

Show full item record Google Scholar