Please use this identifier to cite or link to this item: http://earchive.tpu.ru/handle/11683/71583
Title: Recognizing emotion in human speech using deep learning techniques (Распознавание эмоций в речи человека с помощью методов глубокого обучения)
Authors: Чэнь, Цзинь
metadata.dc.contributor.advisor: Ботыгин, Игорь Александрович
Keywords: распознавание эмоций речи; глубокое обучение; сверточная нейронная сеть; алгоритмы распознавания; нейронные сети; speech emotion recognition; deep learning; convolutional neural network; recognition algorithm; neural networks
Issue Date: 2022
Citation: Чэнь, Цзинь. Recognizing emotion in human speech using deep learning techniques (Распознавание эмоций в речи человека с помощью методов глубокого обучения) : магистерская диссертация / Чэнь, Цзинь ; Национальный исследовательский Томский политехнический университет (ТПУ), Инженерная школа информационных технологий и робототехники (ИШИТР), Отделение информационных технологий (ОИТ) ; науч. рук. И. А. Ботыгин. — Томск, 2022.
Abstract: Данная статья посвящена проектированию и разработке алгоритма распознавания речевых эмоций для распознавания и классификации эмоций, содержащихся в человеческой речи. В данном исследовании мы выбрали частотные кепстральные коэффициенты Mel в качестве признаков для обучающей модели. Многомасштабная остаточная нейросетевая модель была построена на основе двух алгоритмических моделей, GoogLeNet и ResNet. Алгоритм может объединить особенности речи смежных и несмежных кадров в речевом сигнале для извлечения скрытой информации в речевом сигнале и эффективного повышения точности распознавания.
This paper focuses on designing and developing a speech emotion recognition algorithm to recognize and classify the emotions contained in human speech. In this study, we selected Mel frequency cepstral coefficients as features for the training model. A multiscale residual neural network model was developed based on two algorithmic models, GoogLeNet and ResNet. The algorithm can combine the speech features of adjacent and non-adjacent frames in the speech signal to extract the hidden information in the speech signal and improve the recognition accuracy effectively.
URI: http://earchive.tpu.ru/handle/11683/71583
Appears in Collections:Магистерские диссертации

Files in This Item:
File Description SizeFormat 
TPU1366889.pdf1,51 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.