Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://earchive.tpu.ru/handle/11683/71583
Название: Recognizing emotion in human speech using deep learning techniques (Распознавание эмоций в речи человека с помощью методов глубокого обучения)
Авторы: Чэнь, Цзинь
Научный руководитель: Ботыгин, Игорь Александрович
Ключевые слова: распознавание эмоций речи; глубокое обучение; сверточная нейронная сеть; алгоритмы распознавания; нейронные сети; speech emotion recognition; deep learning; convolutional neural network; recognition algorithm; neural networks
Дата публикации: 2022
Библиографическое описание: Чэнь, Цзинь. Recognizing emotion in human speech using deep learning techniques (Распознавание эмоций в речи человека с помощью методов глубокого обучения) : магистерская диссертация / Чэнь, Цзинь ; Национальный исследовательский Томский политехнический университет (ТПУ), Инженерная школа информационных технологий и робототехники (ИШИТР), Отделение информационных технологий (ОИТ) ; науч. рук. И. А. Ботыгин. — Томск, 2022.
Аннотация: Данная статья посвящена проектированию и разработке алгоритма распознавания речевых эмоций для распознавания и классификации эмоций, содержащихся в человеческой речи. В данном исследовании мы выбрали частотные кепстральные коэффициенты Mel в качестве признаков для обучающей модели. Многомасштабная остаточная нейросетевая модель была построена на основе двух алгоритмических моделей, GoogLeNet и ResNet. Алгоритм может объединить особенности речи смежных и несмежных кадров в речевом сигнале для извлечения скрытой информации в речевом сигнале и эффективного повышения точности распознавания.
This paper focuses on designing and developing a speech emotion recognition algorithm to recognize and classify the emotions contained in human speech. In this study, we selected Mel frequency cepstral coefficients as features for the training model. A multiscale residual neural network model was developed based on two algorithmic models, GoogLeNet and ResNet. The algorithm can combine the speech features of adjacent and non-adjacent frames in the speech signal to extract the hidden information in the speech signal and improve the recognition accuracy effectively.
URI: http://earchive.tpu.ru/handle/11683/71583
Располагается в коллекциях:Магистерские диссертации

Файлы этого ресурса:
Файл Описание РазмерФормат 
TPU1366889.pdf1,51 MBAdobe PDFПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.