Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс:
http://earchive.tpu.ru/handle/11683/71583
Название: | Recognizing emotion in human speech using deep learning techniques (Распознавание эмоций в речи человека с помощью методов глубокого обучения) |
Авторы: | Чэнь, Цзинь |
Научный руководитель: | Ботыгин, Игорь Александрович |
Ключевые слова: | распознавание эмоций речи; глубокое обучение; сверточная нейронная сеть; алгоритмы распознавания; нейронные сети; speech emotion recognition; deep learning; convolutional neural network; recognition algorithm; neural networks |
Дата публикации: | 2022 |
Библиографическое описание: | Чэнь, Цзинь. Recognizing emotion in human speech using deep learning techniques (Распознавание эмоций в речи человека с помощью методов глубокого обучения) : магистерская диссертация / Чэнь, Цзинь ; Национальный исследовательский Томский политехнический университет (ТПУ), Инженерная школа информационных технологий и робототехники (ИШИТР), Отделение информационных технологий (ОИТ) ; науч. рук. И. А. Ботыгин. — Томск, 2022. |
Аннотация: | Данная статья посвящена проектированию и разработке алгоритма распознавания речевых эмоций для распознавания и классификации эмоций, содержащихся в человеческой речи. В данном исследовании мы выбрали частотные кепстральные коэффициенты Mel в качестве признаков для обучающей модели. Многомасштабная остаточная нейросетевая модель была построена на основе двух алгоритмических моделей, GoogLeNet и ResNet. Алгоритм может объединить особенности речи смежных и несмежных кадров в речевом сигнале для извлечения скрытой информации в речевом сигнале и эффективного повышения точности распознавания. This paper focuses on designing and developing a speech emotion recognition algorithm to recognize and classify the emotions contained in human speech. In this study, we selected Mel frequency cepstral coefficients as features for the training model. A multiscale residual neural network model was developed based on two algorithmic models, GoogLeNet and ResNet. The algorithm can combine the speech features of adjacent and non-adjacent frames in the speech signal to extract the hidden information in the speech signal and improve the recognition accuracy effectively. |
URI: | http://earchive.tpu.ru/handle/11683/71583 |
Располагается в коллекциях: | Магистерские диссертации |
Файлы этого ресурса:
Файл | Описание | Размер | Формат | |
---|---|---|---|---|
TPU1366889.pdf | 1,51 MB | Adobe PDF | Просмотреть/Открыть |
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.