Please use this identifier to cite or link to this item: http://earchive.tpu.ru/handle/11683/54457
Title: Применение нейросетевых алгоритмов для определения авторства текста на основе различных метрик и методов лингвистического анализа
Authors: Демиденко, Людмила Руслановна
metadata.dc.contributor.advisor: Цапко, Сергей Геннадьевич
Keywords: нейронная сеть; искусственный интеллект; валидационная выборка; машинное обучение; векторное представление слов; neural network; artificial intelligence; validation set; machine Learning; word embedding
Issue Date: 2019
Citation: Демиденко Л. Р. Применение нейросетевых алгоритмов для определения авторства текста на основе различных метрик и методов лингвистического анализа : бакалаврская работа / Л. Р. Демиденко ; Национальный исследовательский Томский политехнический университет (ТПУ), Инженерная школа информационных технологий и робототехники (ИШИТР), Отделение информационных технологий (ОИТ) ; науч. рук. С. Г. Цапко. — Томск, 2019.
Abstract: Данная работа посвящена разработке нейросетевого алгоритма, позволяющего определить автора по его тексту. Был собран корпус текстов русской литературы начиная от 19 века, заканчивая нашим временем. Всего корпус состоит более чем из 100 млн слов. Также были разработаны 2 нейросети, использующие 2 разные метрики для представления текста в векторном виде. Проведено сравнение данных метрик. Объектом исследования является разработка нейронной сети. Цель работы – разработка нейронной сети, идентифицирующей автора по его тексту. Сеть была реализована на языке python с использованием библиотек tensorflow, sklearn, gensim, pymorphy2. Данная сеть может быть интегрирована в веб-ресурс или десктопное приложение.
The research deals with designing a neural network algorithm capable of identifying the author by their piece of writing. In the course of the research a text corpus of XIX-XXI centuries’ Russian literature consisting of 100 mln words was formed. Two neural networks applying different methods of word embedding were designed and compared. The object of the research is neural network design. The aim of the research is to design a neural network capable of identifying the author by a piece of writing. The network was designed using python programming language with the help of tensorflow, sklearn, gensim, pymorphy2 libraries. The neural network can be integrated into web-sites or desktop applications.
URI: http://earchive.tpu.ru/handle/11683/54457
Appears in Collections:Выпускные квалификационные работы (ВКР)

Files in This Item:
File SizeFormat 
TPU724415.pdf1,65 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.