Please use this identifier to cite or link to this item: http://earchive.tpu.ru/handle/11683/39819
Title: Оценка релевантности текста для географической диверсификации компании
Authors: Булыгин, Лев Эдуардович
metadata.dc.contributor.advisor: Семенов, Михаил Евгеньевич
Keywords: машинное обучение; анализ текста; географическая диверсификация; бинарная классификация; линейный классификатор; градиентный бустинг; TF-IDF; word2vec; doc2vec; оптимизация параметров обучения; Machine learning; text analysis; geographic diversification; binary classification; linear classifier; gradient boosting; TF-IDF; word2vec; doc2vec; optimization of learning parameters
Issue Date: 2017
Citation: Булыгин Л. Э. Оценка релевантности текста для географической диверсификации компании : бакалаврская работа / Л. Э. Булыгин ; Национальный исследовательский Томский политехнический университет (ТПУ), Физико-технический институт (ФТИ), Кафедра высшей математики и математической физики (ВММФ) ; науч. рук. М. Е. Семенов. — Томск, 2017.
Abstract: Машинное обучение эффективно используется для автоматизации решения интеллектуальных задач, что позволяет снизить издержки, сократить объем рутинных операций. Методы проведения исследования: теоретические (изучение литературы, обзор существующих методов и моделей анализа) и практическое применение методов машинного обучения для построения модели. Полученные результаты: Сформулированы критерии релевантности: 1) явное указание, 2) контактная информация, 3) логический вывод из текста 4) логический вывод из числовой информации. С применением различных методов обработки текста: а) TF-IDF, б) word2vec, в) doc2vec построены модели на основе классификаторов: 1) наивный байесовский классификатор, 2) логистическая регрессия, 3) градиентный бустинг над решающими деревьями.
Machine learning is effectively used to automate the solution of intellectual tasks, which allows you to reduce costs, reduce the amount of routine operations. Research methods: theoretical (study of literature, review of existing methods and models of analysis) and practical application of machine learning methods for building a model. The obtained results: Relevance criteria are formulated: 1) explicit indication, 2) contact information, 3) logical conclusion from the text 4) logical conclusion from the numerical information. Using different methods of text processing: a) TF-IDF, b) word2vec, c) doc2vec models based on classifiers are constructed: 1) naive Bayesian classifier; 2) logistic regression; 3) gradient boosting over deciding trees.
URI: http://earchive.tpu.ru/handle/11683/39819
Appears in Collections:Выпускные квалификационные работы (ВКР)

Files in This Item:
File Description SizeFormat 
TPU395006.pdf2,43 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.