Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://earchive.tpu.ru/handle/11683/39819
Название: Оценка релевантности текста для географической диверсификации компании
Авторы: Булыгин, Лев Эдуардович
Научный руководитель: Семенов, Михаил Евгеньевич
Ключевые слова: машинное обучение; анализ текста; географическая диверсификация; бинарная классификация; линейный классификатор; градиентный бустинг; TF-IDF; word2vec; doc2vec; оптимизация параметров обучения; Machine learning; text analysis; geographic diversification; binary classification; linear classifier; gradient boosting; TF-IDF; word2vec; doc2vec; optimization of learning parameters
Дата публикации: 2017
Библиографическое описание: Булыгин Л. Э. Оценка релевантности текста для географической диверсификации компании : бакалаврская работа / Л. Э. Булыгин ; Национальный исследовательский Томский политехнический университет (ТПУ), Физико-технический институт (ФТИ), Кафедра высшей математики и математической физики (ВММФ) ; науч. рук. М. Е. Семенов. — Томск, 2017.
Аннотация: Машинное обучение эффективно используется для автоматизации решения интеллектуальных задач, что позволяет снизить издержки, сократить объем рутинных операций. Методы проведения исследования: теоретические (изучение литературы, обзор существующих методов и моделей анализа) и практическое применение методов машинного обучения для построения модели. Полученные результаты: Сформулированы критерии релевантности: 1) явное указание, 2) контактная информация, 3) логический вывод из текста 4) логический вывод из числовой информации. С применением различных методов обработки текста: а) TF-IDF, б) word2vec, в) doc2vec построены модели на основе классификаторов: 1) наивный байесовский классификатор, 2) логистическая регрессия, 3) градиентный бустинг над решающими деревьями.
Machine learning is effectively used to automate the solution of intellectual tasks, which allows you to reduce costs, reduce the amount of routine operations. Research methods: theoretical (study of literature, review of existing methods and models of analysis) and practical application of machine learning methods for building a model. The obtained results: Relevance criteria are formulated: 1) explicit indication, 2) contact information, 3) logical conclusion from the text 4) logical conclusion from the numerical information. Using different methods of text processing: a) TF-IDF, b) word2vec, c) doc2vec models based on classifiers are constructed: 1) naive Bayesian classifier; 2) logistic regression; 3) gradient boosting over deciding trees.
URI: http://earchive.tpu.ru/handle/11683/39819
Располагается в коллекциях:Выпускные квалификационные работы (ВКР)

Файлы этого ресурса:
Файл Описание РазмерФормат 
TPU395006.pdf2,43 MBAdobe PDFПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.