Регрессионный анализ алгоритма ранжирования результатов текстового поиска в базах данных систем геомониторинга с помощью нейронных сетей

Тарков, Михаил Сергеевич; Кожушко, Оюна Алексеевна

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://earchive.tpu.ru/handle/11683/5516

Название:	Регрессионный анализ алгоритма ранжирования результатов текстового поиска в базах данных систем геомониторинга с помощью нейронных сетей
Другие названия:	Regression analysis of geomonitoring systems database text ranking algorithm using neural networks
Авторы:	Тарков, Михаил Сергеевич Кожушко, Оюна Алексеевна
Ключевые слова:	базы данных; геомониторинг; алгоритмы; текстовое ранжирование; регрессионный анализ; факторный анализ; классификация; кластеризация; нейронные сети; сеть Кохонена; персептроны; geomonitoring systems databases; text ranking algorithm; regression analysis; factor analysis; classification; clustering; neural networks; Kohonen network; multilayer perceptron
Дата публикации:	2015
Издатель:	Томский политехнический университет
Библиографическое описание:	Тарков М. С. Регрессионный анализ алгоритма ранжирования результатов текстового поиска в базах данных систем геомониторинга с помощью нейронных сетей / М. С. Тарков, О. А. Кожушко // Известия Томского политехнического университета [Известия ТПУ]. — 2015. — Т. 326, № 7 : Инжиниринг георесурсов. — [С. 36-43].
Аннотация:	Актуальность исследования обусловлена необходимостью изучения поведения алгоритмов текстового ранжирования. Практическую ценность исследование представляет для разработчиков поисковых систем, в том числе при решении задач распознавания и адаптивной классификации объектов по данным спутниковых систем геомониторинга. Цель исследования: изучение нейросетевой модели алгоритма ранжирования текстовых документов в базах данных систем геомониторинга, построенной на основе использования сети Кохонена, многослойных персептронов и метода кластеризации k-means. Методы исследования: программная реализация и тестирование нейросетевых алгоритмов ранжирования путем сравнения результатов их работы с результатами классического алгоритма ранжирования OkapiBm25. Результаты исследования. Предложен алгоритм идентификации систем текстового поиска в базах данных систем геомониторинга, построенный на основе нейросетевых моделей обработки данных и включающий факторный и регрессионный анализ данных. Факторный анализ включает кластеризацию данных на основе использования сети Кохонена. Для упрощения обучения разработан алгоритм факторного анализа, исключающий малозначимые для ранжирования характеристики. Результатом работы моделей является набор значимых при ранжировании характеристик и их оптимальные значения. Для проведения регрессионного анализа предлагается использовать одну из двух нейросетевых моделей: на основе гибридной нейронной сети или на основе комплекса многослойных персептронов. Выбор модели регрессионного анализа осуществляется на основе результатов кластерного и факторного анализа. В случае выделения большого числа кластеров входных векторов предпочтительнее использование модели на основе гибридной нейронной сети. В случае слабых пересечений наборов значимых характеристик между кластерами предпочтительнее использование модели на основе комплекса многослойных персептронов. Результаты тестирования алгоритма показывают успешное обучение моделей и низкие значения ошибок обучения и тестирования. Предложенные модели апробированы на тестовых данных алгоритма семейства OkapiBm25, и выявлены особенности их применения в зависимости от характеристик входных данных. The relevance of the discussed issue is caused by the need to investigate the behavior of test ranking algorithms. The practical value of the research consists in searching for engines developers including the solution of problems of recognition and adaptive classification of objects according to satellite geomonitoring systems. The main aim of the study is to investigate a neural network model of the geomonitoring database text documents ranking algorithm. The model is built on the basis of Kohonen network, multilayer perceptrons, and k-means clustering method. The methods used in the study: software implementation and testing of the neural network ranking algorithms by comparing their work results with the results of the classical ranking algorithm OkapiBm25. The results. The authors have proposed the algorithm, built on the basis of the neural network models of data processing and comprising factor and regression analysis, for the geomonitoring database text retrieval systems identification. Factor analysis includes data clustering based on the use of Kohonen network. To simplify the learning, the factor analysis algorithm is developed to eliminate the characteristics irrelevant to rank. The result the models operation is a set of important ranking characteristics and their optimal values. To perform a regression analysis, it is proposed to use one of two neural network models based on a hybrid neural network or a multilayer perceptrons complex. The regression analysis model is selected on the base of the cluster and factor analysis results. In the case of allocating a large number of the input vectors clusters, a neural network hybrid model is preferable. In the case of the weak intersections between the clusters sets of the significant characteristics, a model based on a set of multilayer perceptrons is preferable. The algorithm testing results show the successful models learning and the low training and testing error values. The proposed models are approved on the OkapiBm25 algorithm's test data, and their application peculiarities are identified depending on the input data characteristics.
URI:	http://earchive.tpu.ru/handle/11683/5516
ISSN:	1684-8519
Располагается в коллекциях:	Известия Томского политехнического университета. Инжиниринг георесурсов

Файлы этого ресурса:

Файл	Описание	Размер	Формат
bulletin_tpu-2015-326-7-04.pdf		197,87 kB	Adobe PDF	Просмотреть/Открыть

Показать полное описание ресурса Статистика

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.