Журналы
Email: Пароль: Войти Регистрация
В статье описывается алгоритм кластеризации узко-тематических коллекций коротких текстов, основанный на модификации алгоритма k-средних и предварительном сужениии пространства кластеризации. Предлагаемый подход был протестирован на коллекциях: CICling – 2002 и SEPLIN-CICling. Полученные результаты представлены в данной работе.

In this paper, we describe the algorithm of narrow-domain short texts clustering, which is based on terms’ selection and modification of k-means algorithm. Our approach was tested on collections: CICling – 2002 and SEPLIN-CICling. Results of tests and conclusions are presented.

Ключевые слова: информационный поиск, кластеризация текстовых коллекций, узкотематические коллекции, короткие тексты, алгоритм k-средних, генетические алгоритмы.
Keywords: information retrieval, texts clustering, narrow-domain short texts clustering, k-means, genetic algorithm.
Для пополнения баланса выберите страну, оператора и отправьте СМС с кодом на указанный номер. Отправив одну смс, вы получаете доступ к одной статье.
Закрыть