Кластеризация документов – задача объединения текстов по группам таким образом, что все тексты в одной группе обладают некоторыми общими свойствами (принадлежат одному автору, являются текстами одного жанра и др.). Эта задача становится особенно важной по причине стремительно возрастающего количества документов в оцифрованном виде.
Для решения задачи кластеризации исследована новая метрика сравнения почерков, основанная на Графах Отношения Особенностей (далее ГОО). Эта метрика успешно зарекомендовала себя при решении тексто-независимой задачи определения автора персидской рукописи на основе почерка.
Особенности, основанные на локальных шаблонах, извлекаются из рукописных документов с помощью фильтров Габора и X-Габора (XGabor). Извлеченные особенности формируют ГОО.
Исследуется эффективность нескольких наиболее популярных алгоритмов кластеризации для задачи обработки рукописных текстов на русском языке в пространстве ГОО.
В работе приведены численные эксперименты, демонстрирующие эффективность предложенной метрики, а также результаты эффективности применения различных алгоритмов кластеризации. С. 24-35.
Clustering of manuscripts becomes important nowadays because of the rapidly increasing number of documents in digital form. To solve this problem a new metric to compare handwritings based on the Feature Relation Graph (FRG) is investigated.
This metric has demonstrated good results for the problem of text-independent writer recognition of Persian manuscripts on the basis of handwriting.
Features that are based on local templates are extracted from manuscripts using Gabor and XGabor filters.
We study the effectiveness of the most popular clustering algorithms for the problem of Russian manuscripts processing in the phase space of FRG.
The paper presents numerical experiments demonstrating the effectiveness of the proposed metrics.
The results of the various clustering algorithms are also provided.
Ключевые слова: обработка рукописей, русскоязычные тексты, кластеризация текстов, граф отношения особенностей, фильтр Габора.
Keywords: Russian manuscripts, clustering, feature relation graph, Gabor filter.