Начальная страница/First page:
Краткое описание:
В данной статье рассматриваются методы по определению дублирования документов с целью недопущения их включения в коллекции; анализируются подходы для поиска нечетких дубликатов на основе метода шинглов с целью определения спама в электронной почте, поиска плагиата, очистки коллекций документов от дубликатов. В данной работе представлен разбор методики реализации и выбора параметров алгоритма шинглов, выработаны критерии для выбора функции контрольных сумм (сигнатур), разработана программа для определения дубликатов, предложены критерии выбора параметров оптимизации алгоритма шинглов с применением MinHash и алгоритма супершинглов.
Short description:
This article discusses the methods for identifying duplicate documents to prevent their inclusion into collections; it also analyses the approaches for fi nding near-duplicate documents based on the method of shingles to determine spam e-mail, search of plagiarism, to clean collections’ documents from duplicates. This paper also presents analysis methods and parameter selection of shingle algorithm, criteria of the checksums (signatures) selection. There was developed a program for identifying duplicates, and proposed the criteria for selecting the optimization algorithm of shingles with using MinHash and supershingles algorithm.