Что такое Шингл ?

Шингл — это основа достоверного и надежного способа проверки уникальности текста. Впервые он был открыт сотрудником Yahoo Andrei Broder в 1997 году. На сегодняшний день вопрос уникальности контента актуален как никогда, поэтому система шинглов применяется как в онлайн-сервисах, так и в программах.

Текст. Небольшой отрезок текста это и есть шингл. Он состоит из нескольких слов и обрабатывается канонизацией. В процессе из текста убираются служебные слова, те которые не несут смысла.

Составление. После удаления служебных слов отрывок делится на шинглы, которые могут быть длиной от 3 до 8 слов. Оптимальный вариант — захватывать хотя бы одно слово из следующего, и тогда проверка будет более тщательной. Например, здесь перечень большого, а второй шингл — перечень большего количества и большого количества поселков.

Алгоритм работы. После этого проводится процедура определения дубликатов. Обмануть такой метод сложно, поэтому по-настоящему эффективны только уникальные статьи. Можно использовать и другие методы, но риск возрастет.