Поисковые системы и неуникальный контент. Часть 2.

Август 30, 2009 |

В свое время я обещал рассказать о таком способе определения нечетких дублей текстов как метод описательных слов. По данным разведки что-то похожее использует яндекс, так что иметь представление об этом методе определенно стОит. Как и в прошлый раз по шагам объясню как работает этот метод:

  1. Берем все множество слов встречающихся в веб-документах.
  2. Выкидываем из этого множества слов некий список слов не несущих смысла а также прилагательные. Вот этот момент я, кстати, не совсем допонял. Почему это прилагательные не несут смысла? Ну да ладно…
  3. Лемматизируем полученные слова (приводим к словарному виду).
  4. Выкидываем слишком редко встречающиеся слова (в основном всякие специфические термины) и слишком часто встречающиеся слова. В результате должен остаться список примерно из нескольких тысяч слов.
  5. Для каждого слова устанавливаем некое предельное значение частоты появления в тексте данного слова.
  6. Берем двоичную последовательность с количеством разрядов равным количеству слов в списке. Устанавливаем значение разряда в 1 если частота появления соответствующего слова в анализируемом тексте превышает предельно допустимую. В противном случае этот разряд устанавливается в 0.

В итоге для каждого анализируемого текста мы получаем описывающую его двоичную последовательность, довольно таки устойчивую к незначительным изменениям в тексте.

О чем следует помнить человеку занимающемуся рерайтингом или уникализацией текстов с учетом этого метода?

  • Переставлять местами слова/предложения/абзацы не имеет смысла, ибо состав слов в тексте от этого не меняется.
  • Всевозможные манипуляции с прилагательными также не дадут эффекта, так как они просто не учитываются.

В общем получается так, что надо сконцентрироваться на синонимизации существительных и глаголов. Но это отдельная песня, так как я подозреваю, что у яндекса с синонимизацией тоже все в порядке ;)

Комментарии

2 Комментариев на Поисковые системы и неуникальный контент. Часть 2.

  1. seoinsite.ru
    11 Сен 2011 05:59
  2. С появлением АГС от Яндекса страницы из-за неуникального контента вылетают с выдачи. Поэтому только уник, рерайт, копирайт без разницы, но только не копи-паст.

  3. Case
    21 Ноя 2011 00:04
  4. АГС оценивает сайт более чем по сотне разных параметров. И под него попадает сайт целиком, а не отдельные страницы.

Оставьте комментарий: