Поисковые системы и неуникальный контент. Часть 2.
В свое время я обещал рассказать о таком способе определения нечетких дублей текстов как метод описательных слов. По данным разведки что-то похожее использует яндекс, так что иметь представление об этом методе определенно стОит. Как и в прошлый раз по шагам объясню как работает этот метод:
- Берем все множество слов встречающихся в веб-документах.
- Выкидываем из этого множества слов некий список слов не несущих смысла а также прилагательные. Вот этот момент я, кстати, не совсем допонял. Почему это прилагательные не несут смысла? Ну да ладно…
- Лемматизируем полученные слова (приводим к словарному виду).
- Выкидываем слишком редко встречающиеся слова (в основном всякие специфические термины) и слишком часто встречающиеся слова. В результате должен остаться список примерно из нескольких тысяч слов.
- Для каждого слова устанавливаем некое предельное значение частоты появления в тексте данного слова.
- Берем двоичную последовательность с количеством разрядов равным количеству слов в списке. Устанавливаем значение разряда в 1 если частота появления соответствующего слова в анализируемом тексте превышает предельно допустимую. В противном случае этот разряд устанавливается в 0.
В итоге для каждого анализируемого текста мы получаем описывающую его двоичную последовательность, довольно таки устойчивую к незначительным изменениям в тексте.
О чем следует помнить человеку занимающемуся рерайтингом или уникализацией текстов с учетом этого метода?
- Переставлять местами слова/предложения/абзацы не имеет смысла, ибо состав слов в тексте от этого не меняется.
- Всевозможные манипуляции с прилагательными также не дадут эффекта, так как они просто не учитываются.
В общем получается так, что надо сконцентрироваться на синонимизации существительных и глаголов. Но это отдельная песня, так как я подозреваю, что у яндекса с синонимизацией тоже все в порядке
Комментарии
2 Комментариев на Поисковые системы и неуникальный контент. Часть 2.
-
Case
21 Ноя 2011 00:04
С появлением АГС от Яндекса страницы из-за неуникального контента вылетают с выдачи. Поэтому только уник, рерайт, копирайт без разницы, но только не копи-паст.
АГС оценивает сайт более чем по сотне разных параметров. И под него попадает сайт целиком, а не отдельные страницы.
Оставьте комментарий:

11 Сен 2011 05:59