Поисковые системы и неуникальный контент. Часть 2.
В свое время я обещал рассказать о таком способе определения нечетких дублей текстов как метод описательных слов. По данным разведки что-то похожее использует яндекс, так что иметь представление об этом методе определенно стОит. Как и в прошлый раз по шагам объясню как работает этот метод:
- Берем все множество слов встречающихся в веб-документах.
- Выкидываем из этого множества слов некий список слов не несущих смысла а также прилагательные. Вот этот момент я, кстати, не совсем допонял. Почему это прилагательные не несут смысла? Ну да ладно…
- Лемматизируем полученные слова (приводим к словарному виду).
- Выкидываем слишком редко встречающиеся слова (в основном всякие специфические термины) и слишком часто встречающиеся слова. В результате должен остаться список примерно из нескольких тысяч слов.
- Для каждого слова устанавливаем некое предельное значение частоты появления в тексте данного слова.
- Берем двоичную последовательность с количеством разрядов равным количеству слов в списке. Устанавливаем значение разряда в 1 если частота появления соответствующего слова в анализируемом тексте превышает предельно допустимую. В противном случае этот разряд устанавливается в 0.
В итоге для каждого анализируемого текста мы получаем описывающую его двоичную последовательность, довольно таки устойчивую к незначительным изменениям в тексте.
О чем следует помнить человеку занимающемуся рерайтингом или уникализацией текстов с учетом этого метода?
- Переставлять местами слова/предложения/абзацы не имеет смысла, ибо состав слов в тексте от этого не меняется.
- Всевозможные манипуляции с прилагательными также не дадут эффекта, так как они просто не учитываются.
В общем получается так, что надо сконцентрироваться на синонимизации существительных и глаголов. Но это отдельная песня, так как я подозреваю, что у яндекса с синонимизацией тоже все в порядке
Борьба с русским языком при помощи плагина RusToLat.
Я думаю что каждый более-менее продвинутый русскоязычный блогер использующий WordPress знаком с плагином RusToLat. Нужен он для автоматического преобразования урлов из кириллицы в транслит. Кто-то считает что плагин архиполезный, кто-то наоборот, считает что он нафиг не нужен. На самом деле ПС отлично понимают кириллические урлы, так что единственная проблема, на первый взгляд, это ужасный вид урл-кодированных ссылок, что вполне можно пережить. Так что до поры до времени я забивал на этот плагин. До поры до времени, ага, пока не начал добавлять такие сайты в sape. И тут меня ждало жестокое разочарование. Оказалось, что запрос, который формирует сапа для проверки страницы на проиндексированность яндексом, отрабатывается криво в случае с урлами вида «длинное-предлинное-название-раздела/еще-более-длинное-название-статьи». Происходит так, скорее всего, из-за того что запрос оказывается слишком длинным в результате урл-кодирования. В общем получается что проиндексированные страницы в сапе определяются как непроиндексированные. Так что, граждане начинающие саперы, не повторяйте моих ошибок, ставьте RusToLat до добавления контента на сайт
Так вот, о чем это я… Значит решил я заюзать этот плагин на некоторых своих сайтах, на этом блоге в том числе. Вскоре после начала использования обнаружил несколько подводных граблей, а именно:
- У старых постов урлы не меняются, надо менять вручную. Так что если на сайте уже туча постов, то придется или оставить эту затею или писать скрипт автоматизирующий процесс.
- Как выяснилось, старые русские урлы остаются доступными даже после перевода на транслит.
И если первая проблема меня не особо напрягла, так как записей пришлось переправлять не так уж и много, то со второй пришлось повозиться.
Засада заключается в том, что все эти страницы с русскими урлами уже висят в индексе яши и гугла. А что сделают поисковики с новыми урлами после того как на них наткнутся? Правильно, они приклеят их нафиг к старым и будут правы, ибо 100% дублирование контента.
Стал думать как эту проблему забороть. Варианта придумалось только два: поставить на каждую старую страницу редирект 301 или же просто сделать недоступными старые урлы, после чего они должны будут выпасть из индекса освободив место новым. Выбрал второй способ как более простой, просто добавил в htaccess строку
RedirectMatch /2009/0[6-8]/[0-9][0-9]/[^a-z0-9].*/$ http://seocase.ru/404
То есть все мои старые посты у которых часть урла соответствующая названию начинается не с латинской буквы и не с цифры редиректятся на несуществующий seocase.ru/404. Может быть решение и корявое, но сработать должно
Кто здесь?!
На днях сижу я значит и лениво тыкаю мышкой в разные кнопки и ссылки на экране. Мозги отдыхают после создания очередной порции рерайта. От нечего делать ткнулся в ссылку FeedBurner’а и обнаружил (о ужас!) что мою бредятину кто-то читает
— в статистике образовались некие подписчики. Причем подписчики были уже довольно таки давно, и некоторое время назад их было даже больше чем сейчас.
Обнаружив это я озадачился двумя проблемами. Во-первых, срочно нужно было подвесить счетчик количества подписчиков, чтоб все было как у больших пацанов
Ну а во-вторых, надо было хотя бы вкратце ознакомиться что же это за FeedBerner такой и как оно работает. Почитав про него понял, что не все еще так хорошо, ибо часть подписчиков подписываются на обычную ленту и FeedBerner’ом никак не учитываются. Чтобы забороть эту проблему люди советовали разные способы, в том числе ковыряние шаблона и установка 301 редиректа на фид в htaccess. В итоге решение оказалось на редкость незатейливым. Есть официальный плагин под WordPress под названием FeedBurner FeedSmith, который можно найти в гугл хелпе:
Google Help › FeedBurner Help › Getting Started › QuickStart Guides for Blogger, WordPress, TypePad, MySpace, Podcasting › WordPress.
Разработчики уверяют что будут учитываться 100% подписчиков. Вот так, и никакого какерства
Автоматическая переиндексация и цены в Sape.
Блин, это мне кажется, или после того как в сапе все разом начали давить волшебную кнопку переиндексации средние цены по системе немного просели? Забавно
Автоматическая переиндексация в Sape.
Только я, значит, хотел заслать один из своих сайтов на переиндексацию, как соответствующая кнопочка появилась прямо в интерфейсе. И не надо никаких писем по обратной связи. Как говорит Эрик Картман — щикаааарно
Надо незамедлительно протестить.
