Гугл попал на деньги.
Ну вот, не прошло и десяти дней как какой-то добрый человек кликнул по объявлению AdSense на моем сайте. Теперь гугл должен мне денег, целых 9 центов
Ахтунг! AdSense – палево!
Устанавливая код AdSense на свой сайт подумал одну мысль, которая раньше мне в голову как-то не приходила – ведь идентификатор пользователя в открытом виде есть в коде страницы и доступен всем и каждому. То есть при желании кто угодно, от поисковых систем до просто любознательных граждан, может легко спалить сетку сайтов на которых установлен AdSense. Вроде бы даже сервис такой есть. Много думал об этом…
Google AdSense
Решил я таки пощупать за вымя этот самый Google AdSense. Щупать буду посредством одного из своих сайтов. Причем сайт был выбран не первый попавшийся, а особенный. От остальных моих говнотворений он выгодно отличается 100% уникальным контентом, причем достатоно интересным, так как контент был получен путем перевода статей и новостей с инглиша.
Хотя… все было совсем наоборот
Именно наблюдение за этим сайтом натолкнуло меня на мысль попробовать контекст. Просто в последнее время на нем наблюдается небольшой поисковый трафик, и народ даже пытается комментировать статьи и новости (совсем с ума посходили, я тут на ссылках зарабытваю, а они со своими комментами лезут
).
Конечно в отдаленной перспективе кучка белых и пушистых сайтов зарабатывающих на контексте выглядит куда как интереснее, чем толпа говносателлитов, так что будем посмотреть.
Пока что гугль обещал подумать о моем сайте и чиркануть письмецо на днях. Ждем-с…
Поисковые системы и неуникальный контент. Часть 2.
В свое время я обещал рассказать о таком способе определения нечетких дублей текстов как метод описательных слов. По данным разведки что-то похожее использует яндекс, так что иметь представление об этом методе определенно стОит. Как и в прошлый раз по шагам объясню как работает этот метод:
- Берем все множество слов встречающихся в веб-документах.
- Выкидываем из этого множества слов некий список слов не несущих смысла а также прилагательные. Вот этот момент я, кстати, не совсем допонял. Почему это прилагательные не несут смысла? Ну да ладно…
- Лемматизируем полученные слова (приводим к словарному виду).
- Выкидываем слишком редко встречающиеся слова (в основном всякие специфические термины) и слишком часто встречающиеся слова. В результате должен остаться список примерно из нескольких тысяч слов.
- Для каждого слова устанавливаем некое предельное значение частоты появления в тексте данного слова.
- Берем двоичную последовательность с количеством разрядов равным количеству слов в списке. Устанавливаем значение разряда в 1 если частота появления соответствующего слова в анализируемом тексте превышает предельно допустимую. В противном случае этот разряд устанавливается в 0.
В итоге для каждого анализируемого текста мы получаем описывающую его двоичную последовательность, довольно таки устойчивую к незначительным изменениям в тексте.
О чем следует помнить человеку занимающемуся рерайтингом или уникализацией текстов с учетом этого метода?
- Переставлять местами слова/предложения/абзацы не имеет смысла, ибо состав слов в тексте от этого не меняется.
- Всевозможные манипуляции с прилагательными также не дадут эффекта, так как они просто не учитываются.
В общем получается так, что надо сконцентрироваться на синонимизации существительных и глаголов. Но это отдельная песня, так как я подозреваю, что у яндекса с синонимизацией тоже все в порядке
Борьба с русским языком при помощи плагина RusToLat.
Я думаю что каждый более-менее продвинутый русскоязычный блогер использующий WordPress знаком с плагином RusToLat. Нужен он для автоматического преобразования урлов из кириллицы в транслит. Кто-то считает что плагин архиполезный, кто-то наоборот, считает что он нафиг не нужен. На самом деле ПС отлично понимают кириллические урлы, так что единственная проблема, на первый взгляд, это ужасный вид урл-кодированных ссылок, что вполне можно пережить. Так что до поры до времени я забивал на этот плагин. До поры до времени, ага, пока не начал добавлять такие сайты в sape. И тут меня ждало жестокое разочарование. Оказалось, что запрос, который формирует сапа для проверки страницы на проиндексированность яндексом, отрабатывается криво в случае с урлами вида «длинное-предлинное-название-раздела/еще-более-длинное-название-статьи». Происходит так, скорее всего, из-за того что запрос оказывается слишком длинным в результате урл-кодирования. В общем получается что проиндексированные страницы в сапе определяются как непроиндексированные. Так что, граждане начинающие саперы, не повторяйте моих ошибок, ставьте RusToLat до добавления контента на сайт
Так вот, о чем это я… Значит решил я заюзать этот плагин на некоторых своих сайтах, на этом блоге в том числе. Вскоре после начала использования обнаружил несколько подводных граблей, а именно:
- У старых постов урлы не меняются, надо менять вручную. Так что если на сайте уже туча постов, то придется или оставить эту затею или писать скрипт автоматизирующий процесс.
- Как выяснилось, старые русские урлы остаются доступными даже после перевода на транслит.
И если первая проблема меня не особо напрягла, так как записей пришлось переправлять не так уж и много, то со второй пришлось повозиться.
Засада заключается в том, что все эти страницы с русскими урлами уже висят в индексе яши и гугла. А что сделают поисковики с новыми урлами после того как на них наткнутся? Правильно, они приклеят их нафиг к старым и будут правы, ибо 100% дублирование контента.
Стал думать как эту проблему забороть. Варианта придумалось только два: поставить на каждую старую страницу редирект 301 или же просто сделать недоступными старые урлы, после чего они должны будут выпасть из индекса освободив место новым. Выбрал второй способ как более простой, просто добавил в htaccess строку
RedirectMatch /2009/0[6-8]/[0-9][0-9]/[^a-z0-9].*/$ http://seocase.ru/404
То есть все мои старые посты у которых часть урла соответствующая названию начинается не с латинской буквы и не с цифры редиректятся на несуществующий seocase.ru/404. Может быть решение и корявое, но сработать должно

