Поисковые системы и неуникальный контент. Часть 2.

Август 30, 2009 | Case · Оставить комментарий

В свое время я обещал рассказать о таком способе определения нечетких дублей текстов как метод описательных слов. По данным разведки что-то похожее использует яндекс, так что иметь представление об этом методе определенно стОит. Как и в прошлый раз по шагам объясню как работает этот метод:

  1. Берем все множество слов встречающихся в веб-документах.
  2. Выкидываем из этого множества слов некий список слов не несущих смысла а также прилагательные. Вот этот момент я, кстати, не совсем допонял. Почему это прилагательные не несут смысла? Ну да ладно…
  3. Лемматизируем полученные слова (приводим к словарному виду).
  4. Выкидываем слишком редко встречающиеся слова (в основном всякие специфические термины) и слишком часто встречающиеся слова. В результате должен остаться список примерно из нескольких тысяч слов.
  5. Для каждого слова устанавливаем некое предельное значение частоты появления в тексте данного слова.
  6. Берем двоичную последовательность с количеством разрядов равным количеству слов в списке. Устанавливаем значение разряда в 1 если частота появления соответствующего слова в анализируемом тексте превышает предельно допустимую. В противном случае этот разряд устанавливается в 0.

В итоге для каждого анализируемого текста мы получаем описывающую его двоичную последовательность, довольно таки устойчивую к незначительным изменениям в тексте.

О чем следует помнить человеку занимающемуся рерайтингом или уникализацией текстов с учетом этого метода?

  • Переставлять местами слова/предложения/абзацы не имеет смысла, ибо состав слов в тексте от этого не меняется.
  • Всевозможные манипуляции с прилагательными также не дадут эффекта, так как они просто не учитываются.

В общем получается так, что надо сконцентрироваться на синонимизации существительных и глаголов. Но это отдельная песня, так как я подозреваю, что у яндекса с синонимизацией тоже все в порядке ;)

Борьба с русским языком при помощи плагина RusToLat.

Август 21, 2009 | Case · Оставить комментарий

Я думаю что каждый более-менее продвинутый русскоязычный блогер использующий WordPress знаком с плагином RusToLat. Нужен он для автоматического преобразования урлов из кириллицы в транслит. Кто-то считает что плагин архиполезный, кто-то наоборот, считает что он нафиг не нужен. На самом деле ПС отлично понимают кириллические урлы, так что единственная проблема, на первый взгляд, это ужасный вид урл-кодированных ссылок, что вполне можно пережить. Так что до поры до времени я забивал на этот плагин. До поры до времени, ага, пока не начал добавлять такие сайты в sape. И тут меня ждало жестокое разочарование. Оказалось, что запрос, который формирует сапа для проверки страницы на проиндексированность яндексом, отрабатывается криво в случае с урлами вида «длинное-предлинное-название-раздела/еще-более-длинное-название-статьи». Происходит так, скорее всего, из-за того что запрос оказывается слишком длинным в результате урл-кодирования. В общем получается что проиндексированные страницы в сапе определяются как непроиндексированные. Так что, граждане начинающие саперы, не повторяйте моих ошибок, ставьте RusToLat до добавления контента на сайт :)

Так вот, о чем это я… Значит решил я заюзать этот плагин на некоторых своих сайтах, на этом блоге в том числе. Вскоре после начала использования обнаружил несколько подводных граблей, а именно:

  1. У старых постов урлы не меняются, надо менять вручную. Так что если на сайте уже туча постов, то придется или оставить эту затею или писать скрипт автоматизирующий процесс.
  2. Как выяснилось, старые русские урлы остаются доступными даже после перевода на транслит.

И если первая проблема меня не особо напрягла, так как записей пришлось переправлять не так уж и много, то со второй пришлось повозиться.

Засада заключается в том, что все эти страницы с русскими урлами уже висят в индексе яши и гугла. А что сделают поисковики с новыми урлами после того как на них наткнутся? Правильно, они приклеят их нафиг к старым и будут правы, ибо 100% дублирование контента.

Стал думать как эту проблему забороть. Варианта придумалось только два: поставить на каждую старую страницу редирект 301 или же просто сделать недоступными старые урлы, после чего они должны будут выпасть из индекса освободив место новым. Выбрал второй способ как более простой, просто добавил в htaccess строку

RedirectMatch /2009/0[6-8]/[0-9][0-9]/[^a-z0-9].*/$ http://seocase.ru/404

То есть все мои старые посты у которых часть урла соответствующая названию начинается не с латинской буквы и не с цифры редиректятся на несуществующий seocase.ru/404. Может быть решение и корявое, но сработать должно :)

Кто здесь?!

Август 14, 2009 | Case · Оставить комментарий

На днях сижу я значит и лениво тыкаю мышкой в разные кнопки и ссылки на экране. Мозги отдыхают после создания очередной порции рерайта. От нечего делать ткнулся в ссылку FeedBurner’а и обнаружил (о ужас!) что мою бредятину кто-то читает :) – в статистике образовались некие подписчики. Причем подписчики были уже довольно таки давно, и некоторое время назад их было даже больше чем сейчас.

Обнаружив это я озадачился двумя проблемами. Во-первых, срочно нужно было подвесить счетчик количества подписчиков, чтоб все было как у больших пацанов :) Ну а во-вторых, надо было хотя бы вкратце ознакомиться что же это за FeedBerner такой и как оно работает. Почитав про него понял что не все еще так хорошо, ибо часть подписчиков подписываются на обычную ленту и FeedBerner’ом никак не учитываются. Чтобы забороть эту проблему люди советовали разные способы, в том числе ковыряние шаблона и установка 301 редиректа на фид в htaccess. В итоге решение оказалось на редкость незатейливым. Есть официальный плагин под WordPress под названием FeedBurner FeedSmith, который можно найти в гугл хелпе:

Google Help › FeedBurner Help › Getting Started › QuickStart Guides for Blogger, WordPress, TypePad, MySpace, Podcasting › WordPress.

Разработчики уверяют что будут учитываться 100% подписчиков. Вот так, и никакого какерства :)

Финансовые цели.

Август 13, 2009 | Case · Оставить комментарий

В виду того, что до штуки баксов в месяц мне еще вджобывать и вджобывать, я решил пока поставить еще парочку финансовых целей попроще. В целом финансовые ориентиры на ближайшее будущее выглядят вот так:

  1. Добиться самообеспечения моих проектов. То есть доходы с них должны покрывать расходы на хостинг, раскрутку и закупку/продление доменов. На самом деле это довольно важная цель, достигнув ее мне не придется больше закидывать бабло из оффлайна.
  2. Выйти в ноль. Общая сумма всех моих доходов с начала сео-деятельности должна сравнятся с общей суммой расходов за это время, ну и превысить ее, естественно. Это тоже будет важный момент, означающий, что я не зря все это затеял :)
  3. Ну и $100 в месяц, эту цель тоже никто не отменял :)

Сферический сайт в вакууме.

Август 12, 2009 | Case · Оставить комментарий

В свое время я пытался подсчитать, сколько же и каких сайтов мне надо чтобы добраться до заветной штуки баксов в месяц. Получалось 50 сайтов по 100 страниц каждый. Но суровая сео-жизнь показывает, что эти чисто теоретические рассуждения далеки от реальности. Основываясь на своем, и не только своем опыте я понял, что с нулевого сайта объемом примерно 100 страниц реально можно получить что-то около 10 рублей в день. Это так, в среднем. Следовательно, для штуки баксов мне нужно уже 100 таких сайтов. А 100 сайтов, это совсем не 50 сайтов, это в два раза больше :?

Отсюда все серьезнее задумываюсь о предварительной прокачке сайтов в плане ТИЦ и PR. Иначе для нормально дохода мне придется поддерживать сотни говносателлитов. А это явно будет занимать кучу времени, даже если автоматизировать часть процессов.

Страница 1 из 212