Кто здесь?!
На днях сижу я значит и лениво тыкаю мышкой в разные кнопки и ссылки на экране. Мозги отдыхают после создания очередной порции рерайта. От нечего делать ткнулся в ссылку FeedBurner’а и обнаружил (о ужас!) что мою бредятину кто-то читает
— в статистике образовались некие подписчики. Причем подписчики были уже довольно таки давно, и некоторое время назад их было даже больше чем сейчас.
Обнаружив это я озадачился двумя проблемами. Во-первых, срочно нужно было подвесить счетчик количества подписчиков, чтоб все было как у больших пацанов
Ну а во-вторых, надо было хотя бы вкратце ознакомиться что же это за FeedBerner такой и как оно работает. Почитав про него понял, что не все еще так хорошо, ибо часть подписчиков подписываются на обычную ленту и FeedBerner’ом никак не учитываются. Чтобы забороть эту проблему люди советовали разные способы, в том числе ковыряние шаблона и установка 301 редиректа на фид в htaccess. В итоге решение оказалось на редкость незатейливым. Есть официальный плагин под WordPress под названием FeedBurner FeedSmith, который можно найти в гугл хелпе:
Google Help › FeedBurner Help › Getting Started › QuickStart Guides for Blogger, WordPress, TypePad, MySpace, Podcasting › WordPress.
Разработчики уверяют что будут учитываться 100% подписчиков. Вот так, и никакого какерства
Автоматическая переиндексация и цены в Sape.
Блин, это мне кажется, или после того как в сапе все разом начали давить волшебную кнопку переиндексации средние цены по системе немного просели? Забавно
Автоматическая переиндексация в Sape.
Только я, значит, хотел заслать один из своих сайтов на переиндексацию, как соответствующая кнопочка появилась прямо в интерфейсе. И не надо никаких писем по обратной связи. Как говорит Эрик Картман — щикаааарно
Надо незамедлительно протестить.
Поисковые системы и неуникальный контент. Часть 1.
Занявшись вопросом отношения ПС к неуникальному контенту, решил изучить алгоритмы, при помощи которых определяются нечеткие дубликаты текстов. Ибо чтобы грамотно рерайтить текст, необходимо понимать как поисковые системы потом будут эти тексты сравнивать. С четкими-то дублями все понятно — посчитал с обоих текстов хэш, если хэши совпали, значит дубль. А вот с нечеткими дублями все немного сложнее.
Итак, один из самых известных методов определения нечетких дубликатов — это метод шинглов. Работает он следующим образом:
- Из исходных текстов удаляются все знаки препинания.
- Удаляются html-теги (если они там есть, конечно).
- Удаляются всевозможные спецсимволы, типа перевода строки.
- Также удаляется некоторый набор «стоп слов» (в основном всякие там «и», «а», «но» и прочая ботва).
- Все символы приводятся к одному регистру.
- Проводится так называемая лемматизация, то есть слова приводятся к их базовой, словарной форме. Есть подозрение что на самом деле от слов тупо отсекаются все приставки и суффиксы, оставляя только корень.
После всех этих манипуляций мы получаем строку символов одного регистра представляющую из себя последовательность слов в их базовой форме. Далее эта строка разбивается на те самые шинглы (шингл, в переводе с какого-то нерусского языка, означает то ли чешую, то ли черепицу). То есть сначала берутся слова с 1 по 10, это будет первый шингл. Потом с 2 по 11, это второй шингл. И так далее. Стандартным размером шингла считается именно 10 слов. В результате мы получаем некоторый набор шинглов для каждого текста, и если достаточно большое количество шинглов у двух текстов совпадают, значит эти два текста являются нечеткими дублями. В общем-то все довольно просто.
В реальности это все работает немного по-другому. Во-первых, длина шингла может меняться в зависимости от объема текста. Во-вторых, манипуляции с шинглами происходят не в виде строк, т.к. работа со строками довольно ресурсоемкая штука. Вместо этого манипулируют хэшами этих строк, которые предварительно высчитываются. Ну и в-третьих, для экономии ресурсов шинглы сравниваются не «каждый с каждым», а выбираются только хэши делящиеся без остатка на некоторое число, к примеру на 10. То есть по сути, в этом случае, в сравнении участвует только каждый десятый шингл. Но при этом совпадение даже одного шингла уже повод задуматься об уникальности текста. Количество шинглов участвующих в сравнении скорее всего тоже зависит от объема текста.
Поняв алгоритм шинглов, обмануть его не составляет труда. Нужно всего лишь не оставлять слишком длинных неизмененных последовательностей слов в ходе рерайта. При этом не стоит забывать о знаках препинания, стоп словах и регистре символов, а точнее о том, что они не играют никакой роли при сравнении
Я даже немного расстроился, когда узнал что яндекс нифига не использует шинглы. А-то я уже прикидывал как автоматизировать процесс рерайта
Вместо шинглов яндекс использует свой алгоритм, о котором я мало что нашел. Но судя по всему этот алгоритм активно использует другой известный метод определения нечетких дублей — так называемый метод описательных слов. О нем я как-нибудь в другой раз напишу
Английский язык и уникальный контент.
Переводы с других языков (прежде всего с английского) — давно известный способ получения уникального контента. Плюсы и минусы его тоже все знают. Контент получается качественным и абсолютно уникальным, но способ этот трудоемкий (или же дорогой, если заказывать).
Опробовал его и я на одном сайте. Английский у меня, на самом деле, так себе. Как я обычно пишу в резюме — «технический»
Но это не помешало мне вполне так бодро перевести несколько статей и новостей. По ходу дела подумал одну мысль — ведь для человека с достаточным уровнем инглиша перевести статью или новость проще, чем ее зарерайтить, не говоря уже о копирайте. И в его распоряжении целое море буржунетовского контента… Так, где-то там у меня учебник валялся, надо бы освежить
Одно обидно, слишком уж хороший контент получается, как-то даже жалко на сателиты пускать
