Небольшой эксперимент с биржами контента

Март 15, 2011 | · 2 Комментариев

В последнее время, кроме всего остального, я довольно активно занимаюсь продажей статей на биржах контента. В основном пользуюсь textsale, которая, насколько я знаю, является старейшей и крупнейшей биржей контента в рунете. То что старейшая — это наверняка, стоит только взглянуть на их убогий сайт, так делали сайты лет 10 назад :)

Но одной биржи мне стало мало, и я решил пощупать за вымя несколько других, достаточно известных в этой области сервисов. А именно:

  • advego.ru
  • copylancer.ru
  • etxt.ru

Методика прощупывания была следующей: на каждом сервисе я зарегал по новому аккаунту, выставил на продажу 15 статей разных тематик (для чистоты эксперимента статьи были одни и те же) и стал ждать результата. Чистота эксперимента была нарушена лишь в одном — на copylancer нельзя назначать цену на статью более чем в 2 раза ниже средней, так что статьи там я продавал несколько дороже, чем на остальных двух биржах.

Надо заметить, что с точки зрения продажи готовых статей все эти сервисы работают по одному алгоритму:

  1. статья проходит автоматическую проверку на уникальность
  2. статья проходит ручную модерацию
  3. если все нормально — статья выставляется на продажу

Где-то через неделю после выставления на продажу статей ситуация была следующая:

advego.ru — все статьи в первые день-два прошли проверку на уникальность и модерацию. В течение недели было продано штук 5 статей, или даже больше, не помню уже.
copylancer.ru — все статьи также быстро прошли проверку на уникальность и модерацию. Одну статью забрил модератор с формулировкой «исправьте пунктуационные, стилистические ошибки и опечатки». Скорее всего это у них такая стандартная отписка, потому что опечаток там точно нет. Разбираться же с пунктуационными и стилистическими ошибками был лень, так что эту статью я просто удалил. За неделю не было продано ничего.
etxt.ru — проверка на уникальность прошла быстро, а вот модератора пришлось ждать целую неделю! Не, я понимаю, что в эту неделю попали и выходные и праздники, но другим сервисам это не мешало нормально работать.

Еще через неделю:

advego.ru — продажи идут весьма бодро, докинул еще статей.
copylancer.ru — так ничего и не продал.
etxt.ru — тоже ноль.

Вывод:

advego.ru — рулит.
copylancer.ru — непонятно, то ли продажи идут хреново из-за более высокой цены, то ли там на самом деле все так уныло. Но в любом случае — это сервис не для новичков, ибо демпинг не прокатит.
etxt.ru — УГ.

Поисковые системы и неуникальный контент. Часть 2.

Август 30, 2009 | · 2 Комментариев

В свое время я обещал рассказать о таком способе определения нечетких дублей текстов как метод описательных слов. По данным разведки что-то похожее использует яндекс, так что иметь представление об этом методе определенно стОит. Как и в прошлый раз по шагам объясню как работает этот метод:

  1. Берем все множество слов встречающихся в веб-документах.
  2. Выкидываем из этого множества слов некий список слов не несущих смысла а также прилагательные. Вот этот момент я, кстати, не совсем допонял. Почему это прилагательные не несут смысла? Ну да ладно…
  3. Лемматизируем полученные слова (приводим к словарному виду).
  4. Выкидываем слишком редко встречающиеся слова (в основном всякие специфические термины) и слишком часто встречающиеся слова. В результате должен остаться список примерно из нескольких тысяч слов.
  5. Для каждого слова устанавливаем некое предельное значение частоты появления в тексте данного слова.
  6. Берем двоичную последовательность с количеством разрядов равным количеству слов в списке. Устанавливаем значение разряда в 1 если частота появления соответствующего слова в анализируемом тексте превышает предельно допустимую. В противном случае этот разряд устанавливается в 0.

В итоге для каждого анализируемого текста мы получаем описывающую его двоичную последовательность, довольно таки устойчивую к незначительным изменениям в тексте.

О чем следует помнить человеку занимающемуся рерайтингом или уникализацией текстов с учетом этого метода?

  • Переставлять местами слова/предложения/абзацы не имеет смысла, ибо состав слов в тексте от этого не меняется.
  • Всевозможные манипуляции с прилагательными также не дадут эффекта, так как они просто не учитываются.

В общем получается так, что надо сконцентрироваться на синонимизации существительных и глаголов. Но это отдельная песня, так как я подозреваю, что у яндекса с синонимизацией тоже все в порядке ;)

Поисковые системы и неуникальный контент. Часть 1.

Август 6, 2009 | · Оставить комментарий

Занявшись вопросом отношения ПС к неуникальному контенту, решил изучить алгоритмы, при помощи которых определяются нечеткие дубликаты текстов. Ибо чтобы грамотно рерайтить текст, необходимо понимать как поисковые системы потом будут эти тексты сравнивать. С четкими-то дублями все понятно — посчитал с обоих текстов хэш, если хэши совпали, значит дубль. А вот с нечеткими дублями все немного сложнее.

Итак, один из самых известных методов определения нечетких дубликатов — это метод шинглов. Работает он следующим образом:

  1. Из исходных текстов удаляются все знаки препинания.
  2. Удаляются html-теги (если они там есть, конечно).
  3. Удаляются всевозможные спецсимволы, типа перевода строки.
  4. Также удаляется некоторый набор «стоп слов» (в основном всякие там «и», «а», «но» и прочая ботва).
  5. Все символы приводятся к одному регистру.
  6. Проводится так называемая лемматизация, то есть слова приводятся к их базовой, словарной форме. Есть подозрение что на самом деле от слов тупо отсекаются все приставки и суффиксы, оставляя только корень.

После всех этих манипуляций мы получаем строку символов одного регистра представляющую из себя последовательность слов в их базовой форме. Далее эта строка разбивается на те самые шинглы (шингл, в переводе с какого-то нерусского языка, означает то ли чешую, то ли черепицу). То есть сначала берутся слова с 1 по 10, это будет первый шингл. Потом с 2 по 11, это второй шингл. И так далее. Стандартным размером шингла считается именно 10 слов. В результате мы получаем некоторый набор шинглов для каждого текста, и если достаточно большое количество шинглов у двух текстов совпадают, значит эти два текста являются нечеткими дублями. В общем-то все довольно просто.

В реальности это все работает немного по-другому. Во-первых, длина шингла может меняться в зависимости от объема текста. Во-вторых, манипуляции с шинглами происходят не в виде строк, т.к. работа со строками довольно ресурсоемкая штука. Вместо этого манипулируют хэшами этих строк, которые предварительно высчитываются. Ну и в-третьих, для экономии ресурсов шинглы сравниваются не «каждый с каждым», а выбираются только хэши делящиеся без остатка на некоторое число, к примеру на 10. То есть по сути, в этом случае, в сравнении участвует только каждый десятый шингл. Но при этом совпадение даже одного шингла уже повод задуматься об уникальности текста. Количество шинглов участвующих в сравнении скорее всего тоже зависит от объема текста.

Поняв алгоритм шинглов, обмануть его не составляет труда. Нужно всего лишь не оставлять слишком длинных неизмененных последовательностей слов в ходе рерайта. При этом не стоит забывать о знаках препинания, стоп словах и регистре символов, а точнее о том, что они не играют никакой роли при сравнении :)

Я даже немного расстроился, когда узнал что яндекс нифига не использует шинглы. А-то я уже прикидывал как автоматизировать процесс рерайта ;) Вместо шинглов яндекс использует свой алгоритм, о котором я мало что нашел. Но судя по всему этот алгоритм активно использует другой известный метод определения нечетких дублей — так называемый метод описательных слов. О нем я как-нибудь в другой раз напишу :)

Английский язык и уникальный контент.

Переводы с других языков (прежде всего с английского) — давно известный способ получения уникального контента. Плюсы и минусы его тоже все знают. Контент получается качественным и абсолютно уникальным, но способ этот трудоемкий (или же дорогой, если заказывать).

Опробовал его и я на одном сайте. Английский у меня, на самом деле, так себе. Как я обычно пишу в резюме — «технический» :) Но это не помешало мне вполне так бодро перевести несколько статей и новостей. По ходу дела подумал одну мысль — ведь для человека с достаточным уровнем инглиша перевести статью или новость проще, чем ее зарерайтить, не говоря уже о копирайте. И в его распоряжении целое море буржунетовского контента… Так, где-то там у меня учебник валялся, надо бы освежить ;)

Одно обидно, слишком уж хороший контент получается, как-то даже жалко на сателиты пускать :)