вторник, 15 декабря 2009 г.

Патент Google на обнаружение дубликатов содержания

1 декабря Google получила патент «Обнаружение дублирующих документов в индексируемой web-среде» (Duplicate document detection in a web crawler system). Патент объясняет, как фильтр содержания поисковой системы может работать с дублями содержания на сервере.

Что такое дубликаты содержания?

Патент содержит определение дубликата содержания:

Дублирующие документы это документы, которые существенно идентичны по содержанию, и в некоторых вариантах полностью идентичны по содержанию, но имеют различные URL.

Патент описывает три сценария, с которыми сталкивается поисковый робот:
  1. Две страницы, включая любое сочетание нормальных веб-страниц и временно переадресовываемых страниц, являются дублирующими документами, если они имеют одинаковое содержание, но различные URL.
  2. Две временно переадресовываемые страницы являются дублирующими документами, если они имеют одинаковый целевой URL, но разные URL источников.
  3. Нормальная веб-страница и временно переадресовываемая страница являются дублирующими документами, если URL нормальной веб-страницы это целевой URL временно переадресовываемой страницы или содержание нормальной веб-страницы совпадает с содержанием временно переадресовываемой страницы.
Страницы с постоянной переадресацией не принимают непосредственного участия в определении дублирования документов, потому что поисковой робот не настроен на скачивание содержания таких документов.

Как Google обнаруживает дубли содержания?

Согласно описанию патента, поисковый робот Google проверяет найденную страницу, является ли она копией другого документа. Затем алгоритм определяет, какая версия является наиболее значимой.

Google может использовать различные методы для определения дублей содержания. Например, Google может иметь «отпечатки пальцев содержания» (content fingerprints) и сравнивать их с каждой новой найденной веб-страницей.

Интересно, что не всегда наиболее значимое значение принимает URL имеющий самый высокий PageRank.

Возможны случаи, при которых каноническая веб-страница в эквивалентном классе не обязательно является документом с самыми высокими показателями (такими как PageRank страницы или другие поисковые метрики).

Как это влияет на Ваш сайт?

Если Вы хотите получить высокие места в поисковой выдаче, то легче это сделать с уникальным содержанием. Попробуйте использовать оригинальное содержание везде, где возможно на своих веб-страницах.

Если Ваш сайт должен использовать такое же содержание, что и другой сайт, убедитесь, что Ваш сайт имеет лучшую ссылочную базу, чем другие сайты с таким же содержанием. Вполне возможно, что Ваш сайт будет выбран как наиболее значимый URL.

Если Ваш сайт имеет уникальное содержание, то Вам не придется беспокоиться о наказание за дублирование содержания. Оптимизируйте содержание для поисковых систем и проверяйте качество ссылочной базы сайта. Сайт с оптимизированным содержанием и хорошей ссылочной базой обогнать очень трудно.

Комментариев нет: