понедельник, 9 ноября 2009 г.

Google и эволюция поиска. Часть II. Обман системы.

Это второе из трех интервью с членами группы компании Google, ответственной за контроль поисковых алгоритмов. По ссылке Вы найдете введение и первое интервью со Скоттом Хаффманом (Scott Huffman). В этом интервью инженер Мэтт Катс (Google software engineer Matt Cutts) рассказывает о качестве поиска и спаме. Третье интервью с Амитом Сингалом (Google Fellow Amit Singhal) завершает эту серию.

Часть II: Мэтт Катс

Джон Пачковски: Как Вы поддерживаете качество поиска?

Мэтт Катс: Вообще говоря, мы улучшаем свои алгоритмы, надеюсь, достаточно часто, разрабатываем некоторые акценты равновесия, где мы создаем совершенно новые способы улучшения релевантности. Мой вклад… обеспечивает то, что люди, которые пытаются обмануть систему, не появлялись в результатах поиска чаще, чем они того заслуживают. Мы хотим, чтобы сайты получали высокие рейтинги на основе заслуг, а не на основе простых методов.

Д.П.: Хорошо. Как Вы этого добились?

М.К.: По сути, мы широко смотрим на данные, которые к нам поступают. Например, мы рассматриваем жалобы пользователей, которые к нам поступают. Также у нас есть различные внутренние метрики, которые мы используем, чтобы отслеживать текущие тенденции. Они помогают нам увидеть то, что люди используют для спама прямо сейчас. Это начало нашей обороны. И когда мы обнаруживаем спам, то создаем новые алгоритмы или разрабатываем новые инструменты, которые помогают нам обнаруживать спам и, надеюсь, противодействовать ему. Таким образом, большая часть, того, что мы делаем, просто анализ тенденций в спаме.

Д.П.: Присутствует ли у Вас человеческий фактор?

М.К.: Каждая группа отвечает за общее качество поиска, оценивая его, но это не значит, что они изменяют ранжирование или что-нибудь подобное. Однако, имеются некоторые показательные нарушения политики. Так, например, если Вы введете свое имя («John Paczkowski») и вместо того, чтобы увидеть сайт All Things Digital, Вы увидите порно-сайт, то Вы точно рассердитесь. Вы можете подать жалобу в Google. И Вы будете разочарованы, если получите ответ: «Да, мы работаем над улучшением алгоритма, который может исправить эту ошибку в течение пяти или шести месяцев, так что мы пока оставим порно-сайт, как наиболее релевантный результат для всех запросов, связанных с All Things Digital, пока мы не разработаем алгоритм, который может Вам помочь». Очевидно, что это полностью неудовлетворительный ответ.

Таким образом, борясь со спамом, мы порой готовы принимать решения, руководствуясь видами нарушения политики. Но философия компании Google состоит в том, что там, где возможно использовать машины и алгоритмы, лучше использовать их, потому что это лучшее, более здравое, более масштабируемое решение. И в той степени, в которой мы можем это сделать, мы всегда хотим полагаться на наши компьютеры в качестве первой линии обороны.

Д.П.: То есть Вы готовы удалять спам вручную, пока не можете найти алгоритм для борьбы с ним. Как Вы думаете, это всегда будет происходить? Сможем ли мы когда-нибудь достичь той точки, когда вмешательство человека, наподобие того, что Вы описали, не будет иметь необходимости или мы движемся в сторону увеличения вмешательства человека?

М.К.: Это очень интересный вопрос, но я не знаю на него ответа. Интересно думать, что Page Rank, сырой алгоритм Page Rank, действительно улучшает ранжирование множества сайтов. Чем больше сайтов Вы добавите в ранжирование, там легче определять авторитетность отдельного сайта без вмешательства человека.

Но по мере роста Интернета мы все время сталкиваемся с новыми и различными нарушениями политики. Такого рода явления люди очень хорошо замечают. Конечно, Вы можете определить некоторые из них с помощью компьютерных алгоритмов, но далеко не все. И поэтому мы всегда тестируем, чтобы убедиться, что наши машины и алгоритмы эффективно справляются с такой работой. Но я не знаю, сможем ли мы полностью полагаться на них когда-нибудь.


Автор: John Paczkowski

Комментариев нет: