понедельник, 9 ноября 2009 г.

Google и эволюция поиска. Часть III. Будущее поиска? Гораздо, гораздо лучший поиск.

На протяжении многих лет компания Google, объясняя результаты своего поиска, утверждала, что «рейтинг сайта в результатах поиска Google определяется автоматически при помощи компьютерных алгоритмов, которые рассчитывают тысячи факторов для страницы для заданного запроса». Затем в мае 2007 года, компания изменила это заявление: «Рейтинг сайта в результатах поиска Google полагается на компьютерные алгоритмы, которые рассчитывают тысячи факторов для страницы для заданного запроса». В третьем и окончательном интервью с представителями команды Google, Амит Сингал (Google Fellow Amit Singhal) поможет нам понять причину этого изменения. В первом интервью Скотт Хаффман рассказывал об оценщиках качества, во втором интервью Мэтт Катс рассказал о качестве поиска и спаме.

Часть III: Амит Сингал.

Джон Пачковски: Давайте поговорим об истории оценки качества поиска и Вашей роли в ней.

Амит Сингал: Оценка поиска появилась в конце 50-х, начале 60-х годов в Великобритании, и в начале она была очень простой, так как сам поиск был булевым. Первой мерой оценки было вспоминание (recall). Вы берете запрос и 100 документов, релевантных ему. Как много документов возвращает Вам поиск при запросе? Мы быстро выяснили, что очень легко получить 100% вспоминание. Но мы также обнаружили, что наши поиски часто возвращают много ненужных документов наряду с актуальными. Итак, мы подошли ко второй мере: точность (precision). Она сообщает, какой процент документов в результатах поиска актуален. Так что, если поиск по запросу возвращает 100 из 100 релевантных документов запросу, но в результатах поиска всего содержится 1000 документов, то вспоминание 100%, а точность всего 10%.

Эти две характеристики и их сочетания со временем претерпевали изменения, но даже современные поисковые системы, например Google, используют их. Таким образом, с начала появления поиска, всегда были команды, которые судили о релевантности результатов, возвращаемых поиском.

Д.П.: Но релевантность субъективное понятие.

А.С.: Правильно. Но эти характеристики не влияют на результаты поиска непосредственно. Они используются только для того, что понять, как хорошо работает алгоритм, или как новый алгоритм работает лучше старого. У них нет непосредственного влияния на пользователей. Они всего лишь инструмент калибровки.

Д.П.: Мэтт и Скотт много говорили о человеческой оценке поиска. Насколько широка его роль в Google?

А.С.: Наша оценка поиска основана на множестве компонентов. И одним из этих компонентов является оценка поиска человеком. Наша автоматизированная система основана на множестве факторов, например, если пользователи не кликают по первому результату в поиске, а кликают чаще по пятому результату. Тогда наша техника сообщает нам, что наша система должна что-то сделать в этом месте. И мы делаем это на более чем ста языках.

Д.П.: Как Вы удерживаете баланс новых результатов со старыми?

А.С.: Когда новый результат более актуален, чем старый? Этот вопрос… очень важен для наших пользователей и, таким образом, для наших алгоритмов. Так мы оцениваем запросы на свежесть (freshness) – такой запрос заслуживает новых сегодняшних результатов, а не трехнедельной давности. Тоже самое мы делаем с документами. Мы всегда спрашиваем: насколько новый этот документ? Насколько он актуален? Насколько он полезен? И мы отвечаем на эти вопросы исключительно алгоритмически и представляем их нашим пользователям в результатах поиска. Все это делается автоматически. Нет человека, который сидит и говорит, что сегодня GM или Мумбаи наиболее важны. Потому что, в конце концов, человек слишком склонен делать это субъективно. У алгоритмов нет такого недостатка. И они могут делать такие определения на сотнях языках.

Д.П.: Как далеко мы продвинулись в поиске?

А.С.: Мы по прежнему почти в самом начале пути. Мы нигде не продвинулись достаточно далеко. Поиск является трудной задачей, и самая трудная часть состоит в том, что ожидания пользователей трудны для понимания, и они продолжают расти и расти, пока Вы улучшаете поиск. И такой поиск не решает проблем.

Д.П.: Так что же дальше?

А.С.: Будущее поиска? Гораздо, гораздо лучший поиск… Универсальный поиск, под этим я подразумеваю поиск, в котором пользователю не надо идти на YouTube для поиска видео или на Google для поиска документов. Любой тип содержания, релевантный Вашему запросу, просто появляется в результатах поиска. Такой поиск сосредоточен на том, кто Вы и где Вы находитесь. Поэтому он должен быть с учетом Вашей географии и персонализированным. И эти два фактора будут давать Вам универсальные релевантные результаты, гораздо более релевантные именно для Вас с учетом Вашего местоположения.

Д.П.: Вернемся обратно к человеческой оценке поиска, Вы думаете, она всегда будет необходима? Будет ли она необходима в будущем в большей или меньшей степени? Как будет изменяться ее роль?

А.С.: Я считаю, что роль человеческой оценки поиска будет необходима, пока мы понимаем, что язык компьютеров слишком далек от человеческого. Вы знаете, что мы добились больших успехов, но это отнюдь не означает, что язык наших технологий понимает, что сказал тот или иной человек, чтобы получить тот или иной документ.


Автор: John Paczkowski

Комментариев нет: