среда, 20 января 2010 г.

Поиск в реальном времени. Часть II. Как Google ранжирует твиты

Алгоритм поиска релевантности сообщений микроблогов, содержащих не более 140 символов.

Чтобы возвращать пользователям полезные результаты поиска в реальном времени, такие как твиты из Twitter, которые обновляются ежесекундно, Google адаптировала свою технологию ранжирования страниц и разработала новые приемы и фильтры для поддержки релевантности, возвращаемых результатов поиска, в соответствии с ведищими технологиями Google.

В прошлом месяце Google внедрила технологию поиска в реальном времени, предложив своим пользователям доступ к совершенно новым сообщениям в блогах и новостях намного быстрее, чем было ранее – время для обнаружения новых страниц занимало у поискового робота Google от 5 до 15 минут.

Bing, Cuil и другие поисковые системы также предоставляют различные виды поиска в реальном времени. И Bing, и Google заключили сделки с Twitter, чтобы получать доступ в реальном времени к твитам, сообщениям не более 140 символов, которые создают пользователи Twitter. Однако Google утверждает, что предлагает наиболее полные результаты поиска в реальном времени индексируя новости, блоги, каналы из Facebook, MySpace, Twitter и другие источники.

Твиты являются оплотом результатов поиска в реальном времени Google, но ранее еще не обсуждалось, каким образом Google их ранжирует. Основная стратегия Google по выявлению релевантности твитов аналогична технологии PageRank, с помощью которой Google ранжирует традиционные страницы из Интернет. Благодаря алгоритму PageRank Google судит о важности страницы, содержащую слова из поискового запроса, рассматривая ссылочную базу страницы. Чем больше страниц имеют ссылки на заданную страницу, и чем больше других страниц ссылаются на ссылающиеся страницы, тем более релевантна заданная страница.

В случае с твитами ключом для идентификации служат «известные последователи», говорит Амит Сингал (Amit Singhal), сотрудник компании Google, который руководил разработкой поиска в реальном времени. Пользователи Twitter «следуют» (follow) за сообщениями других пользователей, которых они сами выбрали, поэтому они называются «последователями» (followed).

«Вы зарабатываете репутацию, а затем передаете ее. Если у Вас есть множество последователей, а Вы являетесь последователем кого-то, даже если это новый пользователь без большого числа последователей», то его твиты считаются ценными, потому что его последователи имеют большое число последователей, говорит А. Сингал. Эта передача репутации лучше, чем простой конкурс популярности, добавил он.

«Один пользователь следует за другим в социальных медиа, также как одна страница ссылается на другую в Интернет. Оба способа являются рекомендациями», - сказал А. Сингал, - «Чем выше качество страниц, ссылающихся на другую страницу в Интернет, тем выше качество страницы, на которую ссылаются. Кроме того, в социальных медиа, как выявлено, пользователи, следующие за другим пользователем, хорошо увеличивают качество пользователя, за которым они следуют».

Но трюки Google с социальным поиском вряд ли единственный метод, который использует поисковый гигант для расчета релевантности твитов. Google также разработала новый способ выборки твитов по внешности (если такие имеются) для общих терминов, например «Обама», избегая спама и твитов с низким качеством, и все это за несколько секунд.

Одна из проблем с твитами связана с тем, что люди часто ссылаются, используя хеш-теги (Hashtags). Это символы, которые начинаются с символа «#», с последующим словом, которое представляет собой популярную текущую тему, например «Nexus One», или «землетрясение», или еще какое-либо слово из популярной темы на текущий момент. Когда хеш-тег появляется в твите, твит поднимается в результатах поиска, если пользователи Twitter совершают переходы по хеш-тегу.

Хотя такие теги могут оказать максимальное полезное воздействие на твит, они также могут служить красными флажками того, чтобы снизить качество твита, сообщая что его содержимое является спамом, говорит А. Сингал. Хотя он не вдается в детали, А. Сингал рассказал, что Google моделирует работу и поведение пользователей с хеш-тегами таким образом, чтобы уменьшить воздействие твитов низкого качества. «Нам необходима модель поведения и работы пользователей с хеш-тегами. Эта техническая проблема, которую мы делаем с нашими подходами к моделированию», - сказал А. Сингал.

Другая проблема: если кто-то ищет «Обама», то приходится вместе в твитами пресс-службы Белого Дома просеивать тысячи других твитов, чтобы найти наиболее своевременную и актуальную информацию. Google сканирует твиты для поиска «сигнала в шуме», говорит А. Сингал. Таким «сигналом» может быть огромное число новых твитов и других блогов, в которых упоминание «Полиция Кембриджа» или «Гарри Рейд» встречается рядом с «Обама». Просматривая такие сигналы Google может предоставить в режиме реального времени самые свежие данные даже для очень общих условий поиска.

В будущем Twitter и Google надеются улучшить релевантность результатов поиска во всех контекстах, добавив географические данные о местоположении, которое может быть добавлено к сообщению из данных мобильного телефона пользователя. В общем, поиск в реальном времени «развивается», сказал Дилан Кейси, менеджер продуктов поиска в реальном времени Google (Dylan Casey, the Google product manager for real-time search). «Я общаюсь с ребятами из Twitter на регулярной основе, чтобы знать: где появится эта новая функция. Мы получаем ответы от них, мы отвечаем им, наши инженеры сотрудничают. Это настоящий симбиоз».

А. Сингал добавил, что Twitter является единственным источником информации в реальном времени. «Twitter является очень важным компонентом, работающим в реальном времени, Интернет. Однако, как мы видим, это только один из компонентов. Очень большое значение имеют новости, блоги и страницы, создаваемые в реальном времени, потому что новостные организации очень много работают, для получения качества определенного уровня», - сказал А. Сингал, - «Twitter является полезным, так как предоставляет короткую форму содержания. Однако, мы обнаруживаем, что Интернет в реальном времени гораздо больше».

Дополнительную информацию о ранжировании твитов в поиске реального времени Google Вы можете найти на видео Мэтта Катс (Matt Cutts):


Оригинал: How Google Ranks Tweets

Автор: David Talbot

Комментариев нет: