Управление производством

Поисковые системы – взгляд в будущее

Необходимость создания поисковых средств Интернета обозначилась еще в доWebовскую эру, когда были разработаны такие системы как Archie, Veronica и WAIS, призванные отыскивать данные на FTP, Gopher и Telnet серверах. Однако по-настоящему важность поисковых инструментов была осознана лишь с развитием World Wide Web, когда возможность вдобавок к обычному тексту легко передавать и получать высококачественные цветные изображения, аудио- и видеофайлы сделала глобальные сети необходимыми практически для всех. Миллионы отдельных лиц и целые организации стали предоставлять свои материалы в сетях. В результате объем данных стал увеличиваться столь стремительно, что в скором времени Интернет окончательно превратился в непроходимые кибер-джунгли, ориентироваться в которых было крайне трудно.
18 мая 2010

Ответом на сложившуюся ситуацию и явилось создание специальных поисковых инструментов, которые получили название search engines (поисковые средства). Ныне их общее число колеблется в пределах нескольких сотен, и все новые и новые продолжают появляться день за днем.

Поисковые средства постоянно развиваются. Совершенствование идет по всем главным аспектам: рост объемов баз данных, возможности составления запроса и дружественность интерфейса, выдача результатов и наличие дополнительных сервисных функций. Системы, которые долгое время не внедряют новых элементов и не оптимизируют уже имеющиеся функции, постепенно выводятся из активного использования.

Поисковые технологии развиваются быстрыми темпами (есть спрос, большая конкуренция): совершенствуется качество поиска, вводятся разные новые «фишки», облегчающие процесс поиска, улучшающие визуальное представление найденной информации.

Развитие алгоритмов поисковой системы, ее аппаратной части должно идти в ногу со стремительно увеличивающимся объемом информации в Интернете. В соответствии с «характером времени» должен меняться и сам подход к поиску информации.

Так, например, если 10 лет назад результатом поиска был ответ, то сейчас это уже исчерпывающий ответ (+ релевантные изображения, видеофайлы, актуальные новости, справочная информация, объект на карте, контекстные сервисы…) плюс предложение релевантной услуги, товара (понятие «синтетическая поисковая выдача»).

Одним из условий развития поисковой системы (как показывает практика) становится ее интеграция с различными социальными сервисами (почта, фотографии, блоги, знакомства, интернет-телевидение и т.д.).

«Все в одном месте» – вот рецепт успеха. Этот рецепт и прописан на будущее. Будущее за мультипорталами – «аккумуляторами» сетян, средой общения.

Качество поисковой выдачи зависит как от эффективности реализованных в поисковой машине алгоритмов, так и от информативности проиндексированных поисковиком сайтов.

Проблема информативности и полезности интернет-ресурса для пользователя (потребителя) очень важна. В настоящее время в Сети «расплодилось» огромное количество спам-сайтов, сплогов (от англ. spam blog; сайты-блоги, созданные для раскрутки других сайтов), сателлитов для заработка и продвижения в поисковиках сайтов-акцепторов.

Поисковые системы (англ. Web search engine) «ответственны» за «информационную грязь» в Сети. Ради продвижения в поисковиках и создается «внешняя поддержка» (сателлиты, платные ссылки и прочее). Надо менять «поисковую политику».

Поисковая система будущего должна быть независима от «негативной» SEO-атаки (англ. SEO – search engine optimization, поисковая оптимизация). А SEO-принципы должны строиться, исходя из критерия «максимальной полезности для интернет-пользователей».

Это все идеалы, реально же в условиях жесткой конкуренции в борьбе за попадание в Топ поисковой выдачи seo-действия порой носят «враждебный» характер по отношению к поисковым системам («черная», «серая» оптимизация) – прессинг запрещенными и рисковыми методами (тут хотелось бы заметить, что поисковый спам способствует эволюции поисковых систем).

Поисковая система же должна быть на стороне пользователя, потребителя (это ее хлеб). Тут тоже есть конкуренция, тем более в российском сегменте Интернета – Рунете (Яндекс и Google – 46,7% и 34% – распределение переходов с поисковых систем, соответственно).

Идеальная поисковая система

«Идеальная» поисковая система должна на запрос пользователя дать исчерпывающий ответ, учитывая максимальное количество факторов:

  • географическое положение интернет-пользователя: например, неоднозначный поисковый запрос «ленинский район» для жителей Нижнего Новгорода и Минска должен по-разному формировать Топ выдачи поисковой системы;
  • историю запросов пользователя (интересы): так если человек интересуется музыкой, то запрос «премьер-министр» должен выдавать информацию о музыкальной группе, в приоритете;
  • актуальность поискового запроса на информационном фоне: например, запрос «финансовый кризис в России» должен выдавать информацию о текущих проблемах в экономике и промышленности России, а не, скажем, кризисе 98-го;
  • стандарты страны: вывод информации о температуре (в градусах Цельсия, Фаренгейта), весе (килограмм, фунт), расстоянии (километр, миля) и т.д.;
  • языковые особенности.

Поисковая система будущего должна максимально облегчать пользователю формулирование запроса, опираясь на статистические данные:

  • исправлять грамматические ошибки и опечатки (по статистике ошибки содержатся примерно в 15% слов в поисковых запросах);
  • исправлять набор поискового запроса на другой раскладке клавиатуры;
  • понимать синтаксис языка, запросы на естественном языке (например, поисковый запрос «козлов» – это фамилия, а не животное);
  • понимать транслитерированные слова;
  • распознавать сложные слова, набранные слитно;
  • предупреждать о вирусах на найденных веб-страницах (сайтах).

Перечисленные «фишки» уже реализованы в ведущих поисковых системах. Дело за улучшением. Выделим еще некоторые возможности.

  1. Подсказки при поиске (саджесты, от англ. suggest): на основе статистических данных поисковик предлагает наиболее популярные варианты по однословному запросу (можно выводить подсказки с учетом географического, событийного факторов).
  2. Показ основных разделов сайта (топ 1) для быстрой навигации. Можно улучшить, показывая только релевантные и нужные разделы (например, «о компании», «контакты»).
  3. Поиск с возможностью автоматического перевода страниц на разные языки.
  4. Вертикальный поиск (англ. Vertical search) – рубрикация выдаваемого поисковиком контента – тема отдельного разговора.
  5. Понимание (и учет при выдаче) структуры новости, художественного текста и т.п.
  6. Отображение коротких ответов прямо на странице поисковой выдачи (ее называют «СЕРП»; на англ. SERP от Search Engine Result Page). Например, «прогноз погоды в Москве», «столица Сирии», «курс доллара за 3 месяца», «1564+445» – ответ или результат.

Активно ведутся работы по развитию семантического поиска (входит в концепцию Web 3.0, которую называют также «Semantic Web» – «Семантическая паутина»), основанного на использовании смыслового анализа текста документов. Один из примеров – Twine; при запросе USA сервис знает, что это название страны.

Также можно упомянуть Wolfram Alpha – интеллектуальную поисковую систему, предназначенную для вычисления связей между разнообразными фактами, данными.

Выше уже говорилось об интеграции поисковика с различными социальными сервисами. Какую полезную информацию можно получить от этой интеграции? Персональную. А значит можно более эффективно подбирать поисковые ответы на запросы пользователя, опираясь на его интересы (личную информацию).

Данное направление – персонализация поиска – вызывает много вопросов. Возможно, человек не хочет раскрывать свою личную информацию. У него должен быть выбор.

Но несмотря на все спорные моменты, персонализация поисковых запросов ведет к улучшению поисковой выдачи, экономии времени пользователя. Персонализация ведет также к снижению seo-прессинга на поисковые алгоритмы.

«Все следует упрощать до тех пор, пока это возможно, но не более того…» – методологический принцип «Бритвы Оккама», формулировка Альберта Эйнштейна.

При разработке эффективных поисковых алгоритмов и оптимально удобной структуры страницы поисковой выдачи приведенный принцип можно переформулировать с несколько иным подтекстом: «улучшать поисковую выдачу, опираясь на модные тенденции представления результата, до тех пор, пока люди пользуются услугами поисковой системы». Представление результата можно персонифицировать.

Будущее поисковых систем

Заглянем в будущее поисковых систем. Какие улучшения можно ожидать.

Компания Microsoft Corporation предлагает дополнить типовой поисковый запрос пунктами «искать синонимы» («synonym») и «искать похожие слова» («syntactically similar») – патент «Synonym and similar word page search».

Компания Google Inc. продолжает улучшать качество поисковой выдачи – патент «Methods and Systems for Classifying Search Results to Determine Page Elements».

Интересен патент Yahoo! Inc. – «System and method for contextual commands in a search results page» (Система и метод для контекстуальных команд на странице результатов поиска).

А над чем работает «Яндекс»? Тоже не сидит на месте. В ближайшее время стоит ожидать того, что страницы в результатах поисковой выдачи будут рубрицированы.

Продолжит развитие социальный сервис «Вопросы и ответы», который будет подключен к основному поиску. «Социальный поиск» (на англ. «Social search» или «The Social Search Engine») – очень перспективное и «естественное» направление. В конце 2009 года Яндекс запустил поиск с учетом региона для 1250 городов России. Регион пользователя учитывается при ответах на запросы, которые касаются местных реалий. Большое внимание компания «Яндекс» уделяет водителям личного автотранспорта. Еще в январе прошлого года была запущена услуга «Яндекс.Пробки». Ее можно использовать для GPS-навигации. «Мобильные Яндекс.Карты» научились находить компании и предприятия по названию или роду деятельности. Поиск организаций доступен более чем в ста российских городах. Здесь же пользователи могут просматривать на компьютере свои маршруты (GPS-треки) и пересылать их другим. Весной Яндекс запустил мобильный «Я.Онлайн» для трех платформ: Windows Mobile, Symbian и Java. Приложение, сочетающее в себе мобильную почту и мессенджер, теперь доступно большинству владельцев мобильных устройств. Для любителей музыки российских исполнителей появился свой сервис. Пользователи, которые ищут песни на русском языке, теперь могут прослушать их целиком прямо на странице результатов поиска – бесплатно и легально.

«Яндекс.Бар» предлагает пользователям мгновенный перевод слов. Достаточно подвести мышку к незнакомому слову, и во всплывающей подсказке появится его перевод.

Кроме того, поисковик обзавелся расписанием международных и внутренних авиарейсов разных стран. Теперь на «Расписаниях» можно найти любые перелеты, например, из Нью-Йорка в Пекин или из Рима в Неаполь.

Снимки необычных мест, памятников архитектуры, городские и сельские пейзажи по всему миру, сделанные пользователями Яндекса во время путешествий, хранятся на «Яндекс.Карты». Это хорошая возможность заочно побывать в разных странах тем, у кого нет на это реальной возможности.

Компания Google в ноябре 2009 года объявила об открытии исходного кода своей операционной системы (ОС) Google Chrome. Предполагается, что первые устройства на базе OC Google Chrome появятся в четвертом квартале 2010 года.

Когда все работы будут завершены, операционная система Google Chrome будет запускаться и перезагружаться в течение нескольких секунд, а веб-страницы и приложения будут работать быстро и стабильно. Можно будет работать с приложениями в Сети. Это означает, что редактирование документов, создание PDF-файлов, просмотр изображений и так далее, – все это будет осуществляться через Интернет. Таким образом, чтобы работать или играть в Сети, пользователям не нужно будет загружать на свой компьютер программы и обновлять их.

Также в ноябре компания Google запустила сервис «Личный кабинет», новую функцию, которая позволяет пользователям просматривать и контролировать данные, связанные с персональными аккаунтами Google.

В последнее время поиск Rambler претерпел ряд изменений, направленных на то, чтобы сделать его эффективнее и удобнее для пользователей. Компания вложила деньги в «железо», что позволило значительно сократить время вычисления запроса, сейчас оно составляет полсекунды, и повысить отказоустойчивость. Реализован новый алгоритм подсветки найденных слов. Также поиск Rambler стал учитывать опечатки и понимать слова, введенные, например, на английском языке в русской раскладке.

Пользователю Rambler помогают так называемые навигационные поисковые подсказки. Такие подсказки появляются на частотные навигационные запросы, например: «Рамблер», «Домодедово», «Ашан» и т.п. Они позволяют сразу перейти на интересующий пользователя ресурс, не вводя полный запрос в поисковую строку. В основе простого инструмента лежит технология автоматического выделения таких запросов и подбора к ним соответствующих ресурсов.

В декабре 2009 года Rambler запустил обновленный механизм поиска с учетом синонимов. Теперь для определенных запросов поиск производится не только по непосредственно введенному пользователем сочетанию, но и параллельно по фразе, которую поисковый механизм считает полностью идентичной. На синонимы распространяется и подсветка в найденном.

Специалисты Rambler продолжат совершенствовать технологию и пополнять базу. В ближайших планах у компании разработка семейного спам-анализатора, порнофильтра, а также переход на новую индексирующую систему, что позволит повысить качество поиска. Кроме того, Rambler планирует улучшить вид страницы результатов поиска и представить улучшенный алгоритм формирования аннотаций к сайтам (аннотации, показывающиеся при результатах поиска, будут состоять из значимых предложений со страницы, а значит, станут более читабельными).

Свои «Карты» развивает и поисковая система Mail.Ru. Карты@Mail.Ru – интерактивный картографический сервис, благодаря которому пользователи могут находить практически по всему миру любой дом или улицу – достаточно указать их адрес. Проект позволяет измерять как площадь объектов, так и расстояние между ними. Кроме того, Карты@Mail.Ru предоставляют актуальную информацию о пробках на дорогах крупнейших российских городов. Эти данные доступны и обладателям мобильных устройств – через Symbian или Windows Mobile-клиент «Карты@Mail.Ru», либо в приложении «Мобильный Mail.Ru Агент» для Java и Symbian.

В сентябре на проекте Карты@Mail.Ru появились подробные карты еще двух городов – Екатеринбурга и Владивостока. Также они стали доступны пользователям мобильных устройств. Кроме Екатеринбурга и Владивостока, здесь есть подробные карты Казани, Москвы, Санкт-Петербурга, Нижнего Новгорода, Краснодара, Ростова-на-Дону, Твери, а также общие – мира и России.

Еще одно из новшеств – «Поиск@Mail.Ru», который научился предоставлять справочную информацию по самому широкому кругу вопросов. В случае с известными людьми проект автоматически добавляет к результатам поиска их краткие биографии, при поиске ресторанов, кинотеатров и любых других организаций отдельно сообщает их адреса и телефоны, а для запросов, связанных с вакансиями, отображает информацию о средних зарплатных предложениях. В ближайшем будущем Поиск@Mail.Ru запустит еще несколько удобных справочных функций.

Эксклюзивный тематический проект «Здоровье» был запущен осенью 2009 года. Здесь размещается огромное количество полезных материалов и сервисов, помогающих поддерживать себя в хорошей физической форме. Посетителям «Здоровья» доступны актуальные медицинские справочники, регулярно пополняемые новой информацией – лекарственных препаратов, болезней и состояний, медицинских учреждений России, по оказанию первой помощи.

Поиск@Mail.Ru давно уже работает над распознаванием возможных значений запросов пользователей с целью выдачи максимально подходящих результатов. Очередным шагом в этом направлении стал запуск нового алгоритма обработки названий фильмов и книг, для которых такая задача особенно актуальна.

Многие фильмы являются экранизацией книг или просто имеют одинаковые с ними названия, поэтому в такой ситуации корректное распознавание желания пользователя – задача особенно сложная и важная. Хороший пример многозначного запроса – название «Война и мир», которое принадлежит двум литературным произведениям (роману Льва Толстого и пьесе Михаила Булгакова) и пяти экранизациям. Поисковый робот GoGo.Ru, используемый на Поиске@Mail.Ru, умеет корректно выделять фактологические данные из проиндексированной информации.

За последний год вышло большое количество новых версий инстант-мессенджера Mail.Ru «Агент» для разных платформ (PC, Java, Symbian, Windows Mobile), его ежемесячная аудитория превысила 10 миллионов человек. Активно развивались сервисы голосовых и видеозвонков, появилась новая игровая платформа и возможность проведения конференций (сеансов одновременного общения, в которых принимают участие больше двух человек), а также поддержка сразу нескольких учетных записей. Мобильные версии программы обзавелись почтовым клиентом и интегрировались с проектом «Карты». Кроме того, стартовал Веб-Агент – веб-версия инстант-мессенджера, не требующая установки и работающая прямо из окна браузера в рамках почтового сервиса Mail.Ru и социальной сети «Мой Мир».

Поисковики следующего поколения будут сильнее зависеть от «живых» данных (вводимых людьми). Ожидается вторая волна веб-каталогов (надстроек) – гибрид информации (ответ на вопрос) и полезных ссылок (подобно Википедии). Ручная сортировка ссылок не потеряет актуальности.

Также ярко прослеживается тенденция на постепенный отход от «статического веба», в наш мобильный век важность приобретает «сиюминутный веб» (примеры сервисов – Яндекс.Поиск по блогам, Twitter): поиск по самым свежим записям, заметкам.

Подведем общий итог: поисковые системы будущего будут многорезультативны (результат поисковой выдачи: текст, изображения, аудио, видео, новости, справочная информация, сервисы, реклама и т.д.), персонифицированы (подстройка под интересы пользователя, его местоположение), семантичны (понимать смысл запроса), актуальны (учитывать новостные события), независимы от SEO-прессинга. Поисковая система будущего – это поисково-справочная система.