<<
>>

Особенности поиска с точки зрения поисковой машины

Одна вещь, которая выходит на первый план в области автоматического поиска, выполняемого поисковыми машинами, — это тот факт, что обычные методы поиска информации (например, как в библиотеке) просто не подходят для поиска сетевого.
Со времен одной из первых работ в области автоматического поиска по тексту, написанной американцем Джерардом Салтоном с помощью векторной пространственной модели, до последних экспериментов и открытий анализа ссылок и технологий автоматического изучения, а также классификации текста, остается вопрос: как же мы можем получать столь же эффективные и точные результаты поиска, как в библиотечном каталоге?
Чем же таким обладает библиотечный каталог, чего нет у поисковых машин? Давайте посмотрим на характеристики поиска, проводимого поисковыми машинами, а затем вернемся к «библиотечному каталогу».
Основные особенности поиска делятся на три категории. Первая вещь, которую следует отметить, — это различие между традиционным поиском информации и теми проблемами, с которыми такой поиск сталкивается в сетевом применении. Хотя алгоритмы были приспособлены для традиционного поиска, чтобы направлять системы гипертекста, сеть нуждается в более четкой структуре и четком различии этих родственных систем. Например, небольшие, тщательно контролируемые частные собрания текстов вроде научных работ или новостей легче привести в соответствие с критериями отбора. Конференция по поиску текста (TREC) утвердила точку отсчета для такого большого объема (собрания писем, тексты и т.д.) информации, как 100 Гбайт информации. (Google уже имеет десятки Тбайт хранимой информации: для того, чтобы дать представление о размере информации, скажем, что одна большая энциклопедия заняла бы порядка 1 Гбайта, а общественная библиотека более чем из 300 ООО книг равнялась бы приблизительно 3 Тбайтам информации).
Сеть, как нам известно, является огромным собранием гетерогенных страниц, которые создаются и развиваются любым желающим, не подвергаясь какому- либо контролю.
Эта нехватка структуры управления или стандартизации в сети ведет к «взрыву» количества доступной информации, но это также создает огромные проблемы для поисковых машин при поиске необходимой информации в сети. Основной вопрос, являющийся актуальным в данном случае: насколько продуктивны результаты, которые мы получаем в процессе поиска?
Существует три обобщенных класса поиска в сети.
- Информационный
- Навигационный
- Деловой
Информационный
Такой поиск осуществляют пользователи, которые действительно ищут необходимую им информацию в сети. Они формулируют запрос так же, как в речи, например...«низкий гемоглобин». Это медицинский термин. Пользователь ищет определенную информацию об этом термине. Это очень близко к классическому информационному поиску.
Навигационный
Навигационный — это когда пользователь хочет попасть на определенный веб-сайт. При этом формулируется такой запрос, как, например, «РосБизнесКонсалтинг». В этом случае то, что он действительно хочет найти, должно находиться непосредственно на сайте РосБизнесКонсалтинг — это www.rbc.ru. Если бы кто-то напечатал «РИА Новости» в строке поисковика, то, вероятно, он хотел бы попасть на сайт РИА Новости, а не найти историю РИА и т.п.
Все мы формулируем большое количество подобных запросов, и они, фактически, составляют порядка 20% от всех запросов.
Деловой
Деловой поиск означает, что, в конечном счете, пользователь хочет сделать что- либо через сеть, с помощью сети. Хороший пример — посещение магазина через сеть. Вы действительно хотите купить что-либо. Или вам необходимо скачать файл, или найти услугу, например, Желтые страницы. То, что вы действительно хотите сделать, вовлекает вас в сделку. Если обратиться к вопросу посещения магазина, здесь люди хотят купить материал и т.д., таким образом, они желают найти ответ на свой запрос, который может удовлетворить их потребность.
Таким образом, я думаю, что когда мы говорим о точности и актуальности ответа на запрос, важно различать эти три класса. Поскольку, например, классический деловой запрос для меня, живущего в Санкт-Петербурге, будет нечто другое, чем для кого-либо, живущего в Москве.
В случае с некоторыми деловыми запросами, трудно решить, какой из результатов лучший. Контекст играет большую роль. Что касается деловых запросов, иногда более эффективный результат мы получаем из других источников, а не из того, что собираем сами. Это как поход за покупками: чтобы что-то купить, вам нужно идти в торговый центр, а не в библиотеку.
Вернемся к библиотеке. Поисковой машине довольно трудно постигать природу запроса пользователя. Машина может найти сайт на подходящую по ключевому слову тему, связующую ссылку в том или ином тексте, даже выбрать цитату, но она не может интуитивно понять цель запроса. Если же вы приходите в библиотеку маленького городка и просите старушку-библиотекаря помочь найти вам ту или иную информацию, то она, наверняка, поймет, для чего вам нужна эта информация, и предложит конкретное место поиска.
Как я уже говорил, многое из того, что пытаются достигнуть поисковые машины, основано на обычной системе информационного поиска. Предположим, я пришел к библиотекарю и спрашиваю, есть ли в библиотеке определенная популярная книга. Если библиотекарь понимает, что у них есть эта книга, то она или найдет книгу, или закажет ее. Когда она получит книгу, то сделает определенные записи о книге в библиотечном каталоге. Запись о книге будет включать: название книги, имя автора, некоторые ключевые слова, описывающие содержание, порядковый номер идентификации ОБЕШ), заголовок, относящий книгу к той или иной категории, и номер индекса для последующего поиска книги. В этом случае, книга была бы помещена на полки библиотеки в алфавитном порядке, а карточки с индексом книги занесены в каталог.
Качественная библиотечная система каталогов позволяет вам искать не только по названию, но и по автору или по категории. Получая большое количество запросов о некой особенной книге или теме, библиотекарь может иногда интуитивно сказать, где находится данная книга, или, по крайней мере, указать секцию. Регистрируя выбор и возврат книг, она может также заметить, сколько времени та или иная книга отсутствовала, и сколько читателей брали ее за какое- либо время, другими словами, — какие книги пользуются наибольшей популярностью, а какие просто пылятся на полках. Все эти наблюдения помогут в усовершенствовании библиотечной системы, позволяя перемещать «устаревшие» книги, которые больше не пользуются популярностью, на более отдаленные полки, освобождая место для более популярной литературы.
Если вы подумаете над этими двумя только что прочитанными параграфами, то поймете, что фактически, хотя и в довольно странном виде, это описание принципа работы поисковых машин. На первый взгляд, кажется, что это простой процесс, но в реальности проблемы, с которыми сталкиваются крупнейшие разработчики в этой сфере, пытаясь подражать этому принципу, весьма обширны и серьезны.
Можно привести пример школьника, который приходит в библиотеку и спрашивает книгу об Италии. Здесь библиотекарь, обладая достаточно скромной информацией, может предположить, что школьнику необходимо написать реферат, и поэтому ему нужны книги об истории и культуре Италии. Если подросток приходит в библиотеку летом и спрашивает книги об Италии, она может решить, что он собирается в Италию на каникулы и ему нужны путеводители по Италии. Поэтому она укажет ему на подобные книги.
Иными словами, библиотекарь может помочь вам более точно сформулировать ваш вопрос, чтобы подвести вас к наиболее подходящим для вас темам, понимая смысл и цель вашего поиска. Это доказывает, что те базы данных, которые сортированы по категориям, имеют меньше проблем, и именно поэтому некоторые называют редакторов интернет-каталогов «библиотекарями» сети интернет. Таким образом, мы вернулись к различиям между поисковыми машинами и каталогами. Каталоги имеют большое преимущество в поиске, потому что их пользователи могут искать информацию по каталогам и темам, чтобы получить наиболее подходящий материал по запросу (в целом, многих специфических категорий просто не существует). Но так как их индексы всегда будут намного меньшими, чем аналогичные в поисковой машине, вы будете всегда иметь меньше информации даже в этих специфических категориях. Поисковые машины, может быть, не в состоянии точно определить сферу вашего запроса, но они могут, по крайней мере, попытаться вывести те страницы, которые они посчитают специфичными и связанными с вашим запросом при помощи «топологии сети».
Кроме того, независимо от тематики запроса, большинство поисковых машин все еще выводят несколько тысяч или несколько миллионов вариантов, из которых только некоторая часть может быть действительно релевантной. Так как же быстро снижается показатель релевантности? Ответ таков: после первых двух страниц результатов этот показатель начинает резко снижаться.
<< | >>
Источник: Механов Е.В.. Базовый курс поисковой оптимизации. 2008

Еще по теме Особенности поиска с точки зрения поисковой машины:

  1. 1.2. Особенности поиска с точки зрения поисковой машины
  2. 2.5. Что такое рейтинг с точки зрения поисковой машины?
  3. Что такое рейтинг с точки зрения поисковой машины?
  4. 5.1. Поиск информации и поисковые машины
  5. 2.2.11. Google adwords текстовые объявления на поисковых машинах (поисковая реклама)
  6. 2.2.10. Begun текстовые объявления на поисковых машинах (поисковая реклама)
  7. Типы заголовков с точки зрения их содержания
  8. Программы участия в капитале с точки зрения инвесторов
  9. Установочное собеседование: точки зрения, целенаправленность, виды
  10. ЦИКЛИЧНОСТЬ С ТОЧКИ ЗРЕНИЯ СИСТЕМНОГО ПОДХОДА