<<
>>

Анатомия поисковой машины

Авторы, исследователи (и более всего, конечно же, поисковые оптимизаторы) пытались разобраться в компонентах поисковых машин, чтобы было легче объяснить, что на самом деле представляет процесс от «ползания» по сети до нахождения нужного результата.
Хорошая поисковая машина, работающая со всей своей оптимальной производительностью, должна обеспечивать эффективное местонахождение веб-страниц, полный охват сети, новейшую информацию, непредвзятый равноправный доступ ко всей информации, удобный интерфейс для пользователей (которые могут обращаться с часто употребляемыми или типичными запросами) и наиболее подходящие результаты на тот момент времени.
Обеспечение содержательного доступа к большим объемам информации — это трудная задача. Даже изучая огромное количество исследований, мы все еще имеем слабое представление о семантике человеческого языка. Наиболее успешные методы и подходы к информационному поиску, распределение документов по категориям очень сильно полагаются на статистические технологии.
К сожалению, я не математик, моя специализация — маркетинг. Я подумал, что было бы правильно с моей стороны кратко процитировать знаменитого математика Уильяма Томсона для категории читателей, которые, возможно, более компетентны в сфере поиска информации и поисковых технологий:
«Когда вы можете измерить то, о чем вы говорите, и выразить это в цифрах, вы знаете что-либо об этом; но когда вы не можете выразить это в цифрах, ваше знание слабо и неудовлетворительно; это могут быть начальные знания, но вы еще недостаточно продвинулись в вашем постижении науки».
Я решил опустить анатомию и весь математический процесс и сжать его в пять наиболее важных пунктов, надеясь, что это поможет вам обрести хорошее фундаментальное понимание того, как работают поисковые машины.
На менее сложном уровне поисковые машины могут быть описаны проще компьютерных программ, взаимосвязанных и взаимодействующих друг с другом. Разные или различные термины для специфических компонентов используются поисковыми машинами в работе, но я взял стандартные термины и надеюсь, что эти описания и пояснения легче воспринять, чем те, которые приводятся в технических документах и научных работах.
- Модуль краулера/спайдера
- Модуль склад а/базы данных
- Модуль индексатора/анализа ссылок
- Модуль поиска/ранжирования
- Пользовательский интерфейс запроса
Модуль краулера/спайдера: (термины краулер, слайдер и робот будут использоваться здесь попеременно).
Поисковые машины тщательно хранят свои методы «ползания» и ранжирования веб-страниц как коммерческие тайны. Каждая поисковая машина имеет свою уникальную систему. И хотя алгоритмы, которые они используют, могут отличаться один от другого, на практике между ними много схожего в том, каким образом они ведут построение системы индексов.
Поисковые машины типа «спайдер» исследуют веб-страницы тремя способами:
- при помощи использования стартового сбора 1ЖЬ-страниц (по-другому веб-страниц) и извлечения из них ссылок, чтобы следовать по ним (например, выбирая их из каталогов);
- из списка 1ЖЬ, полученного при прошлом исследовании сети (используя первые результаты проведенных поисков);
- 1ЖЬ, добавленных искусственно веб-мастерами непосредственно в поисковую машину (при помощи Добавить 1ЖЬ).
Существует большое количество проблем, с которыми сталкиваются слайдеры поисковых машин из-за размеров сети, ее постоянного непрерывного роста и изменений.
Как вы теперь знаете, в отличие от традиционного поиска информации, где все данные собраны в одном месте и готовы к проверке, информация в сети распределена между миллионами различных интернет- серверов. Это означает, что информация должна быть сначала собрана и систематически распределена по большим «складам», прежде чем она будет доступна для обработки и индексации.
Кроме того, хорошая поисковая машина должна иметь хорошие фильтры, позволяющие избежать множества проблем, которые могут быть, сознательно или нет, созданы владельцами веб-сайтов. Эти фильтры автоматически избавляются от миллионов ненужных страниц.
Современные поисковые машины умеют сами себя подстраивать, т.е. они сами определяют частоту сканирования того или иного сайта в зависимости от множества факторов, например, частоты обновления веб-ресурса, его рейтинга и
Существует много различных типов краулеров в сети. Есть те, которые применяются для личного использования непосредственно с рабочего стола вашего компьютера, и такие, которые собирают адреса электронной почты, или разного рода коммерческие краулеры, которые выполняют исследование, измеряют сеть и выявляют работу шпионских программ.
Описанные краулеры, слайдеры и роботы — это автоматизированные программы, которыми обычно управляют поисковые машины, ползающие по ссылкам сети и собирающие первичные текстовые данные и другую информацию для индексации.
Самые ранние краулеры были запрограммированы для довольно-таки общих целей. Они обращали мало внимания на качество или содержание страниц, а больше внимания акцентировали на количестве. Их цель была — собрать как можно больше страниц. Однако сеть тогда обладала гораздо меньшими объемами, поэтому они были достаточно результативными с точки зрения обнаружения и индексации новых веб-страниц.
С ростом сети краулеры столкнулись со многими проблемами: масштабируемость, отказоустойчивость и ограничение пропускной способности. Быстрый рост сети опередил возможности систем, которые не были достаточно подготовленные, чтобы досконально исследовать загружаемую информацию, с которой они сталкивались. Попытка управлять набором программ одновременно на таких уровнях, не повреждая при этом систему, стала невозможной.
Сегодняшние краулеры, которые появились в течение последних нескольких лет в результате роста сети, были полностью изменены со времен ранних роботов. Однако, хотя они все еще используют ту же самую базовую технологию, теперь они запрограммированы на более индивидуальные собственные разноуровневые системы.
Хотя ползание по сети — очень быстрый процесс, фактически, краулер делает те же самые действия, что и рядовой серфер-пользователь.
Краулер начинает или с одного URL, или с набора страниц. Например, страниц, внесенных в определенный каталог, которые он затем загружает, извлекает гиперссылки и затем ползет к страницам, на которые указывают эти ссылки. Как только краулер натыкается на страницу без других ссылок, по которым он может последовать, он возвращается на уровень назад и переходит к ссылкам, которые он, возможно, пропустил раньше, или к тем ссылкам, которые были запрограммированы заранее в очереди для следующего раза. Процесс повторяется от сервера к серверу, пока на страницах больше нечего будет загрузить, или пока некоторые ресурсы (время, ограничение пропускной способности) будут достигнуты или исчерпаны.
Слово «краулер» почти всегда используется в единственном числе, однако большинство поисковых машин имеет множество краулеров с целым «флотом» агентов, выполняющих масштабную работу. Например, Google, как поисковая машина нового поколения, начавшаяся с четырех краулеров, каждый раз открывает приблизительно триста ссылок. На пиковых скоростях они загружали информацию более чем из 100 страниц за секунду. Google теперь работает на трех тысячах компьютерах с системой Linux, общий размер винчестеров которых более 90 Тбайт. Они добавляют 30 новых машин в день к их серверу, только чтобы не отставать от роста.
Краулеры используют традиционные схематичные алгоритмы, чтобы обследовать сеть. График составлен из того, что называется «узлами» и «краями» (nodes and edges). Узлы — это URL, а края — ссылки, вложенные в страницы. «Края» — это передовые ссылки ваших веб-страниц, которые указывают на другие страницы, и ссылки возврата, которые указывают путь назад на ваши страницы с любого другого места сайта. График сети может быть представлен математически для поисковых целей с помощью использования алгоритмов, где будет определено пересечение или «начальной широты», или «начальной глубины».
Поиск исходя из «начальной широты» означает, что краулер восстанавливает все страницы вокруг отправной точки ползания прежде ссылок, ведущих еще дальше от начала. Это самый общий путь, по которому слайдеры следуют за линками. Поиск исходя из «начальной глубины» может быт использован для того, чтобы следовать за всеми ссылками, начиная с первой ссылки с первой страницы, затем с первой ссылки на второй странице и так далее. Как только первая ссылка на каждой странице будет посещена, он перемещается на вторую ссылку, а затем — на каждую последующую. Метод поиска исходя из «начальной широты» позволяет уменьшить нагрузку на серверы, которая быстро распределяется и помогает избежать того, чтобы какому-то одному серверу придется быстро отвечать на тот или иной запрос постоянно. Метод «начальной глубины» программируется легче метода «начальной широты», но ввиду своих возможностей может привести к добавлению менее важных страниц и отсутствию свежих результатов поиска.
Существует вопрос, насколько глубоко краулер может проникать в веб-сайт? Многое зависит от содержания веб-сайтов, с которыми сталкиваются краулеры, а также от того, какие страницы поисковая машина уже имеет в своей базе данных. Во многих случаях более важная информация содержится в начале страницы, и чем дальше идти от начала страницы, тем менее важная информация там содержится. Логика в том, что более важную информацию для пользователя стараются всегда расположить в начале чего бы то ни было. Стоит вам только зайти на сайт, как вы обнаружите, что во многих из них нет четкой структуры, правил и стандартов, однако часто именно ссылки, содержащие важную для пользователя информацию, располагаются в начале сайта.
Поисковые машины вообще предпочитают идти по более коротким URL на каждом посещенном сервере, используя логику, что URL с более короткими компонентами, вероятно, будет более общими (или полезными) страницами.
Это означает, что:
http://www.mycompany.ru/blue-widgets.html
вероятно, считалось бы более важным, чем
http://www.mycompany.ru/products/webcatalog/widgets/blue/spec~series9.html
или еще более длинный адрес, который ведет к более глубокой информации в иерархии веб-сайта. Слайдеры могут быть ограничены определенным количеством подразделов (слешей) сайта, по которым они будут искать информацию. Десять слэшей — это максимальная глубина, средней же глубиной, как правило, считается три слэша.
Важные страницы, которые находятся более глубоко на сайте, вероятно, придется напрямую регистрировать в поисковой машине владельцу сайта. С постоянным развитием сети и связанных с ней технологий, таких как ASP, PHP и Cold Fusion, часто бывает, что многие важные страницы сейчас «скрыты» в глубине сетевых баз данных, но это уже не относится к алгоритмам поисковых систем. Все это и многое другое мы подробно распишем в последующих главах, в особенности в главе «Описание основных элементов, влияющих на совместимость с ПМ».
А сейчас считаю необходимым пару слов сказать о поисковой оптимизации. Что такое SEO?
<< | >>
Источник: Механов Е.В.. Базовый курс поисковой оптимизации. 2008

Еще по теме Анатомия поисковой машины:

  1. 1.3. "Анатомия" поисковой машины
  2. 2.2.11. Google adwords текстовые объявления на поисковых машинах (поисковая реклама)
  3. 2.2.10. Begun текстовые объявления на поисковых машинах (поисковая реклама)
  4. 5.2.1. Регистрация сервера в поисковых машинах
  5. Поисковые машины
  6. 5.5. Качество поисковой машины
  7. 5.2. Как работает поисковая машина
  8. 5.6. Какая поисковая машина лучше
  9. Поисковые машины (ПМ) и каталоги
  10. Регистрация в поисковых машинах и каталогах.
  11. 2.6. Поисковые машины (ПМ) и каталоги
  12. 6.1 . Поисковые машины и каталоги
  13. Принцип работы поисковой машины
  14. Ограничения, с которыми сталкиваются пользователи на поисковых машинах
  15. 5.3. Как устроен индекс поисковой машины
  16. Что такое рейтинг с точки зрения поисковой машины?