<<
>>

Что такое поисковые машины и как они работают?

В самом начале курса мне хотелось бы подробно рассказать, на чем базируется работа поисковых машин, а также дифференцировать категории поиска так, как это делают поисковые машины. Я считаю это важным, потому что как только вы поймете, что такое поисковые машины и как они работают, вам будет легче понять результаты, поскольку вы увидите, как они появляются на странице после поиска определенного ключевого слова.
Это поможет вам рационализировать и затем оптимизировать способ создания веб-страниц, которые будут внесены в базу данных поисковой машины, и лучше понять, почему необходима оптимизация. Я должен упомянуть, что некоторые аспекты этой главы имеют техническую или научную основу. Я старался описывать принципы, но также включал и детали, благодаря чему вы, возможно, захотите продолжить изучение данной тематики и дальше.

Поисковые системы состоят из пяти отдельных программных компонент.

Поисковые системы состоят из пяти отдельных программных компонент.

- Search engine results engine (система выдачи результатов) извлекает результаты поиска из базы данных.

- Spider (паук) — это программа, которая скачивает веб-страницы.

Она работает точно так же, как ваш браузер, когда вы соединяетесь с веб-сайтом и загружаете страницу. То же действие (скачивание) вы можете наблюдать, когда просматриваете некоторую страницу, выбирая «просмотр HTML-кода» в своем браузере.

- Crawler (краулер, «путешествующий» паук) - программа, которая автоматически проходит по всем ссылкам, найденным на странице. Crawler выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

- Indexer (индексатор) разбирает страницу на различные ее части и анализирует их.

Элементы типа заголовков страниц, заголовков, ссылок, текста, структурных элементов, элементов BOLD, ITALIC и других стилевых частей страницы вычленяются и анализируются.

- Database (база данных) — хранилище всех данных, которые поисковая система скачивает и анализирует. Она часто требует огромных ресурсов.

Неверно считать, что поисковые машины сразу ищут сайт, как только вы ввели ключевое слово в запросе. Это — чистой воды миф, что поисковые машины просматривают весь интернет в поисках нужного запроса. Поисковая машина может искать только в пределах собственной базы данных (индекса). И конечно, количество и новизна данных определяется тем, как часто эта база данных обновляется.

Крупные поисковые машины индексируют информацию подобно каталогу в библиотеке. Храня большое количество информации, они должны уметь быстро находить нужные документы по заданным ключевым словам или фразам. Но самих веб-страниц еще больше, чем непосредственно данных о них. Интернет в целом не имеет никакой четкой структуры, и сайты обладают огромным количеством вариантов авторской разработки и содержания по сравнению со стандартными текстами. Это делает почти невозможным для поисковой машины применение стандартных методов, используемых в управлении базой данных и в обычном информационном поиске.

Поисковые алгоритмы (математические методы программирования, сортирующие найденные результаты) каждого из поисковых сервисов являются уникальными. Вы можете проверить это сами: введите ключевое слово или фразу в поисковую систему www.yandex.ru и запомните результаты. Теперь зайдите на www.rambler.ru или www.google.ru и повторите то же самое. У вас всегда будут разные результаты в различных поисковых машинах. Учитывая этот факт, можно отметить, что необходимо иметь индивидуальный подход к различным поисковым службам.

Поисковик Google, являющийся самой крупной поисковой машиной в мире и по популярности среди тех, кто ищет, и по базе данных из нескольких миллиардов файлов, имеет только малую долю данных, содержащихся во всей мировой сети.

Сеть растет быстрыми темпами. Исследование, выполненное в 2000 г., обнаружило приблизительно миллионов страниц, добавляемых каждый день (Lyman, Varian и др. — 2000 г.). Таким образом, невозможно представить, что какая-либо поисковая машина будет когда-нибудь иметь ежедневно обновляемые данные обо всех сайтах сети.

Здесь речь идет о практических ограничениях, заключающихся в размере веб-страницы. В среднем, каждая страница содержит около 5-10 Кб текста, поэтому, даже если учитывать, что поисковая машина хранит информацию только о текстовых страницах, это уже выливается в десятки Тбайт, которые находятся в хранилище поисковиков. Есть так называемая «невидимая сеть», которая представляет собой более 550 миллиардов документов Lyman, Varian и др. — 2000 г.]. С этими документами поисковые машины или не знакомы (не связаны с другими сайтами), или не могут получить доступ (некоторые участки защищены паролем), или их технология просто не позволяет им «захватить» эти страницы (например, те, которые включают только сложные типы файлов: визуальные, аудио, мультипликация, сжатые файлы и т.д.). Постоянно «ползать» по сети и индексировать веб-страницы со множеством документов, как это делают поисковики, — задача не из дешевых. Вы сами убедитесь в этом, когда мы изучим анатомию поисковой машины. Поддержка базы данных поисковой машины требует много инвестиций для обеспечения работы, необходимых технических ресурсов и продолжения научных исследований.

Мы должны понимать, что базы данных поисковых машин постоянно изменяются. Google может иметь больше страниц, внесенных в свой индекс, чем, скажем, Yandex (www.yandex.ru). Однако, например, если Yandex обновил свои данные быстрее, чем Google, то даже при его относительно небольшом количестве страниц это может дать пользователю более свежие и всесторонние результаты. Кроме чисто технического фактора, есть также много других, которые должны быть приняты во внимание.

Я должен упомянуть здесь, что зачастую поисковые машины указывают большой объем страниц, содержащихся в их базе данных, как признак того, чтобы быть лучшими.

Это своего рода игра или соревнование между количеством и качеством имеющихся ресурсов.

Хотя размер — это важный индикатор, другие факторы, касающиеся качества базы данных, могут обеспечить лучшие результаты в плане того, что они гораздо больше соответствуют ключевому слову. Обнаружение релевантных страниц в сети для индексации — приоритет поисковых машин. Но как машина может определить, насколько важна та или иная страница? Позже мы поговорим о методах, используемых поисковыми машинами для определения того, что делает одни веб-страницы важнее других.

Поскольку поисковые машины часто возвращают несоответствующие запросам результаты, мы должны также остановиться подробнее на одной из проблем, связанной с тем, что информация в базах данных машин должна постоянно обновляться. Кроме новых страниц, которые каждый день появляются в сети, непрерывно обновляются и старые. Рассмотрим следующий пример. В одном из научных исследований говорится о том, что в результате четырехмесячного изучения полумиллиона страниц было выяснено, что более 23 % всех веб-страниц обновляются ежедневно. Около половина страниц обновлялась каждые десять дней, а некоторые документы и вовсе перемещались на новый доменный адрес [Агави, СЬо, Оагаа-МоНпа е1 а1 — 2001].

Слайдеры поисковых машин находят миллионы страниц в день, которые заносятся в базу данных и индексируются. Но, как вы можете понять из вышеописанного, поисковикам очень трудно определить частоту изменений страниц. Спайдер поисковой машины может «заползти» на страницу один раз, затем вернуться к ней, чтобы обновить, и, может быть, обнаружит, что были сделаны какие-то изменения. Но он не может обнаружить, сколько раз страница изменялась, начиная с последнего его посещения.

Некоторые веб-сайты изменяются очень часто. Например, сайты новостей или электронной коммерции, где информация должна постоянно обновляться (изменения цен, номенклатуры продукции и т.д.). Сегодня проводится много как научных, так и коммерческих исследований для развития методов оперативного обнаружения свежей информации. Даже если «важная» страница будет проверяться слайдером каждые 48 часов, веб-мастера могут обновлять эти страницы гораздо чаще.

Если веб-мастер загружает страницу на сервер, а затем делает страницу доступной для поиска через «Добавить 1ЖЬ» в поисковой машине, или если страница просто найдена поисковой машиной через ссылку с другого сайта, то содержание страницы на тот момент — именно то, что будет проиндексировано поисковой машиной.

Так, если в день индексации страница имеет определенное число слов, которые содержатся в определенном числе параграфов и в определенной степени относятся к ключевому слову, — все это будет записано в индексе поисковой машины до следующей индексации. Если автор страницы решит сделать новые дополнения (изображения, заголовки, редактирование текста), то поисковая машина не будет знать об этом до следующего посещения страницы. Если пользователь делает запрос на определенную тему в тот день, когда поисковая машина как раз обновила эту страницу, то он получит обновленную информацию, которая уже попала в базу данных поисковика. Однако если пользователь выполняет поиск после того, как автор изменил страницу, то поисковая машина приведет его по ключевой фразе к той же странице, даже если автор, возможно, изменил контекст или убрал важные ссылки на тему, не ставя об этом в известность поисковые машины. Конечно, такая ситуация расстраивает пользователя, который хотел найти релевантную его запросам веб-страницу. Это, как вы понимаете, является главной проблемой поисковых машин. Они просто не могут постоянно следить за изменениями веб-страниц.

Технические ресурсы рассчитаны на то, что поисковая машина обновляет информацию каждые 4-6 недель, а то и дольше. Представители Google, например, утверждают, что обновляют десятки миллионов страниц ежедневно, но все это — лишь ничтожная часть имеющейся в сети информации.

Так, если даже внешне поисковые машины кажутся вам похожими, то, что вы видите в их результатах по вашим запросам, зависит от сайтов, которые они индексируют, насколько новы данные, и как они сортируют и преподносят результаты пользователю.

Не всегда также понятно, как определять термин «поисковая машина», потому что даже слайдеры каталогов иногда ищут информацию и возвращают результаты. Google ищет информацию и выдает результаты из Open Directory (www.dmoz.org), Yandex имеет собственный каталог - http://vaca.vandex.ru.

Однако для каталогов это вторичные результаты, которые получаются, если они не находят определенной информации в их собственных списках (это так называемые «выпадающие» или «проваливающиеся» результаты). Чем больше пытаться дифференцировать работу поисковиков и каталогов, которые имеют тенденцию «сливаться» в определенных местах, тем удивительнее обнаруживать все же существующие различия.

Возможно, правильнее будет сказать, что большинство поисковых сервисов стоит рассматривать как гибриды.

Поисковые системы не могут позволить себе иметь редакторов, просматривающих миллиарды страниц, чтобы лично проверить их качество. И каталоги не могут дать всем пользователям того, что они ищут. Таким образом, для поисковых систем имеет смысл выстраивать определенные приоритеты в пользу проверенных редакторами надежных каталогов страниц (Yandex-каталог, ODP и др.).

Для пользователей термин «портал» также часто взаимозаменяем «поисковой машиной». Количество поисковиков объединило особенности этих порталов и сделало их своего рода домашними страницами (Yandex и Google не позиционируют себя как деловые порталы). Практически все настоящие порталы, такие как www.rbc.ru, включают графу «поиск в интернете». Это означает, что поисковики дарят вам новости, развлечения, финансовую информацию, а также электронную почту и т.д.

Это своего рода тактический ход для того, чтобы побудить вас сделать их сайт вашей стартовой страницей, то есть первой страницей, которую вы видите, когда открываете ваш браузер и заходите в интернет (тактика приверженности потребителя к данной марке товара). Вы также можете переделать страницу того или иного поисковика под себя. Например, вы можете менять содержание страницы, цвет и способ, которым представлена информация, выбирая те или иные новости главными для себя.

Все это может выглядеть весьма непонятно для тех, кто слабо знаком с поисковыми машинами и процессом их оптимизации. Но как только вы сможете понять, откуда и куда приходят результаты поиска в разных поисковых машинах, вы сможете сконцентрироваться на планировании только самого важного и на том, где ваши усилия по оптимизации дадут результаты. Цель этой главы — помочь вам распутать клубок сомнений и увидеть во всем этом смысл!

<< | >>
Источник: Механов Е.В.. Базовый курс поисковой оптимизации. 2008

Еще по теме Что такое поисковые машины и как они работают?:

  1. 1.1. Что такое поисковые машины и как они работают?
  2. 5.2. Как работает поисковая машина
  3. Что такое рейтинг с точки зрения поисковой машины?
  4. 2.5. Что такое рейтинг с точки зрения поисковой машины?
  5. 4.2. Что такое FOREX и как здесь работать
  6. 5.4. Некоторые важные вопросы. Какие слова индексирует поисковая машина. Как мы уже говорили, для индексации слов на страницах поисковику нужно знать, что именно считается словом.
  7. 17.1. Что такое поисковая (контекстная) реклама
  8. 5.3. Как устроен индекс поисковой машины
  9. Глава 24. ЕСЛИ У НИХ ТАКИЕ ТУАЛЕТЫ, ТО КАК ЖЕ ОНИ РАБОТАЮТ?
  10. 2.3. Поисковый маркетинг. 2.3.1. Что такое поисковый маркетинг?
  11. 2.2.11. Google adwords текстовые объявления на поисковых машинах (поисковая реклама)