Автор Анна Евкова
Преподаватель который помогает студентам и школьникам в учёбе.

Поисковая система Google

Многие из нас, сталкиваясь с проблемой поиска информации в сети, обращаются за помощью к самой умной поисковой системе Google. На сегодняшний день Google - крупнейшая поисковая система в мире, ее база проиндексированных документов приближается к 3 миллиардам. Ежедневно на сайт приходят сотни тысяч пользователей рунета. А многие ли знают историю Гугла? Например, почему именно Google, откуда берет начало такое название? Почему самая умная поисковая система? Давайте разберемся.

Немного истории. Проект Гугл был разработан в 1998 году. Его основоположниками считаются выпускники Стэнфорда Ларри Пейдж (Larry Page) и Сергей Брин (Sergey Brin). Для ранжирования документов они придумали новую технологию - PageRank. Если не вдаваться в подробности, то суть ее в следующем, чем больше сайтов имеют ссылки на данный документ, и чем они авторитетней, тем более авторитетным считается данный документ. Но кроме этого, при определении релевантности используется не только текст исходного документа, но и текст тех ссылок, которые ссылаются на него. Именно поэтому часто говорят, что гугл – самая умная поисковая система.

Интересна история с названием проекта. С Яндексом и Рамблером все ясно: в первом случае, название в переводе означает «я ищу», во втором «блуждающий человек», т. е. бродяга по интернету. А что за странное слово Google, которое, кстати, не переводится на русский?

Когда Сергей и Ларри ломали голову над тем как окрестить свое творение, им на глаза попалась заметка о происхождении слова googol. В 1938 году, американский ученый, математик Эдвард Каснер (Edward Kasner, 1878—1955), прогуливался в парке со своими племянниками. Разговор ненавязчиво зашел про больше числа. И как обычно дети расспрашивают взрослых, племянники интересовались, как называется число с 6-тью, 9-тью нулями…. Пока один из них не спросил: «дядя Эдвард, а как же называется число со ста нулями?» Оказалось, что математик не знал его названия, его попросту еще никто не придумал. И тогда он предложил своим спутникам самим его выбрать. Младший из племянников Милтон Сиротт, тогда ему было 9 лет, придумал слово «гугол» (googol), так и назвали это число, а в честь него поисковую систему. Google – по одной из версий, это искаженное написание числа googol, по другой, при регистрации сервиса была допущена ошибка, отсюда и название. Не знаю, мог ли тогда маленький Милтон думать о том, что его выдумка станет такой популярной? Наверно нет.

Большая часть пользователей интернета предпочли поиск от Google. Причина их выбора – это качество работы этой компании. Сначала Google предоставлял только такую услугу как поиск. Но сейчас, кроме поиска, компания имеет еще много других интересных и полезных сервисов, которые уже давно завоевали авторитет в глазах пользователей. Самыми полезными и популярными сервисами созданными Google есть:

1. Gmail – почта, создана программистами Google. Ящик на Gmail сразу стал основным для многих пользователей. Там прекрасный интуитивный интерфейс. Сервис работает быстро и без задержек. Всем, кто еще не пробивал Gmail, рекомендую там зарегистрироваться.

2. Google webmasters – этот сервис создан специально для владельцев сайтов, веб-мастеров, оптимизаторов и т.д. Этот сервис предоставляет основные ведомости о вашем сайте: количество ссылок на сайт, самые популярные запросы, ключевые слова, скорость загрузки страниц. Все эти показатели помогут вам улучить и усовершенствовать ваш сайт.

3. Rss reader. Много пользователей интернета читают блоги. И с помощью этого сервиса вы сможете подписаться на рассылку интересующих вас блогов. Вам не нужно будет каждый раз заходить на блог, все обновления будут сами к вам приходить. Существует много других подобных сервисов, но Rss reader является одним из лучших.

5. Google календарь. Ясное дело, что это не простой календарь. Это сервис, с помощью которого можно расписать важные события по дням. Так вы никогда не забудете событий, которые должны произойти. Интересный календарь и тем, что вы можете открыть доступ к календарю. И другие люди будут знать о ваших планах на будущее.

Google: особый подход к созданию программных продуктов Google - компания с нестандартным подходом. Например, Google имеет свою собственную файловую систему, а также серверы, использующие обычные компьютерные компоненты. Но в то же самое время, теперь широко известный «пустой» интерфейс главной страницы Google - это не сознательное решение, а принудительная потребность. Создатели ранних версий движка поиска просто не знали HTML, так что они должны были делать страницу очень простой. Первоначально, не было даже “Submit” кнопки, постоянно находилось кое-что, было необходимо нажать, используя вашу клавиатуру.

Однако, теперь Google - главный кандидат, который может занять место разработчика программного обеспечения номер 1. Это - несмотря на факт, что компания является одним из крупнейших корпоративных клиентов AMD и намерена самостоятельно заняться проектированием ЭВМ и аппаратного обеспечения для собственных потребностей.

Тенденция, которая была начата Гуглом и сейчас активно продвигается - гибкое программное обеспечение браузера. Софт, который не должен применять настройки сразу для всех просматриваемых сайтов, а может сохранять пользовательские наборы опций отдельно. Просто, но гениально. Возможно, главная причина успеха услуг Google – акцент внимания на потребностях пользователей и самое высокое качество их решения .

Посмотрите на очень популярный Gmail, который привлекал пользователей Интернета в свое время гигантским размером почтового ящика - целых 2 гигабайта. В настоящее время конкуренты предлагают те же или большие объемы, но Google и здесь нашел достойный ответ. В конце концов, Gmail - фактически программное обеспечение браузера - софт, который приспосабливается к потребностям пользователя.

Выход Google Хром - существенный случай в ряде приличного отношения к деятельности Google в попытке захватить этот рынок. Сегодня, Google предлагает такие варианты пользовательских услуг: поиск, карты, почта, автоматически подгружаемое видео, не так давно - мобильный телефон и затем, наконец, появился браузер. При таком соревновании очевидно, что несколько сильных игроков будут полностью контролировать рыночную нишу. В дополнение к хорошему интерфейсу и быстрой работе в новом браузере, JavaScript стал еще одним поводом, который вынудил пользователей заменять любимый браузерна Хром. Никаких очевидных преимуществ (подобно Gmail - размеру ящика несколько лет назад) нет. Google Android много иностранных наблюдателей назвали “убийцей iPhone». Несмотря на интерфейс «гуглофона», функции управления пальцем на полной клавиатуре внизу экрана, по крайней мере три преимущества у телефона уже есть: айфоноподобный интерфейс, клавиатура, и наиболее важно, открытость операционной системы. Кроме того, всем без исключения ясно, что Google способен собрать вокруг себя сообщества разработчиков Андроида, привлекать компании, чтобы заказать программное обеспечение либо создавать его самостоятельно, силами штата компании. Это не что иное как привлечение покупателей богатым выбором различных программ, включая свободно распространяемые на условиях лицензии GNU.

Google Documents – это полностью готовый пользовательский набор для офиса со способностью работать вместе (Вы можете даже видеть в режиме реального времени, как кто - то, кому Вы даете доступ, изменяет документ). Чтобы организовывать такие инструменты обслуживания, обычно Вам приходится по крайней мере покупать некоторый софт, установить и запустить сервер. Здесь же достаточно простой регистрации с привязкой к почтовому аккаунту.

Анализ архитектуры поискового сервера Google.

В любой поисковой системе можно выделить три базовых части:

1. Робот (краулер, спайдер, индексатор). Робот отвечает за сбор информации. То есть робот эмулирует

работу пользователя, загружая страницы и сохраняя их в базе данных.

2. База данных. В базе данных хранится и сортируется собранная роботом информация.

3. Клиент. В этой части обрабатываются пользовательские запросы. В действительности

клиент может быть разнесен по нескольким физически несвязанным компьютерам. Однако, стоит отметить, что все эти компьютеры должны иметь доступ к базе данных.

Рассмотрим описанную выше структуру на примере поисковой системы

Google:

1. URL сервер (URL Server) - список всех адресов

2. Сетевой робот (Crawler) – робот («паук»), который загружает страницы из списка адресов и передает в

Сервер хранилища.

3. Сервер хранилища (Store Server) сохраняет страницы в Хранилище (Repository), чаще всего в виде HTML

документа. При этом вся дополнительная информация, такая как картинки, flash-анимация и прочее, не

сохраняется.

4. Индексатор (Indexer) разбирает сохраненные в Хранилище (Repository) HTML-документы в

последовательности слов и сохраняет их в Базы данных (Barrles).

5. Словарь (Lexicon) - список всех слов. Чаще всего слова храняться в таблице с двумя полями “номер” и

“слово”. Таким образом, достигается экономия места в базе данных, так как длинные слова заменяются

достаточно коротким номером

6. Анкеры (Anchors) выделенные Индексатором (Indexer) ссылки (URL).

7. URL Resolver - обработчик URL. Если находятся новые ссылки, то они передаются в URL сервер

8. Ссылки (Links) - определяет какие сайты на какие ссылаются и передает эту информацию в PageRank.

9. PageRank определяет рейтинг сайта, основным критерием является количество ссылок на этот сайт

10. Поисковый агент (Searcher) - клиент. Чаще всего клиент пользуется статической базой данных, которая

обновляется примерно раз в сутки.

Сетевой робот, используемый Google, имеет централизованную архитектуру. Такая архитектура состоит из

нескольких потенциально распределенных конкурентных компонентов, имеющих центральный пункт

синхронизации (например, очередь задач или специальный компонент-координатор). Структурная схема

поискового робота представлена на рисунке 2.

Поисковая система Google использует в своей поисковой системе три поисковых робота - бота

- Freshbot, DeepCrawl, Adsensebot.

Freshbot – этот поисковый робот - бот заходит на сайт, сканирует его, определяя наиболее популярные странички, и индексирует их. Поисковый робот - бот Freshbot посещает сайты в среднем 1 раз в два дня, но посещаемость его резко возрастает если сайт популярен, имеет хорошую посещаемость и довольно часто обновляется. Например, такие сайты как myspace.com или youtube.com он посещает каждые 5-10 минут. Еще одной из задач поискового робота Freshbot является сканирование всех страниц сайта для сбора всех ссылок в базу данных, после чего эта база передается другому роботу - боту DeepCrawl, который будет сканировать все эти ссылки. DeepCrawl - этот поисковый робот - бот, который получив базу данных с ссылками сайта от поискового робота - бота Freshbot, приступает к сканированию этих ссылок, добавляя их в свой индекс. DeepCrawl посещает сайты всего 1 раз в месяц, поэтому результаты индексации этого поискового робота приходится ждать долго. Adsensebot - поисковый робот – бот, предназначенный для страниц сайта, которые транслируют контекстную рекламу Adsense. Если Вы установить на свои странички сайта скрипт от Google Adsense, скрипт Adsense посылает команду для Adsensebot, после чего этот поисковый робот приходит на сайт и сканирует страницы для более точного определения релевантности объявлений по отношению к контенту странички. Например, если на страничке сайта пишется о машине, то поисковый робот определит наиболее частое употребление ключевых слов, связанное с машиной, и естественно предоставит свою рекламу той же тематики.

Напоследок сравним поисковую систему «Google» с популярным российским аналогом от компании «Яндекс».

Алгоритмы Яндекса и Google различаются кардинально. Яндекс строит свои позиции исходя из уникальности текстов на сайтах, а Google - исходя из количества ссылок, которые ведут на рассматриваемый сайт. За многие годы работы с этими поисковыми системами, многие пользователи сделали для себя вывод, что с Google работать гораздо проще. Плохие с точки зрения посетителей сайты он быстро вычисляет, накладывает на них самые разнообразные штрафные санкции (фильтры), а то и вовсе исключает их из поисковой выдачи (отправляет в бан). Даже если количество ключевых фраз велико, но Google видит, что посетители на этом сайте "сидят" довольно продолжительное время, то этот положительный фактор перекрывает многие отрицательные. Google готов даже «закрыть глаза» на обман своих поисковых роботов, если посетителю сайт нравится. И Google, и Яндекс предоставляют пользователю возможность искать документ, в котором не содержится определенного слова; документ в котором присутствует любое из слов запроса, и документ, в котором встречается абсолютно точное вхождение запроса. В каждой из поисковых систем за это отвечают различные операторы.

Поисковый алгоритм Google имеет несколько существенных преимуществ:

1. Использование механизма PageRank, который отображает "важность" сайта и влияет на выдачу результатов поиска. PageRank очень похож на индекс цитирования у Яндекса (тоже зависит от количества и качества ссылок на ресурс). Но в отличие от Яндекса, влияние PageRank у Google не настолько значительно, поэтому люди в Google находят именно то, что и ищут.

2. Google ищет не только гипертекстовые файлы (html), но и файлы в формате PDF, DOC, PostScript, Corel, WordPerfect и др.

3. Поисковая система Google обладает также возможностью поиска изображений. При этом в запросе можно указать желаемый размер, глубину цвета, формат файла.

4. В отличии от многих поисковиков, роботы Google индексируют все страницы, а не только самые главные.

5. Все страницы Google кэширует (заносит в свою базу), и разрешает человеку, производящему поиск, смотреть документ, не открывая его в первоисточнике, а беря из кэша Google (что часто намного быстрее).

6. Google разрешает настроить каждому пользователю язык интерфейса поисковой машины, выбрать языковые зоны для поиска, количество сообщений при выдаче результатов и др.

7. Пользователи Microsoft Internet Explorer, Mozilla Firefox и Opera могут установить себе программу Google Toolbar, которая создает новую панель инструментов, позволяющую искать в Google, не заходя на сам сайт.

Заключение

Сегодня поисковая система Google – одна из крупнейших в мире. Миллионы пользователей Интернета во всех странах ежедневно пользуются Google, потому что он быстр, прост в использовании и имеет огромную базу данных. Но самый главный аргумент – это то, что он действительно работает, и можно легко найти все, что нужно. Google удалось добиться большой популярности за короткое время, благодаря принципиально новому подходу в поиске информации в Интернете. К концу января 2012 года доля Google в обработке поисковых запросов составила 66,2% при том, что на долю ее ближайшего преследователя, поисковой системы Bing компании Microsoft приходится всего 15,2% , на третьем месте Yahoo! с 14,1%. Доля поисковых запросов Ask.com составила около 3% от общей доли поиска, а доля поиска AOL составила 1,6%.

Список литературы

1. Гусев, B.C. Google: эффективный поиск. Краткое руководство. — М.: Издательский дом "Вильяме", 2006. — 240 с.: ил.

2. Лифшиц Ю. Введение в поисковые системы, 2005

3. http://24company.ru/316-istorija-kompanii-google-inc.-ili-istorija-samykh.html

4. http://bourabai.kz/dbt/seo/searchsystems.htm

5. http://www.googlers.ru/

6. http://gpo.jmin.net/page20.html

7. http://masters.donntu.edu.ua/2011/fknt/pranskevichus/diss/index.htm

8. http://www.searchengines.ru/articles/004532.html

9. http://www.seonews.ru/analytics/detail/117093.php