Автор Анна Евкова
Преподаватель который помогает студентам и школьникам в учёбе.

поисковые системы в сети интернет.

Содержание:

Введение

Термин информационного поиска был впервые введен в 1948 Кельвином Муэрсом в докторской диссертации, которая была опубликована и употребляема в литературе с 1950 года.

Сначала системы автоматизированного информационного поиска, или информационно-поисковые системы, использовались лишь для поиска научной информации и литературы. Многие публичные библиотеки и университеты стали использовать информационно-поисковые системы для обеспечения доступа к журналам, книгам и другим документам. Широкое распространение информационно-поисковые системы получили с появлением Всемирной паутины и развитием сети Интернет. У пользователей России наибольшей популярностью пользуются поисковые системы Яндекс, Google и Mail.Ru.

На сегодняшний день в интернете насчитывается огромное количество информации. Любой, даже искушенный пользователь, не может ориентироваться во всем информационном потоке, хорошо зная лишь определенный набор часто используемых сайтов. Для поиска неизвестной информации в интернете используются поисковые системы. Данные системы настроены определенным образом, помогая найти любую информацию при правильно сформированном запросе.

Актуальность данной работы заключается в разнообразии множества разнонаправленных поисковых систем, из-за чего рядовому пользователю сложно ориентироваться в выборе и методах поиска. Именно структуризация информации позволит пользователю правильно выбрать поисковик и сформировать запрос для удовлетворения требований к поиску.

Объектом данного исследования является информационный поиск, его виды и методология.

Предметом исследования являются поисковые системы в сети Интернет, х история развития и принцип работы.

Задачами данной работы являются:

  • анализ понятия информационного поиска;
  • разбор видов и методов информационного поиска;
  • изучение технологии информационного поиска;
  • обзор понятия и истории развития поисковых систем;
  • проведение классификации по принципам работы и типам поисковых систем;
  • разбор конкретных примеров поисковых систем.

За основу работы взяты книги Д. В. Ландэ по методологии информационного поиска.

1. Информационный поиск

1.1. Понятие информационного поиска

Информационный поиск является процессом поиска неструктурированной документальной информации, которая удовлетворяет информационные потребности, и наукой об этом поиске[1].

Информационный поиск представляет собой процесс выдачи, отбора и нахождения информации, определенной заранее заданными признаками, из массивов любого вида и записей на любых носителях. Основополагающей причиной реализации информационного поиска называют информационную потребность, которая выражена в виде запроса информации. Степени привлечения технических средств к информационному поиску и участия человека в нем имеет различны категории, среди которых выделяют: "автоматизированный ", "машинный" и " ручной " информационный поиск. Автоматизированный поиск может производиться в режиме пакетной обработки запросов или диалога[2].

Информационный поиск в автоматизированных информационных системах осуществляется и обеспечивается при привлечении информационных, лингвистических, организационных, технологических и программно-технических средств, а также комплексов, составленных из них. Непосредственно информационный поиск обычно производят посредством информационно-поисковой системы, которая является подсистемой автоматизированной информационной системы. В качестве основных критериев качества результатов информационного поиска выделяют оперативность, точность и полноту поиска[3] [4, 6].

1.2. Виды и методы информационного поиска

Виды информационного поиска:

  • в зависимости от объекта поиска - фактографический и документный;
  • от цели - адресный и семантический;
  • от степени использования технических средств - автоматизированный или ручной;
  • в зависимости от функциональной роли - второстепенные/доминирующие, периферические/центральные, ситуативные/устойчивые потребности[4].

Каждый вид информационного поиска пересекается с другими, так как их объекты и цели часто взаимосвязаны. Например, фактографический и документный виды поиска имеют возможность быть как семантическими, так и адресными[5].

Адресный поиск является процессом поиска документов по указанным в запросе чисто формальным признакам. Для осуществления адресного поиска необходимы наличие точного адреса у документа и обеспечение строгого порядка расположения документов в хранилище системы или запоминающем устройстве. В качестве адресов документов могут использоваться адреса веб- веб-страниц и серверов или элементы библиографической записи, и адреса хранения документов в хранилище[6].

Семантический поиск является процессом поиска документов по их содержанию. Для осуществления семантического поиска необходим перевод содержания запросов и документов с обычного языка на информационно-поисковый, а также составление поисковых образов запроса и документа и составление поискового описания, в котором указываются дополнительные условия поиска[7].

Принципиальной разницей между семантическим и адресным поисками является рассмотрение при семантическом поиске документа как объекта с точки зрения содержания, а при адресном поиске — с точки зрения формы.

Документальный поиск является процессом поиска первичных документов в хранилище информационно-поисковой системы или в базе данных соответствующих запросу пользователя вторичных документов. Документальный поиск бывает направленным на нахождение первичных документов библиотечным, и библиографическим, направленным на нахождение представленных в виде библиографических записей сведений о документах[8].

Фактографический поиск является процессом поиска соответствующих информационному запросу фактов. К фактографическим данным можно отнести извлеченные из первичных и вторичных документов сведения и сведения, получаемые непосредственно из источников их возникновения. Фактографический поиск бывает документально-фактографическим, заключающимся в поиске фрагментов текста в документах, которые содержат факты, и фактологическим, предполагающим создание в процессе поиска новых фактографических описаний через логическую переработку найденной фактографической информации[9].

Полнотекстовый поиск является поиском по всему содержимому документа. В качестве примера полнотекстового поиска можно привести любой интернет-поисковик. Обычно полнотекстовый поиск использует предварительно построенные индексы с целью ускорения поиска. Самой распространенной технологией, предназначенной для индексов полнотекстового поиска, можно назвать инвертированные индексы[10].

Поиск по метаданным является поддерживаемым системой поиском по неким атрибутам документа, таким как дата создания, название документа, автор, размер и подобные. В качестве примера поиска по реквизитам можно привести диалог поиска в файловой системе[11].

Поиск изображений является поиском по содержанию изображения. При данном виде поиска поисковой системой распознается содержание фотографии, после чего пользователь в результатах поиска получает похожие изображения. По такому принципу работают поисковые системы: Picollator, Polar Rose и другие подобные.

Двоичный поиск является быстрой техникой, которая применяется с целью поиска определенной записи в конкретном упорядоченном списке записей.

Координатный поиск является видом информационного поиска, который основан на использовании координатного индексирования.

Также существует ретроспективный поиск, которы является информационным поиском, который проводится во всем накопленном массиве фактов или документов по любому запросу, который соответствует тематике и виду информационно-поискового массива[12] [4-6].

1.3. Технологии информационного поиска

Поисковые технологии и средства, которые используются для реализации информационных потребностей, определяются состоянием и типом задачи основной деятельности, решаемой пользователем: соотношением его незнания и знания об исследуемом объекте. Помимо этого, процесс взаимодействия с системой пользователя определяется уровнем пользовательского знания функциональных возможностей системы как инструмента и содержания ресурса. В большинстве случаев данные факторы сводят к понятию предметного и информационного профессионализма[13].

Процесс поиска информации обычно носит эмпирический характер, представляя собой последовательность шагов, которая приводит при посредстве системы к некоторому результату и позволяет оценивать его полноту. В этом случае поведение пользователя, являющееся организующим началом управления процессом поиска, мотивируется не только информационной потребностью, но и разнообразием предоставляемых системой средств, технологий и стратегий[14].

Зачастую пользователь не обладает исчерпывающими знаниями об информационном содержании ресурса, где он проводит поиск. По этой причине поэтому оценка адекватности выражения запроса, как и полноты получаемого результата, может быть осуществлена с помощью дополнительных сведений, или при организации процесса таким образом, при котором часть результатов поиска может быть использована для отрицания или подтверждения адекватности другой части результатов[15] [4-6].

В целом по главе можно сделать вывод о значимости информационного поиска в современной информационной индустрии. Большое количество информации в разнообразных источниках требует больших возможностей поиска, для удовлетворения чего развиваются поисковые системы.

2. Основные понятия поисковых систем

2.1. Понятие поисковой системы

Поисковая система является компьютерной системой, которая предназначена для поиска информации.

Поисковая система представляет собой программно-аппаратный комплекс, снабженный веб-интерфейсом, предоставляющий возможность интернет-поиска информации[16].

Большая часть поисковых систем ищет информацию на сайтах World Wide Web, но также существуют системы, которые способны искать товары в интернет-магазинах, файлы на FTP-серверах, или даже информацию в группах новостей Usenet.

Пользователь с целью поиска информации формулирует поисковый запрос с помощью поисковой системы. По пользовательскому запросу поисковая система генерирует страницу с результатами поиска. Данная поисковая выдача имеет возможность сочетать различные типы файлов, такие как аудиофайлы, изображения, веб-страницы. Определенные поисковые системы также могут извлекать данные из каталогов ресурсов и баз данных в Интернете[17].

По методам обслуживания и поиска выделяют четыре типа поисковых систем: управляемые человеком системы, использующие поисковых роботов системы, мета-системы и гибридные системы. В архитектуре поисковой системы включены: сканирующий сайты сети Интернет поисковый робот, обеспечивающий быстрый поиск индексатор, и поисковик, представляющий собой графический интерфейс, необходимый для работы пользователя[18].

По статистике на 2016 год самым популярным в мире поисковиком в Интернете является Google, но существуют страны, в которых пользователями отдано предпочтение другим поисковикам. К примеру, в России преобладает поисковая система Яндекс, обгоняя поисковик Google больше, чем на 10%[19].

Целью поисковой системы является нахождение документов, содержащих ключевые слова или другие слова, определенным образом связанные с ключевыми. Качество поисковой системы определяется количеством релевантных запросу пользователя документов, возвращенных ею. Результаты поиска могут становиться хуже вследствие человеческого фактора или из-за особенностей алгоритмов[20] [2, 3, 5].

2.2. Примеры конкретных поисковых систем

В качестве основных поисковых систем в России используются Яндекс и Google.

Яндекс является европейской информационной компанией, которая владеет одноименной системой поиска в Сети и интернет-порталом. Поисковая система Яндекс является четвертой среди поисковых систем мира по количеству обработанных поисковых запросов. На начало 2014 года их было насчитано свыше 6,3 млрд в месяц. По состоянию на 19 июля 2014 года, согласно рейтингу Alexa.com, сайт yandex.ru по популярности занимает первое место в России и 22-е место в мире[21].

Поисковая система Yandex.ru была официально анонсирована 23 сентября 1997 года, и первое время развивалась в рамках компании CompTek International. В качестве отдельной компании Яндекс образовался в 2000 году. В мае 2011 года Яндекс провел первичное размещение акций, заработав на этом больше, чем какая-либо из Интернет-компаний со времен IPO поисковика Google в 2004 году[22].

Приоритетным и основным направлением компании является разработка поискового механизма, но за годы работы «Яндекс» стал мультипорталом. В 2013 году «Яндекс» предоставлял более 50 сервисов. Некоторые из них доминируют на рынке. В качестве таких примеров можно привести Яндекс.Карты, Яндекс.Поиск, Яндекс.Пробки, Поиск по блогам, Яндекс.Маркет.

Головной компанией холдинга является зарегистрированное в Нидерландах акционерное общество Yandex N.V., акции которого обращаются в основном на NASDAQ с более 50 % free float на 2014 год[23].

Наиболее заметное положение занимает на рынках России, Украины, Турции, Казахстана и Белоруссии.

В России представлена 100 % дочкой ООО «Яндекс», главный офис которой находится в Москве.

У компании также есть офисы в Екатеринбурге, Санкт-Петербурге, Нижнем Новгороде, Новосибирске, Симферополе, Одессе, Казани, Киеве, Минске, Ростове-на-Дону, Берлине, Стамбуле, Люцерне и Цюрихе. В середине июня 2008 года компания объявила об открытии Yandex Labs — офиса в США, штат Калифорния[24].

Пример запроса в поисковой системе Яндекс представлен на рисунке 1.

Рис. 1. Результаты по запросу «радители» в поисковой системе Яндекс.

Google является крупнейшей поисковой системой интернета, принадлежащей корпорации Google Inc.

Google является первой по популярности системой (77,05 %), обрабатывая 41 миллиарда 345 миллионов запросов в месяц, занимая долю рынка 62,4 %, индексируя более 25 миллиардов веб-страниц. На закрытой конференции в начале мая 2014 года представитель Google упомянул, что на данный момент проиндексировано 60 триллионов документов, и как можно заметить, в результате тестов, счетчик в поиске Google ограничен числом 25 270 000 000, также на это число при выдаче влияют встроенные в алгоритм ранжирования выдачи фильтры[25].

Поисковая система Google поддерживает поиск в документах форматов RTF, PDF, Microsoft Word, PostScript, Microsoft PowerPoint, Microsoft Excel и других подобных.

Поисковая система Google была создана в качестве учебного проекта студентов Стэнфордского университета Сергея Брина и Ларри Пейджа. Они в 1996 году работали над поисковой системой BackRub, а в 1998 году на ее основе создали новую поисковую систему Google. С первого же года существования в Google стали применять метод прозрачного управления OKR, определивший способ корпоративного управления и подход к планированию развития компании[26].

Хотя корпорация была основана 2 сентября 1998 года, а домен Google.com зарегистрирован 15 сентября 1997 года, поисковик с 2000 года отмечает свой день рождения и в другой день: как 7, так и 27 сентября.

Слово Google произошло от искаженного названия числа десять в сотой степени (10100) googol[27].

Пример запроса в поисковой системе Google представлен на рисунке 2.

Рис. 2. Результаты по запросу «кремль» в поисковой системе Google.

Поиск@Mail.Ru является поисковой системой от компании Mail.Ru. По данным на декабрь 2013 года, на рынке Рунета он занимает долю около 10 %. Таким образом, он занимает третью строчку в рейтинге поисковых систем на российском рынке. В течение многих лет в поисковой строке на главной странице поиска Mail.Ru использовался сторонний движок: в 2004—2006 и 2010—2013 годы использовался поиск Google, 2007—2009 годах — решение от Яндекса. С 1 июля 2013 года сервис использует собственные поисковые технологии, которые разрабатывались командой инженеров Mail.Ru. В Казахстане Поиск@Mail.Ru обходит по популярности Яндекс, охватывая 25,3 % рынка[28].

Bing является поисковой системой, разработанной международной корпорацией Microsoft. Ранее система имела названия MSN Search.Windows Live Search и Live Search. В настоящее время сайт Bing занимает 2-е место в списке самых популярных поисковых сайтов по объёму трафика, в отличие от которых обладает рядом возможностей, таких как просмотр результатов поиска на одной странице вместо пролистывания многочисленных страниц результатов поиска, а также динамическое корректирование объема информации, отображаемой для каждого результата поиска, встроенный поиск значения слов в Microsoft Word[29].

Американская компания Yahoo! владеет второй по популярности в мире поисковой системой. Согласно статистике Alexa Internet, в июне-июле 2016 г. Yahoo! — пятый по посещаемости веб-сайт в сети Интернет, и примерно 32% посещений состоят из просмотра только одной страницы[30] [1, 4, 5].

2.3. История поисковых систем

На ранних этапах развития сети Интернет Тимом Бернерс-Ли поддерживался размещенный на сайте ЦЕРН список веб-серверов. Данный список становилось все сложнее поддерживать вручную, так как количество сайтов неуклонно росло. На сайте NCSA был создан специальный раздел, названный «Что нового!», в котором публиковались ссылки на новые сайты[31].

Программа Арчи являлась первой компьютерной программой, предназначенной для поиска в Интернете. Ее название произошло от английского archive без буквы «в», что значит архив. Данная программа была создана в 1990 году Дж. Питером Дойчем, Биллом Хиланом и Аланом Эмтэджем, изучающими информатику студентами из университета Макгилла в Монреале. Программой скачивались списки всех файлов со всех доступных анонимных FTP-серверов и строилась база данных, в которой можно было осуществлять поиск файлов по именам. Тем не менее, программой Арчи не индексировалось содержание этих файлов, по причине малого объема данных, так как все данные можно было без проблем найти вручную[32].

Распространение и развитие в 1991 году придуманного Марком Маккэхилом в университете Миннесоты сетевого протокола Gopher привело к созданию двух новых поисковых программ, Jughead и Veronica. Как и Арчи, они искали имена заголовки и файлов, которые были сохраненны в индексных системах Gopher. Программа Jughead (расшифровывается как. Jonzy's Universal Gopher Hierarchy Excavation And Display) предназначена для извлечения информации о меню от определенных Gopher-серверов. Veronica (расшифровывается как. Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) предназначалась для выполнения поиска по ключевым словам большинства заголовков меню Gopher во всех списках Gopher. Несмотря на то, что название поисковика Арчи не имело отношения к циклу комиксов «Арчи», все равно, Jughead и Veronica — персонажи этих комиксов[33].

На момент лета 1993 года еще не существовало ни одной системы, предназначенной для поиска в вебе, но поддерживались вручную многочисленные специализированные каталоги. В Женевском университете Оскаром Нирштрассом был написан ряд сценариев на Perl, периодически копирующих эти страницы и переписывающих их в стандартный формат. Это стало основой для первой примитивной поисковой системы сети W3Catalog, которая была запущена 2 сентября 1993 года[34].

Вероятно, первым поисковым роботом, написанным на языке Perl, был бот Мэтью Грэя из Массачусетского технологического института «World Wide Web Wanderer», созданный в июне 1993 года. Данный робот создавал «Wandex», поисковый индекс. Целью робота было измерение размера всемирной паутины и поиск всех веб-страниц, содержащих слова из запроса. В 1993 году также появилась «Aliweb», вторая поисковая система. Системой Aliweb не использовался поисковой робот, а вместо этого ожидались уведомления от администраторов веб-сайтов о наличии индексного файла в определенном формате на их сайтах[35].

Созданный Джонатаном Флетчером в декабре 1993 года JumpStation с помощью поискового робота искал веб-страницы и строил их индексы, используя веб-форму в качестве интерфейса для формулирования поисковых запросов. Данный инструмент был первым инструментом поиска в Интернете, сочетающим три важнейших функции поисковой системы: собственно поиск, индексация и проверка. В следствии ограниченности ресурсов компьютеров того времени, поиск и индексация были ограничены только заголовками и названиями веб-страниц, которые были найдены поисковым роботом[36].

Первой поисковой системой, полнотекстовой индексирующей ресурсы при помощи робота, стала запущенная в 1994 году система «WebCrawler». Она позволяла пользователям, в отличие от своих предшественниц, осуществлять поиск по любым словам, которые расположены на любой веб-странице. Именно с того момента данный метод стал стандартом для большинства поисковых систем. Также это был первый поисковик, который получил широкое распространение. В 1994 году была запущена разработанная в Университете Карнеги-Меллон система «Lycos», которая стала серьезным коммерческим предприятием[37].

После этого появилось множество других конкурирующих поисковых машин, таких как «Magellan», «Inktomi», «Infoseek», «Excite», «AltaVista» и «Northern Light». В определенном смысле данные поисковики конкурировали с популярными интернет-каталогами, как, например, «Yahoo!». Тем не менее, поисковые возможности каталогов были ограничены поиском по не по текстам веб-страниц, а самим каталогам. Позже, с целью улучшения поиска, каталоги снабжались поисковыми роботами или объединялись[38].

В 1996 году компания Netscape была выдвинута возможность эксклюзивной сделки с какой-либо поисковой системой, делая ее на веб-браузере Netscape поисковой системой по умолчанию. Это вызвало настолько большой интерес, что Netscape заключила контракт сразу с пятью крупнейшими поисковыми системами: Magellan, Yahoo!, Excite, Infoseek и Lycos. За 5 миллионов американских долларов в год они по очереди предлагались на поисковой странице Netscape[39].

Поисковые системы в конце 90-х годов 20 века участвовали в «Пузыре доткомов». Определенные компании при получении рекордной прибыли во время их первичного публичного предложения осуществили эффектный выход на рынок. Другие отказались от рынка общедоступных поисковых движков и стали работать только с корпоративным сектором, Northern Light была в их числе[40].

Поисковая система Google в 1998 году взяла на вооружение идею продажи ключевых слов. На тот момент Google был маленькой компанией, которая обеспечивала работу поисковой системы по адресу goto.com. Данный шаг для поисковых систем ознаменовал переход от соревнований друг с другом к одному из самых выгодных коммерческих предприятий в Интернете. Первые места в результатах поиска стали продаваться поисковыми системами отдельным компаниям.

Поисковая система Google занимает видное положение с начала 00-х годов 21 века. Компания добилась высокого положения с помощью хороших результатов поиска приработе алгоритма PageRank. Алгоритм был представлен общественности в статье «The Anatomy of Search Engine», которая была написана основателями Google, Ларри Пейджем и Сергеем Брином. Данный итеративный алгоритм осуществляет ранжирование веб-страниц, при основе на оценке количества гиперссылок на веб-страницу в предположении, что на «важные» и «хорошие» страницы ссылаются больше, чем на остальные. Интерфейс Google выдержан в минималистическом стиле, в котором нет ничего лишнего, в отличие от многих встраивающих поисковую систему в веб-портал конкурентов. Поисковая система Google стала настолько популярной, что порождала подражающие ей системы, такие как Mystery Seeker[41].

К 2000 году поиковик Yahoo! осуществлял поиск на основе системы Inktomi. В 2002 Yahoo! году купил Inktomi, а в 2003 году купил Overture, которому принадлежали AltaVista и AlltheWeb. После этого Yahoo! работал на основе поисковой системе Google вплоть до 2004 года, до того момента пока не запустил свой собственный поисковик на основе всех купленных ранее технологий[42].

Фирма Microsoft впервые осенью 1998 года запустила поисковую систему Microsoft Network Search с использованием результатов поиска от Inktomi. Совсем скоро в начале 1999 года сайт начал отображать смешанную с резултатами Inktomi выдачу Looksmart. Определенное время MSN search использовал результаты поиска от AltaVista. В 2004 году фирмой Microsoft начался переход к собственной поисковой технологии с использованием собственно разработанного поискового робота, называемого msnbot. После проведения ребрендинга в июне 2009 года компанией Microsoft была запущена поисковая система Bing. Microsoft и Yahoo! подписали соглашение 29 июля 2009, согласно которому Yahoo! Search работал на основе технологии Microsoft Bing[43] [2, 3, 5].

2.4. Принцип работы поисковых систем

Основные составляющие поисковой системы: поисковик, индексатор, поисковый робот.

Чаще всего системы работают поэтапно. В начале поисковый робот получает контент, после чего индексатором генерируется доступный для поиска индекс, а далее поисковиком обеспечивается функциональность для поиска индексируемых данных. Цикл индексации выполняется повторно для обновления поисковой системы данный[44].

Поисковые системы работают с хранением информации о многих веб-страницах, получаемых из HTML страниц. Поисковый робот или «Crawler» является программой, автоматически проходящей по всем найденным на странице ссылкам, выделяя их. Исходя из заранее заданного списка адресов или основываясь на ссылках, краулер осуществляет поиск еще не известных поисковой системе новых документов. Владелец сайта имеет возможность исключать определенные страницы при помощи robots.txt, при использовании которого можно запрещать индексацию каталогов сайта, страниц или файлов[45].

Поисковая система проводит анализ содержания каждой страницы с целью дальнейшего индексирования. Слова могут быть извлечены из текста страницы, заголовков или специальных полей — метатегов. Индексатор является модулем, анализирующим страницу, предварительно разбивая ее на части с применением собственных лексических и морфологических алгоритмов. Все элементы веб-страницы анализируются и вычленяются отдельно. Данные о веб-страницах хранятся в индексной базе данных для использования в последующих запросах. Индекс позволяет быстро находить информацию по запросу пользователя. Ряд подобных Google поисковых систем хранит часть исходной страницы, так называемый кэш, или ее целиком, а также различную информацию о веб-странице. Другие подобные AltaVista системы хранят каждое слово каждой найденной страницы. Использование кэша помогает осуществлять ускорение извлечения информации с уже посещенных страниц. Кэшированные страницы всегда содержат текст, заданный пользователем в поисковом запросе. Данный метод может быть полезен в случае, когда веб-страница обновилась, то есть уже не содержит текст запроса пользователя, а страница в кэше еще старая. Данная ситуация связана с дружественным по отношению к пользователю подходом Google и потерей ссылок, что предполагает выдачу из кэша коротких содержащих текст запроса фрагментов текста. Действует принцип наименьшего удивления, при котором пользователь обычно ожидает найти искомые слова в текстах полученных страниц. Также использование кэшированных страниц ускоряет поиск, и страницы в кэше могут содержать нигде более не доступную информацию[46].

Поисковик работает с полученными от индексатора выходными файлами. Поисковик принимает пользовательские запросы, обрабатывая их при помощи индекса и возвращая результаты поиска[47].

Когда пользователь вводит запрос в поисковую систему (чаще всего это происходит при помощи ключевых слов), система при проверке своего индекса выдает отсортированный по какому-либо критерию список наиболее подходящих веб-страниц, чаще всего с содержащей части текста или заголовок документа краткой аннотацией. Поисковый индекс строится по специальной методике на основе извлеченной из веб-страниц информации. С 2007 года поисковик Google позволяет искать с учетом времени создания искомых документов. Большинство поисковых систем поддерживает использование в запросах булевых операторов НЕ, ИЛИ, И,позволяя расширить или уточнить список искомых ключевых слов. При этом система будет искать фразы или слова точно так, как было введено. В некоторых поисковых системах существует возможность приближенного поиска, когда пользователи указывают расстояние до ключевых слов, расширяя область поиска. Также существует концептуальный поиск, когда используется статистический анализ употребления искомых слов и фраз в текстах веб-страниц. Данные системы позволяют составлять запросы на естественном языке. В качестве примера такой поисковой системы можно привести сайт ask com[48].

Полезность поисковой системы зависит от релевантности найденных ею страниц. Несмотря на то, что миллионы веб-страниц могут включать некую фразу или слово, одни из них могут быть более авторитетны, популярны или релевантны, чем другие. Большинство поисковых систем использует методы ранжирования, для вывода в начало списка лучших результатов. Поисковые системы по-разному решают, какие страницы более релевантны, и в каком порядке должны быть показаны результаты. Методы поиска со временем меняются вместе с самим Интернетом. Таким образом появились два основных типа поисковых систем: системы иерархически упорядоченных и предопределенных ключевых слов и системы с которых генерированием инвертированного индекса на основе анализа текста[49].

Большинство поисковых систем являются коммерческими предприятиями, получающими прибыль за счет рекламы, в некоторых поисковиках за отдельную плату можно купить первые места в выдаче для заданных ключевых слов. Не берущие денег за порядок выдачи результатов поисковые системы зарабатывают на контекстной рекламе, при этом рекламные сообщения соответствуют запросу пользователя. Данный вид рекламы выводится на странице со списком результатов поиска, и поисковики зарабатывают при каждом клике пользователя на рекламные сообщения[50] [4, 5].

В целом по главе можно сделать вывод о разнообразности и обширности поисковых систем, имеющих различный функционал и охват аудитории.

Заключение

Центральной задачей информационного поиска является помощь пользователю удовлетворения его информационной потребности. Так как описать информационные потребности пользователя технически не просто, они формулируются как представляющий из себя набор ключевых слов некоторый запрос, который характеризует то, что ищет пользователь.

Классической задачей информационного поиска, с которой началось развитие этой области, является поиск удовлетворяющих запросу документов, в рамках некоторой статической коллекции документов. Но список задач информационного поиска постоянно расширяется и теперь включает:

  • классификацию документов;
  • вопросы моделирования;
  • кластеризацию документов;
  • фильтрацию документов;
  • языки запросов;
  • извлечение информации, в частности реферирования и аннотирования документов;
  • проектирование пользовательских интерфейсов и архитектур поисковых систем.

Также, перед движками информационного поиска ставятся некоторые задачи по обработке естественных языков, включающие в себя разрешение лексической многозначности, морфологический анализ и подобные задачи.

Поисковая система представляет собой программно-аппаратный комплекс с веб-интерфейсом, который предоставляет возможность поиска информации в интернете. Используя данный комплекс, пользователь имеет возможность найти любую интересующую его информацию.

В данной работе рассмотрено понятие поисковой системы и история происхождения таких систем от первой базы данных списков Арчи до современных Google и Yahoo! Также выделены разновидности поисковых систем: использующие поисковых роботов системы, каталоги ресурсов, мета-системы и гибридные системы. Рассмотрен принцип работы поисковых систем, при котором на запрос пользователя система проверяет индекс и выдает список подходящих ресурсов.

Отдельным вопросом рассмотрены конкретные поисковые системы Google и Yandex.

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

  1. Ашманов И. С. Продвижение сайта в поисковых системах / И. С. Ашманов, А. А. Иванов. — М.: Вильямс, 2007. — 304 с.
  2. Байков В. Д. Интернет. Поиск информации. Продвижение сайтов / В. Д. Байков. — СПб.: БХВ-Петербург, 2000. — 288 с.
  3. Колисниченко Д. Н. Поисковые системы и продвижение сайтов в Интернете / Д. Н. Колисниченко. — М.: Диалектика, 2007. — 272 с.
  4. Ландэ Д. В. Интернетика: Навигация в сложных сетях: модели и алгоритмы / Д. В. Ландэ, А. А. Снарский, И. В. Безсуднов. — M.: Либроком, 2009. — 264 с.
  5. Ландэ Д. В. Поиск знаний в Internet / Д. В. Ландэ. — М.: Диалектика, 2005. — 272 с.
  6. Маннинг К. Введение в информационный поиск / К. Маннинг, П. Рагхаван, Х. Шютце. — M.: Вильямс, 2011. — 528 с.
  1. Маннинг К. Введение в информационный поиск / К. Маннинг, П. Рагхаван, Х. Шютце. — M.: Вильямс, 2011. — С. 383.

  2. Ландэ Д. В. Интернетика: Навигация в сложных сетях: модели и алгоритмы / Д. В. Ландэ, А. А. Снарский, И. В. Безсуднов. — M.: Либроком, 2009. — С. 168.

  3. Маннинг К. Введение в информационный поиск / К. Маннинг, П. Рагхаван, Х. Шютце. — M.: Вильямс, 2011. — С. 380.

  4. Ландэ Д. В. Поиск знаний в Internet / Д. В. Ландэ. — М.: Диалектика, 2005. — С. 105.

  5. Ландэ Д. В. Интернетика: Навигация в сложных сетях: модели и алгоритмы / Д. В. Ландэ, А. А. Снарский, И. В. Безсуднов. — M.: Либроком, 2009. — С. 173.

  6. Маннинг К. Введение в информационный поиск / К. Маннинг, П. Рагхаван, Х. Шютце. — M.: Вильямс, 2011. — С. 385.

  7. Ландэ Д. В. Интернетика: Навигация в сложных сетях: модели и алгоритмы / Д. В. Ландэ, А. А. Снарский, И. В. Безсуднов. — M.: Либроком, 2009. — С. 183.

  8. Ландэ Д. В. Поиск знаний в Internet / Д. В. Ландэ. — М.: Диалектика, 2005. — С. 111.

  9. Ландэ Д. В. Поиск знаний в Internet / Д. В. Ландэ. — М.: Диалектика, 2005. — С. 117.

  10. Ландэ Д. В. Интернетика: Навигация в сложных сетях: модели и алгоритмы / Д. В. Ландэ, А. А. Снарский, И. В. Безсуднов. — M.: Либроком, 2009. — С. 199.

  11. Маннинг К. Введение в информационный поиск / К. Маннинг, П. Рагхаван, Х. Шютце. — M.: Вильямс, 2011. — С. 417.

  12. Ландэ Д. В. Поиск знаний в Internet / Д. В. Ландэ. — М.: Диалектика, 2005. — С. 126.

  13. Ландэ Д. В. Интернетика: Навигация в сложных сетях: модели и алгоритмы / Д. В. Ландэ, А. А. Снарский, И. В. Безсуднов. — M.: Либроком, 2009. — С. 203.

  14. Маннинг К. Введение в информационный поиск / К. Маннинг, П. Рагхаван, Х. Шютце. — M.: Вильямс, 2011. — С. 447.

  15. Ландэ Д. В. Поиск знаний в Internet / Д. В. Ландэ. — М.: Диалектика, 2005. — С. 137.

  16. Колисниченко Д. Н. Поисковые системы и продвижение сайтов в Интернете / Д. Н. Колисниченко. — М.: Диалектика, 2007. — С. 105.

  17. Ландэ Д. В. Поиск знаний в Internet / Д. В. Ландэ. — М.: Диалектика, 2005. — С. 147.

  18. Байков В. Д. Интернет. Поиск информации. Продвижение сайтов / В. Д. Байков. — СПб.: БХВ-Петербург, 2000. — С. 189.

  19. Колисниченко Д. Н. Поисковые системы и продвижение сайтов в Интернете / Д. Н. Колисниченко. — М.: Диалектика, 2007. — С. 113.

  20. Ландэ Д. В. Поиск знаний в Internet / Д. В. Ландэ. — М.: Диалектика, 2005. — С. 157.

  21. Ландэ Д. В. Поиск знаний в Internet / Д. В. Ландэ. — М.: Диалектика, 2005. — С. 222.

  22. Ашманов И. С. Продвижение сайта в поисковых системах / И. С. Ашманов, А. А. Иванов. — М.: Вильямс, 2007. — С. 226.

  23. Ландэ Д. В. Интернетика: Навигация в сложных сетях: модели и алгоритмы / Д. В. Ландэ, А. А. Снарский, И. В. Безсуднов. — M.: Либроком, 2009. — С. 261.

  24. Ландэ Д. В. Интернетика: Навигация в сложных сетях: модели и алгоритмы / Д. В. Ландэ, А. А. Снарский, И. В. Безсуднов. — M.: Либроком, 2009. — С. 260.

  25. Ландэ Д. В. Интернетика: Навигация в сложных сетях: модели и алгоритмы / Д. В. Ландэ, А. А. Снарский, И. В. Безсуднов. — M.: Либроком, 2009. — С. 255.

  26. Ландэ Д. В. Поиск знаний в Internet / Д. В. Ландэ. — М.: Диалектика, 2005. — С. 237.

  27. Ашманов И. С. Продвижение сайта в поисковых системах / И. С. Ашманов, А. А. Иванов. — М.: Вильямс, 2007. — С. 221.

  28. Ландэ Д. В. Интернетика: Навигация в сложных сетях: модели и алгоритмы / Д. В. Ландэ, А. А. Снарский, И. В. Безсуднов. — M.: Либроком, 2009. — С. 237.

  29. Ландэ Д. В. Поиск знаний в Internet / Д. В. Ландэ. — М.: Диалектика, 2005. — С. 242.

  30. Ашманов И. С. Продвижение сайта в поисковых системах / И. С. Ашманов, А. А. Иванов. — М.: Вильямс, 2007. — С. 261.

  31. Байков В. Д. Интернет. Поиск информации. Продвижение сайтов / В. Д. Байков. — СПб.: БХВ-Петербург, 2000. — С. 191.

  32. Байков В. Д. Интернет. Поиск информации. Продвижение сайтов / В. Д. Байков. — СПб.: БХВ-Петербург, 2000. — С. 193.

  33. Колисниченко Д. Н. Поисковые системы и продвижение сайтов в Интернете / Д. Н. Колисниченко. — М.: Диалектика, 2007. — С. 126.

  34. Ландэ Д. В. Поиск знаний в Internet / Д. В. Ландэ. — М.: Диалектика, 2005. — С. 169.

  35. Ландэ Д. В. Поиск знаний в Internet / Д. В. Ландэ. — М.: Диалектика, 2005. — С. 172.

  36. Колисниченко Д. Н. Поисковые системы и продвижение сайтов в Интернете / Д. Н. Колисниченко. — М.: Диалектика, 2007. — С. 147.

  37. Байков В. Д. Интернет. Поиск информации. Продвижение сайтов / В. Д. Байков. — СПб.: БХВ-Петербург, 2000. — С. 195.

  38. Байков В. Д. Интернет. Поиск информации. Продвижение сайтов / В. Д. Байков. — СПб.: БХВ-Петербург, 2000. — С. 197.

  39. Колисниченко Д. Н. Поисковые системы и продвижение сайтов в Интернете / Д. Н. Колисниченко. — М.: Диалектика, 2007. — С. 158.

  40. Ландэ Д. В. Поиск знаний в Internet / Д. В. Ландэ. — М.: Диалектика, 2005. — С. 184.

  41. Колисниченко Д. Н. Поисковые системы и продвижение сайтов в Интернете / Д. Н. Колисниченко. — М.: Диалектика, 2007. — С. 169.

  42. Ландэ Д. В. Поиск знаний в Internet / Д. В. Ландэ. — М.: Диалектика, 2005. — С. 194.

  43. Байков В. Д. Интернет. Поиск информации. Продвижение сайтов / В. Д. Байков. — СПб.: БХВ-Петербург, 2000. — С. 199.

  44. Ландэ Д. В. Поиск знаний в Internet / Д. В. Ландэ. — М.: Диалектика, 2005. — С. 199.

  45. Ландэ Д. В. Интернетика: Навигация в сложных сетях: модели и алгоритмы / Д. В. Ландэ, А. А. Снарский, И. В. Безсуднов. — M.: Либроком, 2009. — С. 217.

  46. Ландэ Д. В. Интернетика: Навигация в сложных сетях: модели и алгоритмы / Д. В. Ландэ, А. А. Снарский, И. В. Безсуднов. — M.: Либроком, 2009. — С. 227.

  47. Ландэ Д. В. Поиск знаний в Internet / Д. В. Ландэ. — М.: Диалектика, 2005. — С. 204.

  48. Ландэ Д. В. Поиск знаний в Internet / Д. В. Ландэ. — М.: Диалектика, 2005. — С. 216.

  49. Ландэ Д. В. Интернетика: Навигация в сложных сетях: модели и алгоритмы / Д. В. Ландэ, А. А. Снарский, И. В. Безсуднов. — M.: Либроком, 2009. — С. 237.

  50. Ландэ Д. В. Интернетика: Навигация в сложных сетях: модели и алгоритмы / Д. В. Ландэ, А. А. Снарский, И. В. Безсуднов. — M.: Либроком, 2009. — С. 246.