Автор Анна Евкова
Преподаватель который помогает студентам и школьникам в учёбе.

Информационно-поисковые сайты

Данная работа посвящена описанию поисковых систем, которые осуществляют поиск информации.

В информационно-поисковой системе должен храниться весь необходимый информационный массив, из которого по требованиям пользователей выдается нужная информация. Поиск информации по требованию пользователя осуществляется либо автоматически, либо вручную (как в библиотеках, когда с запросом к работнику справочного фонда обращается читатель, а работник пользуется системой каталогов).

Во втором случае используются ЭВМ, снабженные специальными программными средствами, анализирующими процессы запросов, поиска и выдачи нужных документов. Таким образом, информационно-поисковые системы (ИПС) реализуют вопросно-ответное отношение, что сближает задачи, стоящие перед создателями таких систем, с теми задачами, которые решают создатели человеко-машинных систем.

Поиск информации является одной из наиболее распространенных и одновременно наиболее сложных задач, с которыми приходится сталкиваться в Сети любому пользователю. Однако если для рядового члена сетевого сообщества знание методов эффективного информационного поиска является желательным, но далеко не обязательным качеством, то для работников высокоинтеллектуальной сферы умение быстро ориентироваться в ресурсах Интернет и находить требуемые источники сегодня относится уже к числу базовых квалификационных навыков.

Цель работы – описать и дать характеристику информационно-поисковым системам.

Данная цель решается с помощью раскрытия следующих основных задач:

1) описать принципы работы поисковых машин;

2) дать характеристику глобальным поисковым системам;

3) описать стратегию и методику профессионального поиска информации.

1. Сущность поисковых машин

Задача поисковых машин - обеспечивать детальное разыскание информации в электронной вселенной, что может быть достигнуто только за счет учета (индексирования) всего содержания максимально возможного числа web-страниц. В отличие от справочников, все они функционируют в автоматизированном режиме и имеют одинаковый принцип действия. Поисковые системы состоят из двух базовых компонентов. Первый компонент представляет собой программу-робот, задача которого путешествовать с сервера на сервер, находить там новые или изменившиеся документы и скачивать их на главный компьютер системы. При этом робот, просматривая содержимое документа, находит новые ссылки, как на другие документы данного сервера, так и на внешние сайты. Программа самостоятельно направляется по указанным ссылкам, находит новые документы и ссылки в них, после чего процесс повторяется вновь, напоминая хорошо известный в библиографии “метод снежного кома”.

Выявленные документы обрабатываются (индексируются) вторым компонентом поисковой системы. При этом, как правило, учитывается все содержание страницы, включая текст, иллюстрации, аудио и видео файлы и пр. Индексации подвергаются все слова в документе, что как раз и дает возможность использовать поисковые системы для детального поиска по самой узкой тематике. Образуемые гигантские индексные файлы, хранящие информацию о том какое слово, сколько раз, в каком документе и на каком сервере употребляется и составляют базу данных, к которой происходит обращение пользователей, вводящих в строку запроса сочетания ключевых слов.

Выдача результатов осуществляется с помощью специального модуля, который производит интеллектуальное ранжирование результатов. При этом берется в расчет местоположение термина в документе (название, заголовок, основной текст), частота его повторения, процентное соотношение искомого термина к остальному тексту страницы, а также число и авторитетность внешних ссылок на данную страницу с других сайтов.

Основные параметры поисковых машин

К основным параметрам поисковых систем относятся:

- объем индексных файлов (число проиндексированных серверов и отдельных документов);

- степень оперативности обновления базы данных за счет включения сведений о новых материалах и удаления устаревших;

- возможности для составления запроса;

- интеллектуальность системы ранжирования результатов поиска;

- наличие дополнительных сервисных функций, облегчающих работу пользователя.

Первая величина, являющаяся ключевой, устанавливает широту охвата материала и определяется числом проиндексированных документов. Сейчас эта цифра для лидеров мирового сетевого поиска колеблется в пределах от 1 до 3 с лишним миллиардов.

2. Глобальные поисковые системы

2.1 Поисковая система google

Google отличается высокой степенью комфорта для пользователя. Несмотря на то, что это глобальная поисковая система, пользователи из неанглоязычных стран автоматически переадресовываются на интерфейс на их родном языке. Русскоязычный интерфейс, в частности, находится по адресу www.google.com.ru. Длительность процесса в большинстве случаев не превышает одной секунды, несмотря на огромный объем индексного файла системы.

2.2. Поисковая система AlltheWeb

Поисковая система, существующая с 1997 года, расположена в Европе (Норвегия) и изначально была ориентирована преимущественно на европейские сайты. В настоящее время отражает более 2.1 миллиарда документов, среди которых весомое место занимают русскоязычные материалы. Обновление базы производится раз в две недели, среднее время индексации - 5 недель. AlltheWeb способен индексировать PDF-файлы, которые обрабатываются без ограничения их размера.

Весь Web - интерфейс главной страницы.

Помимо текстовых разысканий в WWW, AlltheWeb поддерживает поиск в группах новостей по интересам, файлов на FTP-серверах, иллюстраций, видео фрагментов и MP3 файлов.

2.3. Поисковая система Alta Vista

На данный момент Alta Vista содержит сведения всего об 1 миллиарде web-страниц и статей из телеконференций. Декларируется полное обновление базы каждые три месяца. На сегодня этих показателей уже явно недостаточно, чтобы сохранить лидирующие позиции в мировом поисковом сервисе.

Перечень результатов в AltaVista. Под строкой с запросом приведены термины,

 ассоциируемые с искомыми ключевыми словами.

Единственным сервисом Alta Vista, сохраняющим актуальность является поиск мультимедийный файлов, в особенности аудио и видео. Поисковый механизм при этом опирается на имена мультимедийных файлов и подписи к иллюстрациям. До некоторой степени может быть полезна и функция перевода найденных страниц на ведущие европейские, а также китайский, корейский и японский языки.

3. Информационно-поисковая система по законодательству – Garant

Программа Garant содержит в себе все Российское законодательство, а так же бухгалтерские законопроекты и системы налогов и документы для руководителя Менеджера. Все это тоже может пригодиться адвокату. С помощью этой программы юрист сможет быстро отыскать необходимый ему закон или документ, что значительно увеличит его работоспособность.

4. Стратегия и методика профессионального информационного поиска

Приступая к информационному поиску в Интернет следует всегда помнить несколько основных моментов. Прежде всего никакие средства навигации - справочники или поисковые машины не охватывают всего текущего информационного массива Интернет. По некоторым оценкам даже такие признанные лидеры сетевого поиска как Google или AlltheWeb отражают не более трети совокупного содержания Сети. Причина этого - постоянный колоссальный прирост объемов информации в Интернет, который, несмотря на все усилия навигационных служб, содержит огромное число белых пятен.

Помимо быстрого роста и изменения местоположения документов, большинство поисковых систем имеют внутренние ограничения на отражение материалов одного сайта и на объем индексируемой части страницы. Программы-роботы зачастую не идут в глубь сервера дальше определенной директории, что также сокращает число отраженных материалов.

В тоже время некоторые серверы имеют собственную систему поиска, которая отражает весь их информационный массив. Выявив такие сервера с помощью справочников, можно провести более детальное их обследование, использовав локальный поисковый механизм. Например, при поиске сведений о конкретном виде креветки, искусственно разводимой человеком, весьма рациональным будет найти и просмотреть сервера, посвященные в целом аквакультуре, отрасли, занимающейся выращиванием морепродуктов в искусственных теплых водоемах, а при выявлении данных о конкретном заболевании - сервера учреждений, ведущих исследования в данной области.

Таким образом, для достижения наиболее полных результатов следует применять справочники и поисковые системы в сочетании друг с другом.

Существует также ряд общих требований к поисковой деятельности, соблюдение которых повышает эффективность и экономит время, затрачиваемое на разыскание данных.

1. Для поиска материалов по крайне узкой специфической тематике стоит начинать с мета-машин, дабы сразу получить представление о том насколько богато данная проблематика представлена в Интернет.

2. Для получения более полных результатов по сложному запросу (например, там где есть ограничения не только по содержанию документа, но и по дате обновления или местоположению документов) поиск рекомендуется проводить отдельно в каждой поисковой машине. Поисковые системы имеют сильный разнос в отражении документов и их последовательное использование в значительной степени расширяет охват материала.

3. При разыскании документов об отдельной стране или на конкретном языке следует отдать предпочтение национальным/региональным поисковым средствам. Так, например, при поиске материалов на испанском языке, стоит обращаться не к глобальным, а к испанским поисковым системам, например, Trovator

В отличии от стабильного и контролируемого фонда документов в библиотеке, в Сети мы имеем дело с гигантским и непрерывно меняющимся информационным массивом, поиск данных в котором является весьма и весьма сложным процессом.

Навыками информационных разысканий в той или иной степени обладают большинство пользователей глобальных компьютерных сетей. И дилетанты и профессионалы зачастую пользуются одними и теми же инструментами. Однако результаты разысканий и затраченное на них время различаются в очень значительной степени.

Поисковые системы (search engines) распространены в гораздо большем количестве, нежели электронные справочники и число их, составляющее сегодня нескольких десятков, продолжает неуклонно увеличиваться. Профессиональная работа с ними требует специальных навыков, поскольку простой ввод искомого термина в поисковую строку скорее всего приведет к получению списка из сотен тысяч документов, содержащих данное понятие, что практически равносильно нулевому результату.