Виды поисковых систем в России
Первые поисковые системы появились в сети Интернет более десяти лет назад. Тогда они выполняли лишь одну функцию – поиска ссылок к недавно созданным страницам.
На начальном этапе развития интернета, число пользователей сети было невелико и количество информации относительно небольшим. В подавляющем большинстве случаев пользователями Интернет были сотрудники различных университетов или научных организаций. В то время поиск нужной информации в сети был не столь актуален, как теперь. Сегодня же поисковые системы превратились в многофункциональный сервис. Они позволяют пользователям находить в сети Интернет самую разнообразную информацию, благодаря чему пользуются огромным успехом.
Поисковые системы
Одной из первых попыток организации доступа к информационным ресурсам сети стало создание тематических каталогов сайтов. Первым, открывшимся в апреле 1994 г, стал Yahoo. Это еще не было поисковой системой, в современном понимании, т.к. возможность поиска информации ограничивалась ресурсами, зарегистрированными в каталоге Yahoo. Каталоги ссылок ранее использовались довольно широко, но в настоящее время практически утратили свою популярность. Объяснение этому очень простое – даже современные, содержащие огромное количество ресурсов каталоги, представляют информацию лишь о довольно незначительной части сети. Для сравнения - самый полный каталог сети интернет - DMOZ содержит информацию примерно о 12.000.000 ресурсов, в то время как база данных самой полной поисковой системы Google состоит более чем из 28.000.000.000 документов.
Первой полноценной поисковой системой в 1994г. стал проект WebCrawler. Далее в 1995 году появились поисковые системы AltaVista и Lycos. В 1997 году в Стэнфордском университете, в рамках исследовательского проекта, была создана Google - самая популярная поисковая система на данный момент в мире. В 1997 году появилась поисковая система - Yandex, лидер в русскоязычной части Интернета. На данный момент основными поисковыми системами являются три международных – Google, Yahoo и MSN Search. Остальные, коих не мало, используют целиком или частично базы и (или) алгоритмы выше приведенных систем. В Рунете основной поисковой системой является Яндекс, далее по популярности идут Rambler, Google.ru, Mail.ru и Aport.
Поисковая система - это сумма следующих компонентов:
Web server (веб-сервер) – сервер поисковой машины, который осуществляет взаимодействие между пользователем и остальными компонентами системы.
Spider (паук)- программа написанная по принципу браузера, предназначена для скачивания веб-страниц. Браузер предназначен для визуального использования страниц, а паук работает с HTML кодом напрямую. Чтобы посмотреть "сырой" исходник нажмите в меню браузера: Вид- Просмотр HTML кода.
Crawler («путешествующий» паук) – программа, которая автоматически уходит по всем внешним ссылкам страницы. Ее задача - поиск не известных (или измененных) документов и в расстановке приоритетов, куда дальше должен идти Spider.
Indexer (индексатор) - программа-анализатор скаченных пауками веб-страниц. Она "разбирает" на части скачанную страницу и анализирует ее элементы, такие как текст, служебные html-теги, заголовки, особенности стилистики и структурные формы.
Database (база данных) – хранилище для скачанных и обработанных страниц - общая база данных поисковой машины.
Search engine results engine (система выдачи результатов) – извлекает результаты поиска из базы данных поисковой системы. Именно она решает, какие страницы более соответствуют запросу пользователя и отсортировывает их в нужном порядке. Модуль работает согласно заданным поисковой системой алгоритмам ранжирования.
Наиболее яркие представители
Google (www. google.ru) |
Основатели Google - аспиранты Стэнфордского университета Сергей Брин и Ларри Пейдж. Из скромной затеи двух энтузиастов она выросла в интернет-гиганта, услугами которого ежедневно пользуются миллионы человек в 80 странах мира. В одном из интервью Брин, родившийся в Москве, объяснил появление Google так: "Когда мы начинали, было несколько поисковиков, но качество их работы оставляло желать лучшего. Каждый запрос возвращал вам около тысячи результатов, отсортированных в случайном порядке". Именно релевантность результатов, их соответствие запросу, была поставлена во главу угла новой системы. Помимо просто поиска, здесь можно сравнивать цены на товары в интернет-магазинах, читать новости и многое другое. Есть и служба блокировки назойливой интернет-рекламы. Google первым применил новую технологию поиска и выдачи результатов - релевантность интернет-страниц - то, что не лежит на данной конкретной странице, но тем ни менее влияет на ранг ее выдачи. Поисковая система Google учитывает гипертекстовую структуру Интернета, и какие страницы на какие ссылаются. Google сама определяет релевантность интернет-страниц Страница, на которую ссылаются чаще, более релевантна и значит более популярна. Лидерство Google никто не может оспорить. Акции компании за 2005 год выросли почти в два с половиной раза. Поисковый трафик за тот же период вырос примерно на 30%. Коммерческое использование Google запущен в 2000 году и благодаря своему программному обеспечению, обеспечивающему прекрасную релевантность результатов поиска, а также дополнительным сервисам (такому, как поиск новостей, встраиваемый в браузер "Google bar" с "гасителем всплывающих окон") быстро набрал популярность среди "продвинутых" пользователей, которые использовали Сеть в первую очередь как рабочий инструмент. Эффективную систему "тематической рекламы" также оценили рекламодатели. Не случайно Washington Post назвала сервис Google одним из 10 важнейших интернет-достижений 2003 года.Сейчас Google ежедневно обрабатывает более 200 миллионов запросов. В своей работе в настоящее время Google применяет более 15 тысяч компьютеров. Объем проиндексированных страниц более 10 миллиардов! Справка: ... на сегодняшний день, благодаря дистрибьюторским соглашениям с Yahoo, AOL и Ask Jeeves, Google ежедневно обрабатывает до 80% всех поисковых запросов, сделанных в интернете. Для сравнения. Яндекс в настощее время имеет в день 600 тысяч посетителей в день, количество компьютеров 40 единиц, проиндексировано 15 миллионов страниц. Google - лидер в списке самых популярных поисковиков. В результате исследования, проведенного компанией comScore, выяснилось, что Google - самая популярная из поисковых систем в США. В августе этот поисковик обработал 63% поисковых запросов, что на 1,1% превышает показатели июля. На втором месте оказалась поисковая система Yahoo, обработавшая 19,6% запросов (20,5% в июле), а на третьем - Microsoft (доля обработанных запросов - 8,3%). Замыкают пятерку самых популярных поисковиков Ask.com - 4,8% (доля обработанных запросов возросла на 0,3%) и AOL - 4,3% (рост - 0,1%). Первое место занял Google (41,3 млрд. поисковых запросов; 62,4% рынка), второе — Yahoo! (8,5 млрд. запросов; 12,8% рынка) и китайский поисковик Baidu.com (3,4 млрд. запросов; 5,2% рынка). |
Яndex (www.yandex.ru) |
Основными нововведениями поисковой системы www.yandex.ru были: проверка уникальности документа – этим достигалось исключение копий в различных кодировках. И отличительные свойства поискового алгоритма Yandex. Поиск с учетом морфологии русского языка, поиск с учетом расстояния, и тщательно разработанный алгоритм оценки релевантности. Несколько месяцев спустя, в поисковой системе www.yandex.ruбыл реализован естественно-языковой запрос. Теперь поисковик можно спрашивать «по-русски», задавая длинные вопросы. Например: «где купить холодильник» или «генетически модифицированные продукты». В 1998-99гг. вместе с ростом Рунета выросли и услуги поисковой системы Yandex. Увеличение количества запросов привело к необходимости оптимизации поискового механизма. Новый поисковый робот позволил предоставить возможности поиска по разным зонам текста, ограничение поиска на группу сайтов, поиск по ссылкам и изображениям. Также, впервые в Рунете, было введено понятие «индекс цитирования» - количество сайтов, ссылающихся на данный ресурс. Был открыт «Семейный www.yandex.ru», фильтрация результатов поиска от мата и порнографии. В 2000 году поисковая система Yandex была преобразована в юридическое лицо. Тогда же начинается активное продвижение поисковика в традиционных, оффлайновых СМИ. Агрессивная, но эффективная рекламная кампания принесла свои плоды – слоган «Найдется все», некоторое время спустя, становится нарицательным. Для привлеченных рекламой пользователей поисковая система www.yandex.ru открывает новые службы – почта, новости, открытки и закладки. Плюс, стилизованный под Google Toolbar, спартанский поисковик ya.ru. Поиск теперь ведется не только по веб-страницам, но и по специализированным массивам данных – новостям и товарам. 2003 год - поисковая система Yandex продолжает развиваться. Яндекс научился находить документы не только в формате HTML. Служба Yandex Новости радикально преобразилась: пользователям предложен оригинальный сервис – автоматическое объединение новостей в сюжеты и выделение главных тем дня. На сегодняшний день www.yandex.ru- крупнейший российский портал: его доля среди поисковых машин Рунета составляет около 45%, в то время как идущий следом Rambler может похвастаться лишь 22%. Каждый день более 500 серверов компании отдают 2.7 терабайт трафика двум с половиной миллионам посетителей. “Яндекс” вошел в топ-10 поисковых машин. Согласно отчету, опубликованному компанией comScore, поисковая система Яндекс попала в десятку самых популярных поисковиков в мире по результатам декабря прошлого года. Согласно представленному отчету, в декабре было сделано 66,2 млрд. поисковых запросов. 566 миллионов из них были заданы Яндексу, что позволило сервису занять 9-е место в списке поисковиков. Доля Яндекса на мировом рынке поисковых сервисов составила 0,9%. |
Rambler (www.rambler.ru) |
Еще год система отлаживалась, к чести создателей поисковик не работал всего одни сутки – сгорели жесткие диски. Существовавшие на то время в Рунете две – три поисковых системы не выдержали конкуренции и «канули в Лету». Весной 1997 года появляется уникальный рейтинг-классификатор Rambler’s Top –100, который не только оценивал популярность российских ресурсов, но и позволял одним кликом попасть на них. Rambler’s Top –100 быстро стал универсальным барометром сети, общим стандартом медиаизмерений. Следующий шаг в развитии поисковой системы Rambler произошел в июне 2003 года. Компания запустила новую версию поисковой машины, которая отличается от предыдущей по двум основным параметрам. Первое и главное – значительно увеличилась скорость поиска; второе, благодаря новой архитектуре системы, обновление поискового индекса происходит несколько раз в день. Теперь поисковик всегда находит самые свежие документы и последние новости. Рамблер знаком с русским языком, понимает термины типа «б/у», «у.е.» и «а/я». Как дань моде, открылась лаконичная версия поисковой системы по адресу «r0.ru». Содержание ее стандартно – строка поиска, почта и новости. Еще одна уникальная особенность поисковика Rambler, это механизм ассоциаций. Помимо стандартной ответной страницы, в которой найденные документы расположены в порядке убывания релевантности, появляется строка - «У нас также ищут». В ней приведены слова и словосочетания тематически связанные с запросом. Новый механизм также исправляет ошибки запросов. На введенное gjujlf пользователь получит теперь положительный результат: сведения о погоде (gjujlf – это слово «погода» набранное латиницей). |
Заключение
Поисковые системы обычно состоят из трех компонент:
- агент (паук или кроулер), который перемещается по Сети и собирает информацию;
- база данных, которая содержит всю информацию, собираемую пауками;
- поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.
Во время путешествия по Интернету, вам обязательно понадобиться помощь поисковой машины. Очень часто приходится искать информацию в сети не зная даже приблизительно адрес страницы, на которой она может располагаться. В таких случаях на помощь приходит поисковая машина.
Поисковые машины - это роботизированные системы. Специальная программа-робот, которую называют паук или ползун, постоянно обходит Сеть в поисках новой информации, которую она вносит в базу данных. База данных содержит URL-адреса и проиндексированную информацию, связанную с этими адресами.
При поиске в Интернете важны две составляющие – полнота (ничего не потеряно) и точность (не найдено ничего лишнего). Обычно это все называют одним словом – релевантность, то есть соответствие ответа вопросу. Важными показателями являются охват и глубина поисковой машины (насколько велика база данных по документам), скоростью обхода и актуальностью ссылок (скорость обновления информации в этой базе данных), качеством поиска (чем ближе к началу списка оказывается нужный вам документ, тем лучше работает релевантность).
Кроме релевантности, существуют важные пользовательские характеристики: скорость поиска (медленная поисковая машина неэффективна в работе), поисковые возможности (как именно происходит индексация: только по ключевым словам web-страницы или по всему тексту, с учетом морфологии или без него, с поиском по тэгам HTML - заголовкам, ссылкам, подписям к изображениям и др.), а также дополнительные удобства (удобный интерфейс, наличие специальных функций, например, поиск по датам и серверам). Здесь все зависит от того, что вы предпочитаете.
Среди ведущих поисковых машин на данный момент - Яndex, Google, Rambler и др.
- Рецидивная, профессиональная и организованная преступность
- Система детерминант преступности
- Система управления рисками и внутреннего контроля в обществе: организация системы и ее сущность
- Объект, предмет, методы теории коммуникации
- Объект предмет методы теории коммуникаций
- Роль совета директоров в обществе: состав и обязанности
- Финансирование и кредитование нововведений
- Исследование машинописных документов. Признаки пишущих машинок, отображающиеся в машинописном тексте
- Виды технической подделки документов. Наиболее распространенные способы подделки текстов, отдельных реквизитов документов и признаки, в которых они проявляются
- Справочно вспомогательные учёта. Паремузян Геворк
- Управленческие революции
- Выбор организационно-правовой формы для моего бизнеса