Автор Анна Евкова
Преподаватель который помогает студентам и школьникам в учёбе.

Диалектическое единство данных и методов в информационном процессе (Теоретические аспекты информационного процесса)

Содержание:

Введение

Актуальность работы. Достоверность информации - данные возникают в момент регистрации сигналов, но не все сигналы являются «полезными» — всегда присутствует какой-то уровень посторонних сигналов, в результате чего полезные данные сопровождаются определенным уровнем «информационного шума». Если полезный сигнал зарегистрирован более четко, чем посторонние сигналы, достоверность информации может быть более высокой. При увеличении уровня шумов достоверность информации снижается. В этом случае для передачи того же количества информации требуется использовать либо больше данных, либо более сложные методы. Актуальность информации - это степень соответствия информации текущему моменту времени. Нередко с актуальностью, как и с полнотой, связывают коммерческую ценность информации. Поскольку информационные процессы растянуты во времени, то достоверная и адекватная, но устаревшая информация может приводить к ошибочным решениям. Необходимость поиска (или разработки) адекватного метода для работы с данными может приводить к такой задержке в получении информации, что она становится неактуальной и ненужной. Цель работы – изучить диалектическое единство данных и методов в информационном процессе. Задачи: - рассмотреть теоретические аспекты информационного процесса; - провести анализ применения диалектического единства данных в информационном процессе. Объект исследования – информационный процесс. Предмет исследования – диалектическое единство данных и методов. Методы исследования – анализ, обобщение полученной информации. Структура работы состоит из введения, двух глав, заключения, списка литературы. 

1. Теоретические аспекты информационного процесса

1.1 Понятие информация

Информационная система – представляет собой совокупность организационных, технических, программных и информационных средств, объединенных в единую систему с целью сбора, хранения, обработки и выдачи необходимой информации, предназначена для выполнения заданных функций.

Информационные технологии (ИТ) тесно связана с информационными системами, которые являются для нее основной средой. Добавление к понятию “система” слова “информационная” отражает цель ее создания и функционирования.

Информационная система (ИС) – это организационно-упорядоченная взаимосвязанная совокупность средств, и методов ИТ, а также используемых для хранения, обработки и выдачи информации в интересах достижения поставленной цели. Такое понимание информационной системы предполагает использование в качестве основного технического средства переработки информации ЭВМ и средств связи, реализующих информационные процессы и выдачу информации, необходимой в процессе принятия решений задач из любой области.

ИС (информационная система) является средой, составляющими элементами которой являются компьютеры, компьютерные сети, программные продукты, БД, люди, различного рода технические и программные средства связи и т.д. Хотя сама идея ИС и некоторые принципы их организации возникли задолго до появления компьютеров, однако компьютеризация в десятки и сотни раз повысила эффективность ИС и расширила сферы их применения.

Реализация функций ИС невозможна без знания ориентированной на нее ИТ. ИТ может существовать и вне сферы ИС. Таким образом, ИТ является более емким понятием, отражающим современное представление о процессах преобразования информации в информационном обществе.

В зависимости от конкретной области применения ИС могут очень сильно различаться по своим функциям, архитектуре, реализации. Можно выделить основные свойства, которые являются общими для всех ИС.

Основные свойства информационных систем:

-структура ИС, ее функциональное назначение должны соответствовать поставленным целям;

-производство достоверной, надежной, своевременной и систематизированной информации, основанной на использование БД, экспертных систем и баз знаний;

-так как любая ИС предназначена для сбора, хранения и обработки информации, то в основе любой ИС лежит среда хранения и доступа к данным. Среда должна обеспечивать уровень надежности хранения и эффективность доступа, которые соответствуют области применения ИС;

-ИС должна контролироваться людьми, ими пониматься и использоваться в соответствии с основными принципами, реализованными в виде стандарта предприятия на ИС. Интерфейс пользователя ИС должен быть легко понимаем на интуитивном уровне.

В рамках любой организации можно выделить управляющую часть, составляющую в совокупности систему управления. Воздействие обеих частей системы управления друг на друга осуществляется в виде передачи информации.

Таким образом, в системе управления всегда присутствует замкнутый информационный контур.

Информационный контур вместе со средствами сбора, передачи, обработки и хранения информации, а также с персоналом, осуществляющим эти действия, образуют информационную систему организации.

Цель функционирования информационной системы организации –

это производство нужной для организации информации и создание информационной и технической сред для осуществления управления информацией.

Компоненты информационной системы схематично таковы.

Все процессы преобразования информации в информационной системе осуществляются с помощью информационных технологий.

Информационная система является средой для реализации информационных технологий.

Информационная технология – система методов и способов сбора, передачи, накопления, обработки, хранения, представления и использования информации.

Информационная технология в сфере экономики и управления позволяют перерабатывать исходных данные в стратегическую и оперативную информацию механизма принятия решений с помощью аппаратных и программных средств с целью достижения оптимальных рыночных параметров объекта управления.

Информационная технология реализуется в автоматизировано и традиционном (чаще всего в бумажном) видах.

Автоматизированная технология предполагает существование комплекса соответствующих технических средств реализующих информационный процесс и систему управления этим комплексом технических средств.

Современная компьютерная информационная технология это технология с дружественным интерфейсом работы пользователя, использующая персональные компьютеры и телекоммуникационные средства для доступа к удаленным базам данных и программам.

Все процессы преобразования информации в информационной системе осуществляются с помощью информационных технологий.

Информационная система является средой для реализации информационных технологий.

Информационная технология представляет собой систему методов и способов сбора, передачи, накопления, обработки, хранения, представления и использования информации.

Информационная технология в сфере экономики и управления позволяют перерабатывать исходных данные в стратегическую и оперативную информацию механизма принятия решений с помощью аппаратных и программных средств с целью достижения оптимальных рыночных параметров объекта управления.

Информационная технология реализуется в автоматизировано и традиционном (чаще всего в бумажном) видах.

Автоматизированная технология предполагает существование комплекса соответствующих технических средств реализующих информационный процесс и систему управления этим комплексом технических средств.

Современная компьютерная информационная технология это технология с дружественным интерфейсом работы пользователя, использующая персональные компьютеры и телекоммуникационные средства для доступа к удаленным базам данных и программам.

1.2 Особенности диалектического единства данных информации

Динамический характер информации. Информация не является статичным объектом — она динамически меняется и существует только в момент взаимодей­ствия данных и методов. Все прочее время она пребывает в состоянии данных. Таким образом, информация существует только в момент протекания инфор­мационного процесса. Все остальное время она содержится в виде данных.

Требование адекватности методов. Одни и те же данные могут в момент потреб­ления поставлять разную информацию в зависимости от степени адекватности взаимодействующих с ними методов. Например, для человека, не владеющего китайским языком, письмо, полученное из Пекина, дает только ту информа­цию, которую можно получить методом наблюдения (количество страниц, цвет и сорт бумаги, наличие незнакомых символов и т. п.). Все это информация, но это не вся информация, заключенная в письме. Использование более адекватных методов даст иную информацию.

Диалектический характер взаимодействия данных и методов. Обратим внимание на то, что данные являются объективными, поскольку это результат регистрации объективно существовавших сигналов, вызванных изменениями в материальных телах или полях. В то же время, методы являются субъективными. В основе искусственных методов лежат алгоритмы (упорядоченные последовательности команд), составленные и подготовленные людьми (субъектами). В основе естест­венных методов лежат биологические свойства субъектов информационного процесса. Таким образом, информация возникает и существует в момент диа­лектического взаимодействия объективных данных и субъективных методов.

Такой дуализм известен своими проявлениями во многих науках. Так, например, в основе важнейшего вопроса философии о первичности материалистического и идеалистического подходов к теории познания лежит не что иное, как двойственный характер информационного процесса. В обоснованиях обоих подходов нетрудно обна­ружить упор либо на объективность данных, либо на субъективность методов. Подход к информации как к объекту особой природы, возникающему в результате диалекти­ческого взаимодействия объективных данных с субъективными методами, позволяет во многих случаях снять противоречия, возникающие в философских обоснова­ниях ряда научных теорий и гипотез.

Свойства информации

Итак, информация является динамическим объектом, образующимся в момент вза­имодействия объективных данных и субъективных методов. Как и всякий объект, она обладает свойствами (объекты различимы по своим свойствам). Характерной особенностью информации, отличающей ее от других объектов природы и общества, является отмеченный выше дуализм: на свойства информации влияют как свойства данных, составляющих ее содержательную часть, так и свойства методов, взаимодействующих с данными в ходе информационного процесса. По окончании процесса свойства информации переносятся на свойства новых данных, то есть свойства методов могут переходить на свойства данных.

Можно привести немало разнообразных свойств информации. Каждая научная дис­циплина рассматривает те свойства, которые ей наиболее важны. С точки зрения информатики наиболее важными представляются следующие свойства: объективность, полнота, достоверность, адекватность, доступность и актуальность информации.

Объективность и субъективность информации. Понятие объективности информации является относительным. Это понятно, если учесть, что методы являются субъек­тивными. Более объективной принято считать ту информацию, в которую методы вносят меньший субъективный элемент. Так, например, принято считать, что в результате наблюдения фотоснимка природного объекта или явления образуется более объективная информация, чем в результате наблюдения рисунка того же объекта, выполненного человеком. В ходе информационного процесса степень объективности информации всегда понижается. Это свойство учитывают, например, в правовых дисциплинах, где по-разному обрабатываются показания лиц, непосред­ственно наблюдавших события или получивших информацию косвенным путем (посредством умозаключений или со слов третьих лиц). В не меньшей степени объективность информации учитывают в исторических дисциплинах. Одни и те же события, зафиксированные в исторических документах разных стран и народов, выглядят совершенно по-разному. У историков имеются свои методы для тестирования объективности исторических данных и создания новых, более достоверных данных путем сопоставления, фильтрации и селекции исходных данных. Обратим внимание на то, что здесь речь идет не о повышении объективности данных, а о повышении их достоверности (это совсем другое свойство)

Полнота информации. Полнота информации во многом характеризует качество информации и определяет достаточность данных для принятия решений или для создания новых данных на основе имеющихся. Чем полнее данные, тем шире диапазон методов, которые можно использовать, тем проще подобрать метод, вносящий минимум погрешностей в ход информационного процесса.

Достоверность информации. Данные возникают в момент регистрации сигналов, но не все сигналы являются «полезными» — всегда присутствует какой-то уровень посторонних сигналов, в результате чего полезные данные сопровождаются опреде­ленным уровнем «информационного шума». Если полезный сигнал зарегистрирован более четко, чем посторонние сигналы, достоверность информации может быть более высокой. При увеличении уровня шумов достоверность информации снижа­ется. В этом случае для передачи того же количества информации требуется исполь­зовать либо больше данных, либо более сложные методы.

Адекватность информации — это степень соответствия реальному объективному состоянию дела. Неадекватная информация может образовываться при создании новой информации на основе неполных или недостоверных данных. Однако и полные, и достоверные данные могут приводить к созданию неадекватной информации в случае применения к ним неадекватных методов.

Доступность информации — мера возможности получить ту или иную информа­цию. На степень доступности информации влияют одновременно как доступность данных, так и доступность адекватных методов для их интерпретации. Отсутствие доступа к данным или отсутствие адекватных методов обработки данных приводят к одинаковому результату: информация оказывается недоступной. Отсутствие адекват­ных методов для работы с данными во многих случаях приводит к применению неадекватных методов, в результате чего образуется неполная, неадекватная или недостоверная информация.

Актуальность информации — это степень соответствия информации текущему моменту времени. Нередко с актуальностью, как и с полнотой, связывают коммер­ческую ценность информации. Поскольку информационные процессы растянуты во времени, то достоверная и адекватная, но устаревшая информация может приво­дить к ошибочным решениям. Необходимость поиска (или разработки) адекватного метода для работы с данными может приводить к такой задержке в получении инфор­мации, что она становится неактуальной и ненужной. На этом, в частности, осно­ваны многие современные системы шифрования данных с открытым ключом. Лица, не владеющие ключом (методом) для чтения данных, могут заняться поиском ключа, поскольку алгоритм его работы доступен, но продолжительность этого поиска столь велика, что за время работы информация теряет актуальность и, соответственно, связанную с ней практическую ценность.

2. Анализ применения диалектического единства данных в информационном процессе

2.1 Основные аспекты применения диалектического единства данных

Извлечение информации

Источниками информации могут являться данные, знания, документы. Источниками данных в любой предметной области являются объекты и их свойства, процессы и функции, выполняемые этими объектами или для них. Любая предметная область рассматривается в виде трех представлений: реального, формального и информационного.

Непосредственно в процессе извлечения информации можно выделить следующие фазы:

накопление — системное или бессистемное (стихийное) накопление информации в рамках предметной области;

структурирование — выделение основных понятий, выработка структуры представления информации, обладающей максимальной наглядностью, простотой изменения и дополнения;

формализация — представление структурированной информации в форматах машинной обработки, т.е. на языках описания данных и знаний;

обслуживание — корректировка формализованных данных и знаний (добавление, обновление), удаление устаревшей информации, фильтрация данных и знаний для поиска информации, необходимой пользователям.

По аналогии с добычей полезных ископаемых процесс извлечения информации направлен на получение наибольшей ее концентрации. В связи с этим процесс извлечения можно представить как ее прохождение через трехслойный фильтр, в котором осуществляется оценка синтаксической (правильность представления), семантической (смысловой), прагматической (потребительской) ценностей.

При извлечении информации важное место занимают различные формы и методы исследования данных:

нахождение ассоциаций, связанных с привязкой к какому-либо событию;

нахождение последовательностей событий во времени;

нахождение скрытых закономерностей по наборам данных путем определения причинно-следственных связей между значениями определенных косвенных параметров исследуемого объекта (ситуации, процесса);

оценка важности (влияния) параметров на события и ситуации;

классифицирование (распознавание), осуществляемое путем поиска критериев, по которым можно было бы относить объект (события, ситуации, процессы) к той или иной классификационной категории;

кластеризация, основанная на группировании объектов по каким- либо признакам;

прогнозирование событий и ситуаций.

Следует упомянуть неоднородность (разнородность) информационных ресурсов, характерную для многих предметных областей. Одним из путей решения данной проблемы является объектно-ориентированный подход, наиболее распространенный в настоящее время. Кратко рассмотрим его основные положения.

Декомпозиция на основе объектно-ориентированного подхода основана на выделении следующих основных понятий: объект, класс, экземпляр.

Объект — это абстракция множества предметов реального мира, обладающих одинаковыми характеристиками и законами поведения. Объект характеризует собой типичный неопределенный элемент такого множества. Основной характеристикой объекта является состав его атрибутов (свойств).

Атрибуты — это специальные объекты, посредством которых можно задать правила описания свойств других объектов.

Экземпляр объекта — это конкретный определенный элемент множества. Например, объектом может являться государственный номер автомобиля, а экземпляром этого объекта — конкретный номер — К 268 ПА.

Класс — это множество предметов реального мира, связанных общностью структуры и поведением. Элемент класса — это конкретный элемент данного множества. Например, класс регистрационных номеров автомобиля.

Предмет — конкретный предмет реального мира.

Обобщая эти определения, можно сказать, что объект — это типичный представитель класса, а термины «экземпляр объекта» и «элемент класса» равнозначны. Важная особенность объектно-ориентированного подхода связана с понятием инкапсуляции, обозначающим сокрытие данных и методов (действий с объектом) в качестве собственных ресурсов объекта. Понятия полиморфизма и наследования определяют эволюцию объектно-ориентированной системы, что подразумевает определение новых классов объектов на основе базовых классов. Полиморфизм интерпретируется как способность объекта принадлежать более чем одному типу. Наследование выражает возможность определения новых классов на основе существующих с возможностью добавления или переопределения данных и методов. Для уменьшения избыточности используется процесс обогащения информации, например, при хранении в компьютере списка сотрудников организации иногда достаточно использовать первые 3—4 буквы их фамилий. Среди методов обогащения информации различают структурное, статистическое, семантическое и прагматическое обогащения. Структурное обогащение предполагает изменение параметров сообщения, отображающего информацию в зависимости от частотного спектра исследуемого процесса, скорости обслуживания источников информации и требуемой точности. При статистическом обогащении осуществляют накопление статистических данных, обработку выборок из генеральных совокупностей накопленных данных. Семантическое обогащение означает минимизацию логической формы, исчислений и высказываний, выделение и классификацию понятий, содержания информации, переход от частных понятий к более общим. В итоге семантического обогащения удается обобщенно представить обрабатываемую либо передаваемую информацию и устранить логическую противоречивость в ней. Прагматическое обогащение является важной ступенью при использовании информации для принятия решения, при котором из полученной информации отбирается наиболее ценная, отвечающая целям и задачам пользователя. Развитие методов и средств извлечения информации направлено в сторону стандартизации и унификации. Характерным примером является создание и внедрение технологий Data Mining и Text Mining.

Data Mining (в буквальном переводе с английского — «добыча данных») — это направление в информационных технологиях, которое связано с автоматизированным извлечением знаний (неявным образом присутствующих в обрабатываемой информации) и базируется на интеллектуальном анализе данных.

В основе современной технологии Data Mining лежит концепция шаблонов, отражающих различные фрагменты взаимоотношений в данных. Важное свойство методов Data Mining — нетривиальность обнаруживаемых шаблонов, которые должны отражать неочевидные, ранее неизвестные регулярности в данных, составляющие так называемые скрытые знания (hidden knowledge), и изменения клиентуры, выявления мошенничества с кредитными карточками.

Методы Data Mining позволяют выделить следующие типы закономерностей:

Последовательность (например, после события А в течение определенного интервала времени с большой вероятностью следует событие Б);

Связь между событиями (например, события А и Б с большой вероятностью осуществляются одновременно);

Классификация (объекты относятся к одной из групп с относительно постоянными характеристиками);

Кластеризация отличается от классификации тем, что сами группы заранее не задаются и выделяются непосредственно в процессе анализа;

Прогноз — построение временных рядов, отражающих динамику поведения целевых показателей.

Text Mining является разновидностью Data Mining, ориентированной на обработку текстовой информации и широко применяемой для мониторинга ресурсов Интернета. Задача Text Mining — проанализировать не синтаксис, а семантику значения текстов, выбрать из него информацию, наиболее значимую для пользователя (есть тесная связь с контент-анализом). Обычно выделяют такие приложения Text Mining:

Реферирование текстов на естественном языке;

Классификацию (тематическое индексирование) текстовых документов;

Кластеризацию текстовых документов и их фрагментов;

Построение онтологии текстового документа (основных терминов и связей между ними), например, семантической сети;

Визуализация полученных знаний

Среди основных поставщиков информации сети Интернет выделяют следующие: информационные агентства, Web-ресурсы СМИ, сайты юридических и физических лиц, познавательные сайты (библиотеки, справочники, ссылки на другие сайты, каталоги и т.п.), сайты для обмена информацией (чаты, телеконференции, социальные сети и т.п.).

Непрерывный рост объема информации в сети Интернет приводит к необходимости решения двух взаимосвязанных задач: анализа и поиска нужной информации. Проблемы поиска информации в сети Интернет связаны со следующими факторами:

• недостаточно развитые стандарты представления информации (различные форматы представления, слабоструктурированность информации);

• разнообразие языков представления информации и необходимость учета языковых особенностей;

• быстрый рост объемов хранимой и передаваемой информации;

• высокие требования к скорости поиска информации;

• несовершенство навигационных методов.

Существует широкий спектр методов поиска информации в сети Интернет на основе информационно-поисковых систем (ИПС), которые, однако, можно разделить на два основных класса поисковые машины и поисковые каталоги. Рассмотрим каждый из этих классов в отдельности.

Поисковые машины в свою очередь подразделяют на две группы: серверные и поисковые машины.

Серверная поисковая машина является программно-аппаратным комплексом, предназначенным для одновременного обслуживания множества клиентов. Основные преимущества: малое время отклика и обработки запроса; высокая производительность.

Отличительной особенностью серверных поисковых машин является ориентация на использование современных методов поиска информации и высокие аппаратные характеристики сервера.

Клиентская поисковая машина по своей сути является интеллектуальным агентом, работающим на стороне клиента. Отличительными особенностями по сравнению с серверным вариантом являются узкая направленность и поиск информации в определенном секторе Интернета; более низкое быстродействие; гибкость в настройке. Адаптация к требованиям поиска особенно проявляется в использовании нейро-сетевых и других перспективных алгоритмов. Другим направлением повышением качества поиска является возможность отправления наиболее популярных ссылок клиента на основной поисковой сервер.

Поисковые машины обеспечивают автоматическую индексацию большого количества документов, но не обладают развитыми средствами искусственного интеллекта для экспертной оценки смыслового содержания информации. Этим обусловлена низкая релевантность ответа поисковых систем (релевантность — степень адекватности результатов поиска запросу пользователя). Решение данной проблемы заключается в применении прогрессивных методов искусственного интеллекта для обработки и анализа текстовой информации.

Поисковые каталоги ресурсов представляют собой иерархически организованные наборы резюме содержания информационных ресурсов. Каталоги позволяют пользователю, двигаясь от общих понятий к более узким, найти ссылку на сайт с интересующей их информацией. Преимущество таких систем перед поисковыми машинами заключается в том, что база данных каталогов наполняется людьми, что приводит к высокой релевантности расположенных в них ссылок. Существуют каталоги двух типов: универсальные и тематические. Как показывает практика, хорошие тематические каталоги содержат больше информации по своей тематике, чем универсальные. Однако информационная полезность таких каталогов, как правило, ограничена небольшим количеством проиндексированных документов, большими затратами средств на поддержание актуальности базы проиндексированных документов и, следовательно, низкой оперативностью ее обновления.

Объем базы данных каталогов сравнительно невелик, скорость пополнения базы на порядок ниже, чем у автоматизированных поисковых машин. Также ниже и скорость поиска по каталогу.

Для повышения эффективности поиска информации используют гибридные структуры, объединяющие в одно целое поисковые машины и каталоги. За счет этого удается повысить скорость поиска поисковых машин и повысить точность (релевантность) каталогов.

Поисковые машины обеспечивают автоматическую индексацию большого количества документов, но не обладают развитыми средствами искусственного интеллекта для экспертной оценки смыслового содержания информации. Этим обусловлена низкая релевантность ответа поисковых систем (релевантность — степень адекватности результатов поиска запросу пользователя). Решение данной проблемы заключается в применении прогрессивных методов искусственного интеллекта для обработки и анализа текстовой информации.

Поисковые каталоги ресурсов представляют собой иерархически организованные наборы резюме содержания информационных ресурсов. Каталоги позволяют пользователю, спускаясь от общих понятий к более узким, найти ссылку на сайт с интересующей их информацией. Преимущество таких систем перед поисковыми машинами заключается в том, что база данных каталогов наполняется людьми, что приводит к высокой релевантности расположенных в них ссылок. Существуют каталоги двух типов: универсальные и тематические. Как показывает практика, хорошие тематические каталоги содержат больше информации по своей тематике, чем универсальные. Однако информационная полезность таких каталогов, как правило, ограничена небольшим количеством проиндексированных документов, большими затратами средств на поддержание актуальности базы проиндексированных документов и, следовательно, низкой оперативностью ее обновления.

Объем базы данных каталогов сравнительно невелик, скорость пополнения базы на порядок ниже, чем у автоматизированных поисковых машин. Также ниже и скорость поиска по каталогу.

Одним из способов устранения вышеизложенных недостатков каталогов, а также поисковых машин является их объединение в общую структуру. Это позволяет придать такой гибридной структуре скорость поиска поисковых машин в сочетании с точностью (релевантностью) каталогов.

Рассмотрим процесс формирования информационных ресурсов и их представление в ИПС. Общеизвестно, что документальным массивом ИПС Internet является все множество документов шести основных типов: MWW-страницы, Gop/гег-файлы, документы Wais, записи архивов FTP, новости Usenet, статьи почтовых списков рассылки. Все это — довольно разнородная информация, которая представлена в виде различных, никак несогласованных друг с другом форматов данных. Здесь есть и текстовая информация, и графическая информация, и аудиоинформация и вообще все, что есть в указанных выше хранилищах. Естественно, встает вопрос, как информационно-поисковая система должна со всем этим работать.

Первоочередной задачей для информационно-поисковой системы является формирование идентификационного признака информационного ресурса на основе его ключевых слов. Этот процесс называется индексированием и его целью является сопоставление каждого информационного ресурса с некоторым множеством индексов (рубрик, индексационных терминов, ключевых слов, дескрипторов, полей и т.д.)

В простейшем случае к индексированию относят создание инвертированного списка, в котором каждому термину индексирования ставится в соответствие список документов, в которых он встречается.

Одним из наиболее важных факторов, влияющих на качество поиска, является метод внутреннего представления документов в поисковой машине. В традиционных системах есть понятие поискового образа документа (далее — ПОД), который его заменяет и используется при поиске вместо реального. Поисковый образ является результатом применения некоторой модели информационного массива документов к реальному массиву.

Обычно поиск информации в документах происходит путем сравнения терминов этих документов с терминами из запроса пользователя. В этих методах есть два существенных недостатка. Во-первых, обычно имеется много способов выражения данного понятия (с помощью синонимов), поэтому относящиеся к делу документы могут быть отвергнуты. Во-вторых, многие слова имеют множественное значение (полисемия), поэтому в результате работы программы могут быть получены ненужные документы. Эти два недостатка приводят к тому, что методы, основанные на сравнении терминов, оказываются неприемлемыми для поиска ответа на запрос пользователя. Более эффективный подход должен позволять пользователю получать информацию, учитывая смысл конкретного документа.

Наиболее распространенными из таких методов индексирования являются: лексическое, векторное, вероятностное, скрытое семантическое. Рассмотрим преимущества, недостатки и особенности применения каждого из методов.

Лексическое индексирование — реализовано как инвертированный файл, в котором каждому термину (ключевому слову) из словаря предметной области соответствует список документов, в которых этот термин встречается.

Запросы пользователей формируются на основе аппарата булевой алгебры и представляют собой логические выражения, в которых ключевые слова соединены операторами AND, NOT или ANDNOT.

Несмотря на хорошее распространение данный тип индексирования имеет существенные недостатки:

• аппарат булевой алгебры с трудом воспринимается рядовым пользователем;

• в отличие от экспертов пользователю трудно сформулировать запрос на основе ключевых слов, особенно в том случае, если одинаковые слова с разным смыслом;

• результат поиска является полностью бесконтекстным, что сильно понижает его релевантность.

Векторное индексирование базируется на соответствии каждому документу частотного спектра слов и вектора в лексическом пространстве. Частотная характеристика запроса представляется как вектор в том же пространстве, и по степени близости (расстоянию или углу между векторами) определяются наиболее релевантные документы.

Вероятностное индексирование использует сопоставление каждого слова и его веса в документе. Это обеспечивает высокое качество поиска в сравнении с лексическим и векторным индексированием, но приводит к значительным издержкам при формировании ПОДа документа.

Семантическое индексирование состоит в установлении семантических отношений между составляющими высказываний в основном тексте, что позволяет представить содержание документа в виде совокупности упомянутых в нем фактов. В основе лежат модели семантического анализа (MSA — Models of Semantic Analysis'), в которых решается задача сравнения терминов с использованием статистически полученных смысловых параметров вместо отдельных слов. Основные вычислительные преимущества MSA над другими методами заключаются в другом подходе к добавлению информации в базу данных. Основная идея в MSA заключается в том, чтобы явно смоделировать взаимосвязи между терминами (через двустороннее ортогональное разложение) и использовать его, чтобы улучшить возможности поисковой системы.

Скрытое семантическое индексирование. Математический аппарат данного метода базируется на экономном сингулярном разложении матриц, которое позволяет выявить скрытые семантические связи при обработке большого массива документов. Данный подход позволяет реализовать методологию автоматической классификации документа, когда проводится исследование слов во всей совокупности документов и производится подсчет одинаковых характеристик для каждого документа или термина.

Эффективность поиска в данном метода намного выше лексического или векторного индексирования, но его реализация требует увеличения вычислительных возможностей сервера.

Латентно-семантическое индексирование использует принципы факторного анализа, в частности выявление латентных связей изучаемых явлений при помощи статистической обработки больших массивов текстов. Оно часто используется для выявления главных факторов из массива информационных данных. Разновидностью является вероятностное латентно-семантическое индексирование.

Развитие методов поиска информации сопровождалось попытками внедрения интеллектуального анализа данных, направленного на совершенствование поиска информации по смысловому содержанию запроса, а не по совпадению терминов. Наибольший прогресс в этом направлении достигнут при использовании моделей семантического анализа (MSA). Применение MSA основано на анализе структуры текста, которая в явном виде не прослеживается, на основе аппарата матричного исчисления. В результате грамматического анализа текста формируется матрица терминов и документов. Анализ осуществляется с использованием сингулярного разложения (англ, singular value decomposition, SVD), заключающегося в разложении прямоугольной вещественной матрицы. Преимуществом сингулярного разложения является наглядная геометрическая интерпретация и наличие встроенных численных алгоритмов во многих математических пакетах, например в системе MATLAB. В результате разложения исходной матрицы мы получаем произведение трех матриц: ортогональной, средней и еще одной ортогональной. Средняя матрица на главной диагонали содержит сингулярные числа, наибольшие значения которых определяют результаты поиска документов. Как показывает практика, сингулярные числа являются более надежными показателями смысла, чем отдельные термины.

Основное преимущество MSA заключается в возможности накопления результатов грамматического анализа текстов в специально создаваемой базе данных, что позволяет сократить объем вычислений.

Новой парадигмой построения поисковых механизмов является применение систем нейронных сетей (Neural Network System) и онтологий для поиска документов по запросам пользователей в коллекциях и при объединении результатов поиска серверами запросов. При кластеризации локальной коллекции в фоновом режиме профайлы, представляющие локальную коллекцию, становятся входными данными для нейронной сети. Нейронная сеть затем строит кластерное дерево: несколько кластеров верхнего уровня, группу субкластеров для каждого из кластеров верхнего уровня и так далее до отдельных документов. Для осуществления поиска в коллекции посредством запросов каждый кластер представлен документом, наиболее близко находящимся к центроиду кластера (cluster centroid) в векторном пространстве профайлов. Таким образом, профайл заданного запроса необходимо сравнить только с профайлами кластерного центроида. Это в значительной степени увеличивает скорость обработки запросов. Кроме этого, нейронные сети могут использоваться для кластеризации результатов поиска, поступивших в ответ на запрос от нескольких серверов. Главная задача кластеризации — выдать пользователю репрезентативный набор результатов, если общее результирующее число документов превышает «порог», заданный пользователем.

Известно два типа архитектуры нейронных сетей: Radius-based Competitive Learning (далее — RCL) — основанная на радиусе, обучающаяся, соревновательного типа), и ее иерархическое расширение, называемое Hierarchical Radius-based Competitive Learning (далее — HRCL), иерархическая, основанная на радиусе, обучающаяся, соревновательного типа). В их основе лежит идея о том, что после каждого введения в систему входного вектора все нейроны упорядочиваются по их расстоянию к точке текущего ввода. Самый близкий к текущему вводу RCL нейрон становится победителем, кроме этого, RCL адаптирует все остальные нейроны из нейронного набора.

Высокая производительность и универсальность подсистемы нейронных сетей дает все основания для предположения о том, что она будет играть значительно большую роль в поисковых системах.

В настоящий момент наметилась тенденция к стандартизации описания структурированных, неструктурированных и полуструктуриро- ванных текстов при помощи XML-технологии, что позволяет наметить пути к созданию единой технологии их обработки.

Представление данных как XML-документов является естественным, поскольку они получаются из реальных документов. Представлять данные как документы привычнее и понятнее, чем представлять их как реляционные таблицы. Реляционная таблица, в лучшем случае — отдельный фрагмент документа. Неестественность табличного представления легко прочувствовать вначале при проектировании реляционных баз данных, когда из набора имеющихся документов происходит вычленение сущностей, и затем при подготовке отчета, когда из этих же сущностей вновь создаются документы. Манипулировать данными с использованием такой естественной для человека (но логически избыточной!) сущности, как «связь» также привычнее и понятнее, чем со ссылочными ключами, которые в реальных документах встречаются редко.

IBM разрабатывает базирующуюся на XML-систему поиска данных — Архитектуру управления неструктурированной информацией (далее — UIMA), которая, как предполагается, значительно расширит возможности средств поиска, применяемых в базах данных. По замыслу UIMA — это нечто, что становится частью базы данных или, скорее, тем, к чему базы данных обращаются, при этом появляется возможность «обдумывать» что-нибудь почти непрерывно. Это значительно изменит автоматизированные или человеко-машинные системы. Например, предполагается, что станет реальностью автоматический перевод с языка на язык и работа с естественными языками.

В основе UIMA лежит теория сочетания гипотез (Combination Hypothesis'), которая утверждает, что в ближайшем будущем появится возможность объединить статистическое обучение машины — вроде того, которое использует поисковый сайт Google для интеллектуального ранжирования данных, — синтетический искусственный интеллект и другие методы. Между тем XML обеспечивает простой способ обмена данными и их классификации, что облегчает использование искусственного интеллекта в вычислительной среде. По мнению представителей IBM, благодаря появлению XML за ближайшие три года индустрия баз данных изменится сильнее, чем за предыдущие 20 лет. По сути, искусственный интеллект будет функционировать как фильтр. Датчики собирают информацию о внешнем мире и передают ее в компьютер, который выполняет надлежащие действия, беспокоя владельца лишь в случае крайней необходимости. Если нужно найти что-то в Web, человек делает запрос, а компьютер помогает ему уточнить его таким образом, чтобы вышло не 14 страниц списка потенциальных Web- сайтов, а только требуемая информация. В такой ситуации ключевой проблемой является задача быстрого и максимально эффективного поиска, т.е. такого поиска информации, который позволит за минимальное время найти по запросу пользователя наиболее релевантные (подходящие) ресурсы. В настоящее время для решения этой проблемы пытаются применить механизм онтологий.

Онтологии используются для систематизации данных на корпоративном портале для индексации и удобного поиска — несмотря на то, что многие крупные организации имеют собственную таксономию для организации внутренней информации, этого обычно недостаточно. Простая классификация сильно ограничивает возможности поиска и индексации, поскольку многие документы могут подпадать под разные категории, поэтому поиск по различным критериям будет намного эффективней, чем обычный поиск по ключевым словам.

Семантическая сеть (Semantic web согласно терминологии консорциума Всемирной паутины World Wide Web Consortium W3C) — воплощает развитие концепции существующей глобальной сети, направленной на создание условий для эффективной работы пользователей.

Решая задачу придания информации точного смысла, в своем развитии глобальная система активно использовала:

• язык XML для описания собственной структуры документов;

• язык RDF (Resource Definition Framework) в качестве удобной среды формализации метаданных и сведений о контексте;

• DTD (Document Type Definition, формальное описание структуры XML-документов) в стандарте XML и схем XML (XML Schema) для обмена данными между сторонами, которые заранее договорились о значении определений и терминов.

Следует отметить что RDF (создан консорциумом W3C) является подмножеством языка XML и имеет собственный язык RDF Schema для описания структуры документов. Практика применения перечисленных выше инструментальных средств выявила ряд серьезных недостатков.

Так RDF оперирует лишь понятиями связей примитивных сущностей (например, «объект А владеет субъектом В») и по своей сути относится к низкоуровневым языкам описания метаданных. Помимо недостатков семантического характера он сложен для решения задач в глобальной сети. В то же время XML ввиду своей общности не может быть использован для какого-либо конкретного применения и для развития семантической сети его возможностей недостаточно.

Отсутствие семантики в DTD и RDF Schema серьезно ограничивает надежность выполнения задачи поиска и объединения данных при использовании новых XML-словарей. Например, элемент , встретившийся в разных документах, может означать курс валюты, оценку за экзамен, стоимость товара или другую цифровую оценку. Без дополнительной информации поисковый агент не сможет со стопроцентной вероятностью реализовать запрос пользователя.

Для осуществления точного Web-поиска необходимо было разработать универсальную унифицированную методику описания предметных областей. Данная задача была решена с использованием языка онтологий, базирующимся на общем наборе терминов и связей между ними. Практическим итогом такой работы было создание языка OWL (Ontology Web Language), разработанного при содействии консорциума W3C и послужившего основой интернет-стандартов.

Новый язык способствовал развитию автоматизированных инструментов для глобальной сети нового поколения в качестве интеллектуальных программных агентов управления знаниями. Использование онтологий особенно эффективно в приложениях-агентах, осуществляющих поиск и объединение информации из различных источников и сред, в которых один и тот же термин может означать разные вещи.

Практически любой пользователь сети хотя бы раз сталкивался с ситуацией, когда при поиске интересующей его информации он помимо прочего получал от поисковой машины множество бесполезных ссылок. Поскольку поиск информации осуществляется вне контекста, никакие уточнения запросов не смогут надежно найти именно то, что нужно. Для качественного осуществления поиска пользователю необходимо понимать все тонкости предметной области, включая ее лексику, термины, определения, иерархии сущностей — одним словом, досконально знать онтологию. Иногда, даже если пользователь является экспертом предметной области, может быть найдена лишняя информация. А что делать обычным пользователям? Язык OWL призван упростить процесс поиска, возложив необходимость знания предметной области и описание контекста поиска полностью на авторов документа и систему поиска, причем передача этих функций авторам документа должна быть незаметна для пользователя.

Заключение

В результате проделанной работы решены следующие задачи: рассмотрены теоретические аспекты информационного процесса; проведен анализ применения диалектического единства данных в информационном процессе. Выделяют, таким образом, три типа рассматриваемых явлений. Во-первых, это полноценно интегрированные системы. Они функционируют на единых принципах формирования баз данных, большинство составляющих их элементов связано с другими. Это может быть государственная информационная система, занимающаяся, к примеру, подсчетом голосов на выборах. Каждая из ее структур - на уровне территориальных избирательных участков, региональных и по федеральному округу - объединены в единую модель. Во-вторых, информационные системы бывают локализованными. Их структура представлена несколькими блоками, выполняющими какую-то конкретную задачу. Связь между каждым из них, как правило, выражается в некоторой общности целей, но не в аспекте технологических цепочек. Это могут быть корпоративные информационные системы на производстве, представленные блоками, ответственными за проведение того или иного этапа выпуска продукции. В-третьих, выделяют дезинтегрированные информационные системы. Они, так же как и явления предыдущего типа, представлены отдельными функциональными блоками, однако объединение по каким-либо целям или в аспекте схожести задач, как правило, выражено слабо.

Список литературы

1. Гончарик Н. Г. Цифровые мультимедийные технологии – смысловые средства передачи информационного содержания // Проблемы создания информационных технологий : сб. науч. тр. – 2012. – Вып. 21. – С. 74-76.

2. Гохберг, Г.С. Информационные технологии: Учебник для студ. учрежд. сред. проф. образования / Г.С. Гохберг, А.В. Зафиевский, А.А. Короткин. - М.: ИЦ Академия, 2013. - 208 c.

3. Грошев А.С., Закляков П. В, Информатика: учеб. для вузов — 3-е изд., перераб. и доп. — М.:ДМК Пресс, 2015 — 588 с . цв. Ил

4. Исаев, Г.Н. Информационные технологии: Учебное пособие / Г.Н. Исаев. - М.: Омега-Л, 2013. - 464 c.

5. Карп Е. И. Роль интерактивных мультимедийных систем в вопросе информационного обеспечения деятельности управленческих структур // Вестн. акад. права и упр. – 2010. – № 21. – С. 159-165.

6. Мельников, В.П. Информационные технологии: Учебник для студентов высших учебных заведений / В.П. Мельников. - М.: ИЦ Академия, 2014. - 432 c.

7. Онков Л.С., Титов В.М. Компьютерные технологии в науке и образовании: Учебное пособие. - М.: ИД. "Форум" : ИНФРА - М. 2012-224с

8. Румянцева, Е.Л. Информационные технологии: Учебное пособие / Е.Л. Румянцева, В.В. Слюсарь; Под ред. Л.Г. Гагарина. - М.: ИД ФОРУМ, НИЦ ИНФРА-М, 2013. - 256 c.

9. Стяблина А. В. Электронные технологии в формировании информационной среды // Вестн. Тамбов. ун-та. Сер.: Гуманитар. науки. – 2011. – Т. 103, № 11. – С. 207-211.

10. Синаторов, С.В. Информационные технологии.: Учебное пособие / С.В. Синаторов. - М.: Альфа-М, НИЦ ИНФРА-М, 2013. - 336 c.

11. Федотова, Е.Л. Информационные технологии и системы: Учебное пособие / Е.Л. Федотова. - М.: ИД ФОРУМ, НИЦ ИНФРА-М, 2013. - 352 c.

12. Цветкова М. С. - Информатика и ИКТ : учебник для нач. и сред проф. образования / М. С. Цветкова, Л.С.Великович. — 3-е изд., стер. — М. : Издательский центр «Академия», 2012. — 352 с., [8] л. цв. ил.

13. Кушниренко А.Г., Лебедев Г.В., Сворень Р.А. Основы информатики и вычислительной техники. - М.: Просвещение, 1993. - 224 с.