Автор Анна Евкова
Преподаватель который помогает студентам и школьникам в учёбе.

Распределенные системы обработки информации

Содержание:

ВВЕДЕНИЕ

Совершенствование технических возможностей средств вычислительной техники, развитие коммуникационных средств и технологий управления информационными ресурсами в последние годы привели к появлению более крупных информационных систем. Речь идет о масштабах систем не только относительно объема поддерживаемых информационных ресурсов, но и числа их пользователей. Объем информационных ресурсов Web в настоящее время исчисляется многими миллионами страниц.

В связи с этим получил широкое распространение язык гипертекстовой разметки HTML. В работе рассматриваются языки разметки гипертекста HTML, XML, XHTML. HTML стал стандартом и одновременно «корнем» для всех разрабатываемых Web страничек. Актуальность темы работы определена тем, что на сегодняшний день HTML остается самым универсальным, даже незаменимым средством разметки гипертекста, а, следовательно, и публикации в Интернет. Написание Web страничек на HTML не требует интерпретации исходного кода в двоичный код. Современные Web-страницы уже не обходятся одним только HTML. Его гармонично дополняют средства динамического HTML: скрипт языки JavaScript и/или VBScript, каскадные таблицы стилей(CSS), иногда присутствуют Java-апплеты.. То есть на любой странице должна присутствовать HTML-верстка - расположение элементов дизайна текста и необходимые скрипты - как расширение HTML в области расположения и описания свойств различных объектов. CGI-скрипты могут играть первостепенную роль, формируя всю страницу, наполняя ее необходимыми, обновленными данными или второстепенную роль, - включаясь в нее.

Информационные системы сегодня применяются во всех областях общественной жизни и научной деятельности. Курсовая работа предназначена для обобщения накопленного отечественного и зарубежного опыта в разработке информационных систем связанная c Web - технологиями, выявление принципов их построения и развития. Представленная работа показывает значимость и эффективность гипертекста в первую очередь для поддержки человеческой деятельности в различных областях науки, образования и культуры.

Цель курсовой работы – изучить теоретический материал по тематике курсовой работы.

Для достижения поставленной цели были выделены следующие задачи:

- проанализировать литературу по теме курсовой работы;

- рассмотреть и изучить понятия: «информационная система», «технология Web»;

- охарактеризовать основные технологии Web, такие как: HTML, XML, XHTML;

- обозначить новые тенденции в развитии технологий Web;

- рассмотреть и проанализировать спецификации гипертекстовых языков;

-изучить практическое применение гипертекстовых языков.

Структура курсовой работы: работа состоит из введения, четырех глав, заключения, списка литературы, включающего в себя 11 источников и приложения.

Первая глава посвящена изучению основных понятий, таких как «информационная система» и «технологии Web».

Вторая глава посвящена изучению технологии Web на основе языков разметки: HTML, XML, XHTML.

В третьей главе рассматриваются спецификаций гипертекстовых языков.

В заключении даны обобщающие выводы о перспективах развития и ещё не использованном потенциале гипертекстовых технологий.

1. Определение содержания основных понятий

1.1. Понятие «информационная система» в Web

Понятие информационной системы (ИС) интерпретируют по-разному, в зависимости от контекста. Понимание информационной системы в широком смысле подразумевает, что её неотъемлемыми компонентами являются данные, техническое и программное обеспечение, а также персонал и организационные мероприятия. Федеральный закон Российской Федерации «Об информации, информационных технологиях и о защите информации» трактует понятие «информационной системы» как совокупность содержащейся в базах данных информации и обеспечивающих её обработку информационных технологий и технических средств. Среди российских ученых в области информатики, наиболее широкое определение ИС дает М. Р. Когаловский. По его мнению, в понятие информационной системы помимо данных, программ, аппаратного обеспечения и людских ресурсов следует также включать коммуникационное оборудование, лингвистические средства и информационные ресурсы, которые в совокупности образуют систему, обеспечивающую «поддержку динамической информационной модели некоторой части реального мира для удовлетворения информационных потребностей пользователей».

Более узкое понимание информационной системы ограничивает её состав данными, программами и аппаратным обеспечением. Интеграция этих компонентов позволяет автоматизировать процессы управления информацией и целенаправленной деятельности конечных пользователей, направленной на получение, модификацию и хранение информации. Так, российский стандарт ГОСТ РВ 51987 подразумевает под ИС «автоматизированную систему, результатом функционирования которой является представление выходной информации для последующего использования». ГОСТ Р 53622-2009 использует термин информационно-вычислительная система для обозначения совокупности данных (или баз данных), систем управления базами данных и прикладных программ, функционирующих на вычислительных средствах как единое целое для решения определенных задач. Любой вид деятельности основывается на информации о свойствах состояния и поведения той части реального мира, с которой связанна эта деятельность. Для получения такой информации во многих случаях необходимо регулярно через некоторые интервалы времени проводить измерения или наблюдения, позволяющие определить характеристики состояния сущностей реального мира и протекающих процессов, соответствующие моментам времени, когда эти изменения производятся. Именно для этого существует специальный класс систем обработки данных – автоматизированные информационные системы (АИС).

Автоматизированной информационной системой называется комплекс, включающей вычислительное и коммуникационное оборудование, программное обеспечение, лингвистические средства информационные ресурсы, а также системный персонал и обеспечивающий поддержку динамической информационной модели некоторые части реального мира для удовлетворения информационных потребностей пользователей [1, с.13].

Под динамической моделью понимается изменяемость модели во времени. Это «живая», действующая модель, в которой отображаются изменения, происходящие в предметной области. Такая система должна обладать памятью, позволяющей ей сохранять не только сведения о текущем состоянии предметной области, но и в некоторых случаях предысторию. Поскольку эта модель, поддерживаемая ИС, материализуется в форме организованных необходимым образов информационных ресурсов, она называется информационной моделью.

АИС не всегда функционирует самостоятельно. Она может входить в качестве компонента (подсистемы) в более сложную систему, такую, например, как система управления торговой компанией, САПР или система управления производством, учреждением и т. д.

Информационные системы уже многие десятки и даже сотни лет существуют и используются на практике в фактографических системах, которые основаны на технологиях баз данных и оперируют структурированными данными, системы текстового поиска, оперирующие документами на естественных языках, глобальную гипермедийную информационную систему Web и др. По этой причине в определении используется обобщенный термин информационные ресурсы. Частными его случаями являются данные для систем баз данных, документы для систем текстового поиска, HTML-страницы или XML-документы для Web и т.д.

Пользовательские информационные ресурсы в Web — это страницы Web-сайтов, ресурсы «скрытого» Web — базы данных, а также различные доступные пользователям Web-документы, представленные в форматах, отличных от HTML. В Web нового поколения к информационным ресурсам, кроме того, относятся не только представленные на Web-сайтах XML-документы, но и различные метаданные. Они описывают схемы XML-документов, их семантику, онтологии.

Усиливается тенденция глобализации ИС. Глобализация информационных систем имеет две стороны – обеспечение глобального доступа пользователей к системе и интеграция информационных ресурсов, распределенных в глобальной сети. Уникальной глобальной ИС является Web. В нем воплощаются обе указанные стороны глобализации ИС. Он обеспечивает глобальный доступ к явно представленным на Web-сайтах информационным ресурсам, а также к ресурсам «скрытого» Web. Вместе с тем на платформе Web создаются разработанные приложения, обеспечивающие интеграцию распределенных в Web информационных ресурсов. Многочисленные глобальные системы создаются в настоящее время как приложения Web для электронного бизнеса, для поддержки научной кооперации различных коллективов ученых во многих областях знаний в международном и национальном масштабе, в библиотечном деле и в других сферах. Среда Web предоставляет для поддержки таких систем идеальные условия.

1.2. Понятие «технология Web»

Создание глобальной гипермедийной распределенной информационной системы World Wide Web, функционирующей в среде Internet и часто называемой в отечественной литературе Всемирной паутиной, является одним из крупнейших научно-технических достижений последнего десятилетия XX в., основой ряда новых информационных технологий, имеющих весьма значимые социально-экономические последствия.

Достигнутые за короткую историю существования Web масштабы этой глобальной распределенной информационной системы по количеству ее пользователей, по объему предоставляемых информационных ресурсов, по составу функционирующих в ее среде приложений привели к существенному росту функциональных требований к ней. Потребовались новые подходы, способные обеспечить дальнейшее развитие Web. Их реализация составляет одну из главных задач консорциума W3C (World Wide Web Consortium) (Приложение 1.), начиная с середины 90-х годов.

Термину “Web” разные энциклопедии и словари дают следующее усредненное толкование: “глобальное информационное пространство, образованное связанными ссылками гипертекстовыми документами, основанное на физической инфраструктуре Internet и протоколах передачи данных этой сети, непрерывно эволюционирующее”.

WWW (World Wide Web) или Web – поддерживаемая в Internet глобальная открытая бесконечно масштабируемая распределенная гипермедийная информационная система с архитектурой “клиент-сервер”, распределение и неоднородность ресурсов которой прозрачны для пользователей. Эта система обладает огромным интенсивно наращиваемым информационным ресурсом, большинство из которых предоставляется для свободного доступа в любой момент времени. Среда WWW способна интегрировать ресурсы других информационных сервисов Internet – Gopher, FTP, Arhie, WAIS, Telnet, электронной почты. Она обеспечивает также телекоммуникационный доступ к базам данных. Наиболее активно используемыми сервисами Internet являются WWW, электронная почта, сервисы передачи файлов, поддержки телеконференций, удаленного доступа к вычислительным ресурсам.

Все информационные сервисы Internet строятся на основе архитектуры «клиент-сервер». Некоторые из них, например, WWW, поддерживают распределенные информационные ресурсы.

Для информационных сервисов Internet создано разнообразное свободно распространяемое и коммерческое программное обеспечение, функциональные возможности которого не зависят от специфических особенностей конкретных аппаратно-программных платформ, на которых оно используется. Это достигается благодаря стандартизации технологий, на которых эти сервисы базируются, и поддержке этих стандартов в указанном программном обеспечении. Благодаря тому, что сеть Internet построена на основе стандарта эталонной модели сетевого взаимодействия открытых систем (Open System Interconnection — OSI), это программное обеспечение не зависит также от особенностей сетей, входящих в состав Internet. Его место в эталонной модели — прикладной уровень. Таким образом, неоднородность используемых в Internet аппаратно-программных платформ и сетевых возможностей является прозрачной для пользователя рассматриваемых сервисов.

Непрерывно эволюционируя, в глобальное информационное пространство вводятся новые информационные технологии.

Под понятием “информационная технология” понимается, как комплекс методов, подходов, стандартов и инструментальных средств, используемых для создания, поддержки и применения компьютерных систем какого-либо класса в некоторой среде функционирования.

Термин “технологии Web” или “Web – технологии” объединяет в себе два выше рассмотренных понятия “Web” и “Информационная технология ”. В большинстве энциклопедий и словарей под Web - технологией понимается “технология построения Всемирной паутины, представление разного рода документов, находящихся в Интернете в виде связных между собой системой ссылок. [2, с.474].

Данная технология, с помощью комплекса методов, подходов, стандартов и инструментальных средств, образованна связанными ссылками гипертекстовых документов, основана на физической инфраструктуре Internet и протоколах передачи данных этой сети.

Вывод: Технологии, сформировавшиеся в процессе создания и развития этой системы, оказывают влияние на развитие других областей информационных технологий. На их основе развиваются подходы и методы интеграции неоднородных ресурсов — весьма актуальная тенденция в разработках информационных систем. Разрабатываются новые подходы к созданию распределенных систем. Возникли новые, чрезвычайно важные сферы применения — электронный бизнес, электронные библиотеки. Создаются крупные научные и образовательные системы. Гипертекст является связующим звеном между документами во «Всемирной паутине» и одним из важнейших звеньев WEB - технологий.

2. Языки гипертекстовой разметки

2.1. Язык гипертекстовой разметки HTML

Язык разметки (текста) в компьютерной терминологии — набор символов или последовательностей, вставляемых в текст для передачи информации о его выводе или строении. Принадлежит классу компьютерных языков. Документ, написанный при помощи языка разметки, содержит не только сам текст (как последовательность слов и знаков препинания), но и дополнительную информацию о различных его участках — например, указание на заголовки, выделения, списки и т. д. В более сложных случаях язык разметки позволяет вставлять в документ интерактивные элементы и содержание других документов.

Следует отметить, что язык разметки неполон по Тьюрингу и обычно не считается языком программирования, хотя фактически, исходя из правильной логики, он языком программирования не может не являться, так как любые элементы языка программирования являются единой неотъемлемой общей необходимой в программировании частью всего данного языка.

Различают логическую и визуальную разметки. В первом случае речь идет только о том, какую роль играет данный участок документа в его общей структуре (например, «данная строка является заголовком»). Во втором — определяется, как именно будет отображаться этот элемент (например, «данную строку следует отображать жирным шрифтом»). Идея языков разметки состоит в том, что визуальное отображение документа должно автоматически получаться из логической разметки и не зависеть от его непосредственного содержания. Это упрощает автоматическую обработку документа и его отображение в различных условиях (например, один и тот же файл может по-разному отображаться на экране компьютера, мобильного телефона и на печати, поскольку свойства этих устройств вывода существенно различаются). Однако это правило часто нарушается: например, создавая документ в редакторе наподобие MS Word, пользователь может выделять заголовки жирным шрифтом, но нигде не указывать, что эта строка является заголовком.

Языки разметки используются везде, где требуется получить часть  форматированного текста на основании одного лишь текста: --- в типографии (SGML, TeX, PostScript, RTF), пользовательских интерфейсах компьютеров (Microsoft Word, OpenOffice, troff), Всемирной Сети (HTML, XHTML, XML, WML, VML, PGML, SVG, XBRL).

Для написания исходных текстов Википедии, её участники используют особый язык разметки, а для отображения сложных математических формул — язык TeX.

Термин «разметка» (как результат одноименного процесса, от англ. markup) произошёл от английского словосочетания «marking up» («разметка (как процесс)», букв. «помечивание, размечивание»), взятого из традиционной издательской практики проставления специальных условных пометок на полях и в тексте рукописи или корректуры перед передачей её в печать. Таким образом «разметчики» (markup men) указывали гарнитуру, стиль и размер шрифта для каждой части текста. В настоящее время разметкой текста занимаются редакторы, корректоры, графические дизайнеры — и, конечно же, сами авторы.

Идея использовать языки разметки в компьютерной обработке текстов, вероятнее всего, была впервые обнародована Вильямом Танниклиффом на конференции в 1967 году. Он назвал своё предложение «универсальным кодированием». В 1970-е годы Танниклифф руководил разработкой стандарта GenCode для издательской индустрии и позже занял пост руководителя одного из комитетов Международной организации по стандартизации (ISO,), создавшего SGML, первый описательный язык разметки. Брайан Рэйд в своей диссертации, которую он защитил в 1980 году в университете Карнеги, в развитие предложенной им концепции осуществил реализацию описательной разметки.

Тем не менее, в настоящее время «отцом» языков разметки обычно называют исследователя IBM Чарльза Голдфарба. Основная концепция родилась у него в 1969 году, при работе над примитивной системой управления документами, предназначенной для адвокатских контор. В том же году он принял участие в создании языка IBM GML, который был впервые представлен в 1973 году.

В 1975 году Голдфарб переехал из Кембриджа, штат Массачусетс в Силиконовую долину, где стал разработчиком исследовательского центра IBM Almaden Research Center. Там он в 1978 году убедил руководство IBM использовать GML в коммерческих целях в составе разработанного компанией «средства формирования документов», после чего GML несколько лет широко использовался в бизнесе.

В 1978 году начались первые разработки, которые в конечном итоге привели к созданию стандарта SGML, основанного на GML и GenCode. Сам Голдфарб позднее возглавил комитет по SGML, который был принят организацией ISO в качестве стандартного в октябре 1986 года.

Некоторые ранние реализации компьютерных языков разметки можно обнаружить в типографских утилитах UNIX. Это утилиты такие как troff и nroff. Они позволяют вставлять команды форматирования в текст документа для его форматирования согласно требованиям редактора.

Первым языком с четким и ясным различием между структурой и видом документа был Scribe[en], который создан и описан докторской диссертацией Брайана Рейда (Brian Reid) в 1980 году. Scribe был революционным в количестве способов обработки, не в последнюю очередь из-за введенной идеи стилей, отделенных от собственно текста и грамматики и управляющих использованием описательных элементов. Scribe оказал влияние на разработку языка GML (позже SGML), а также он является прямым предком языков HTML и LaTeX.

В начале 80х идея о том, что разметка должна быть сфокусирована на структурных аспектах документа и должна оставить внешнее представление документа интерпретатору, привела к созданию SGML. Язык был разработан комитетом, возглавляемым Голдфарбом. Он объединил идеи из многих источников, включая Тьюнникоффликский проект, GenCode. Шэрон Адлер, Андерс Бергланд и Джеймс А. Марк так же были ключевыми членами комитета SGML.

SGML точно определял синтаксис для включения разметки в текст, а также отдельно описывал, какие теги разрешены и где. Это позволяло авторам создавать и использовать любую разметку, какую они захотят, выбирая теги для использования и давая им имена на нормальном языке. Таким образом, SGML следует считать метаязыком; множественные специальные языки разметок произошли от него. Поздние 80е были наиболее значимыми в появлении новых языков разметок, основанных на SGML, например TEI[en] и DocBook.

В 1986 году SGML был опубликован как международный стандарт организацией ISO под номером 8879. SGML нашел широкое признание и широко использовался в очень больших проектах. Как бы то ни было, в целом было обнаружено, что он громоздок и труден для изучения, побочным эффектом языка было то, что он пытался сделать слишком много и быть чересчур гибким. Для примера, SGML создавал не всегда нужные закрывающие теги (или открывающие, или даже оба), потому что считал, что эта разметка будет добавлена вручную, штатом поддержки проекта, которые бы оценили экономию нажатий клавиш.

К 1991 году использование SGML было ограничено базами данных и бизнес - программами, а WYSIWYG-инструменты (которые сохраняли документы в проприетарных бинарных форматах) использовались для остальных программ обработки документов. Ситуация изменилась, когда сэр Тим Бернерс-Ли, узнав о SGML от своего коллеги Андерса Бергланда и других сотрудников в ЦЕРНе, использовал синтаксис SGML для создания HTML. Этот язык имел сходство с другими основанными на синтаксисе SGML языками разметки, однако начать его использование было гораздо проще даже тем разработчикам, которые никогда этого не делали. Стивен ДеРоуз убеждал, что HTML, использующий описательную разметку (и от языка SGML в частности) — это основной фактор в развитии Web, потому что в нём была заложена гибкость и расширяемость (а также другие факторы, включая понятие о URL и свободное использование браузерами).

Однако статус HTML как языка разметки оспаривается некоторыми компьютерными учеными. Их основным аргументом является то, что HTML ограничивает размещение тегов, требуя, чтобы оба тега были вложены в другие теги или в главные теги документа. Вследствие чего, эти ученые считают HTML контейнерным языком, следующим иерархической модели.

Стандарты языка HTML, одного из ключевых стандартов Web, разрабатываются и поддерживаются консорциумом W3C. Основателем этого международного консорциума является Тим Бернес-Ли. Консорциум помимо создания стандартов форматирования, является центром разработки Semantic Web (семантическая сеть). Средствами языка HTML обеспечивается форматная разметка документов, определяются гиперсвязи между документами и/или их фрагментами.

За основу написания кода HTML был выбран обычный текстовый файл. Следовательно, гипертекстовая база данных в концепции WWW- это набор текстовых файлов, размеченных на языке HTML, который определяет форму представления информации (разметка) и структуру связей между этими файлами и другими информационными ресурсами (гипертекстовые ссылки).

Разработчики HTML смогли решить две задачи:

- предоставить дизайнерам гипертекстовых баз данных простое средство создания документов;

- сделать это средство достаточно мощным, чтобы отразить имевшиеся на тот момент представления об интерфейсе пользователя гипертекстовых баз данных.

Первая задача была решена за счет выбора теговой модели описания документа. Язык HTML позволяет размечать электронный документ, который отображается на экране с полиграфическим уровнем оформления; результирующий документ может содержать самые разнообразные метки, иллюстрации, аудио- и видеофрагменты и так далее. В состав языка вошли развитые средства для создания различных уровней заголовков, шрифтовых выделений, различные списки, таблицы и многое другое.

Вторым важным моментом, повлиявшим на судьбу HTML, стало то, что в качестве основы был выбран обычный текстовый файл. Среда редактирования HTML является нейтральной полосой между простейшим текстовым файлом и приложением WYSIWYG (what you see is what you get – что вы видите, то и получаете). Выбор среды редактирования дает все преимущества текстового редактирования.

Гипертекстовые ссылки, устанавливающие связи между текстовыми документами, постепенно стали объединять самые различные информационные ресурсы, в том числе звук и видео. Система гиперссылок HTML позволяет построить систему взаимосвязанных документов по различным критериям. Язык HTML содержит команды (тэги), позволяющие управлять формой и размером шрифтов, размером и расположением иллюстраций, позволяет осуществлять переход от фрагмента текста или иллюстрации к другим html - документом – так называемую гипертекстовую ссылку. Документ в html - формате представляет собой текстовый файл, содержащий все необходимые сведения о выводимой на экран информации. Для управления сценариями просмотра страниц Website (гипертекстовой базы данных, выполненной в технологии World Wide Web) можно использовать языки программирования этих сценариев, например, JavaScript, Java и VBScript. Формы для введения пользователем данных, которые позднее подвергаются обработке и другую информацию можно обрабатывать с помощью специальных серверных программ (например, на языках PHP или Perl). Язык HTML позволяет помещать на страницы гипертекстовые ссылки и интерактивные кнопки, которые соединяют ваши Web-страницы с другими страницами того же Web-сайта, равно как и с другими Web-сайтами по всему миру.

HTML является языком разметки текста, а не языком программирования, который всего лишь один из инструментов (точнее, язык описания страниц), используемый при создании Web-страниц. В HTML ограничены возможности форматирования текста по сравнению с возможностями издательских программам, особенно при издании текста, насыщенного сложными элементами.

До сих пор нет настолько удобных редакторов HTML, чтобы можно было бы обойтись без текстового редактора и ручной расстановки тэгов. Это усложняет работу с языком, делает необходимым овладение ими совершенно несвойственных им функций.

Различают два вида html-документов – статические и динамические. Статические документы хранятся в файлах той файловой системы, которая используется web-сервером или браузером при просмотре локальных файлов. При размещении информации на web-сервере можно использовать динамические документы - такие, которые не существуют постоянно в виде файлов, а генерируются в момент запроса клиента. При чем для конечного пользователя не имеет значения динамический или статический способ представления документов.

Для генерирования динамического документа HTML требуется специально написанная программа по правилам, определяемым web-сервером. При планировании размещения информации на web-сервере, для правильного определения использования, какого либо вида документов, необходимо учитывать степень обновляемости данных, их объем и частоту обращения.

Динамический способ определяет хранение данных в формализованном виде, например в базе данных.

Если же данные хранятся в формализованном виде, то, используя шаблоны документов, в которых были произведены изменения, генерируются статические документы. Для генерирования статических документов можно использовать любые средства отчетов, имеющихся в той системе управления баз данных (СУБД), которой обработаны и формализованы данные.

Новых версий языка HTML не будет, однако существует дальнейшее развитие HTML под названием XHTML (англ. Extensible Hypertext Markup Language — расширяемый язык разметки гипертекста). Пока XHTML по своим возможностям сопоставим с HTML, однако предъявляет более строгие требования к синтаксису. Как и HTML, XHTML является подмножеством языка SGML, однако XHTML, в отличие от предшественника, соответствует спецификации XML. Вариант XHTML 1.0 был одобрен в качестве Рекомендации Консорциума Всемирной паутины (W3C) 26 января 2000 года. В 2004 году производителями таких браузеров как Mozilla и Opera было основано сообщество людей, заинтересованных в развитии Интернета. Оно получило название WHATWG (аббревиатура английских слов Web Hypertext Application Technology Working Group) и является противовесом консорциума W3C в вопросе перспектив развития HTML. Консорциум делает ставку на XML , а сообщество развивает HTML и API (Application Programming Interface — интерфейс прикладного программирования — набор готовых классов, функций, структур и констант, предоставляемых приложением, библиотекой, сервисом), необходимых для веб приложений. Начало было положено WHATWG в стандарте Web Applications 1.0, где были изначально предложены многие идеи HTML5. 22 января 2008 года сообщество опубликовало первую версию спецификации HTML 5. Сейчас процесс разработки этой спецификации продолжается, он может продлиться еще несколько лет, после чего спецификация официально получит статус рекомендации, хотя уже сегодня многие браузеры реализуют их возможности. Спецификация разработана так, чтобы не поддерживающие ее браузеры могли бы спокойно игнорировать элементы HTML5. Итак, HTML5 это 5 версия популярного языка разметки гипертекста, а ее клон, отвечающий стандарту XML, называется XHTML5.

2.2. Расширяемый язык разметки XML

Консорциум World Wide Web, упростив SGML для использования в Web, предложил расширяемый язык разметки XML (Extensible Markup Language - рекомендация 1998 г.). XML представляет собой подмножество SGML, причем любой действительный документ XML является действительным документом SGML. Как и SGML, XML - это метаязык, определяющий другие языки разметки для специфических целей.

XML используется для разметки стандартных документов во многом так же, как HTML. Однако XML ориентирован на работу со структурированными данными, такими, как результаты запроса, метаинформация о Web-узле или элементы и тип схемы. Документ XML внешне похож на HTML. Он также состоит из текстовых фрагментов, аннотированных заключенными в угловые скобки тегами. XML - это язык разметки, описывающий целый класс объектов данных, называемых XML- документами. Этот язык используется в качестве средства для описания грамматики других языков и контроля за правильностью составления документов. То есть сам по себе XML не содержит никаких тэгов, предназначенных для разметки, он просто определяет порядок их создания. Язык XML – это универсальный формат для структуризации документов и данных, применяемый для обмена информацией, позволяя различным компьютерным системам "общаться", язык XML дает возможность обмениваться сведениями о данных, существенно повышая эффективность. По прогнозам экспертов, XML в будущем станет основой взаимоотношений между партнерами.

XML-документ представляет собой обычный текстовый файл, в котором при помощи специальных маркеров создаются элементы данных, последовательность и вложенность которых определяет структуру документа и его содержание. Основным достоинством XML документов является то, что при относительно простом способе создания и обработки (обычный текст может редактироваться любым тестовым процессором и обрабатываться стандартными XML анализаторами), они позволяют создавать структурированную информацию, которую хорошо "понимают" компьютеры.

Для создания XML документа в простейшем случае не понадобится ничего кроме обычного текстового редактора. При создании собственного языка разметки можно придумывать любые названия элементов, (почти любые, т.к. список допустимых символов ограничен), соответствующих контексту их использования. Таким образом, у разработчиков появляется уникальная возможность определять собственные теги, позволяющие им наиболее эффективно определять данные, содержащиеся в документе. Автор документа создает его структуру, строит необходимые связи между элементами, используя, те теги, которые удовлетворяют его требованиям и добивается такого типа разметки, которое необходимо ему для выполнения операций просмотра, поиска, анализа документа.

Еще одним из очевидных достоинств XML является возможность использования его в качестве универсального языка запросов к хранилищам информации. XML-документы могут выступать в качестве уникального способа хранения данных, который включает в себя одновременно средства для разбора информации и представления ее на стороне клиента. В этой области одним из перспективных направлений является интеграция Java и XML - технологий, позволяющая использовать мощь обеих технологий при построении машинно-независимых приложений, использующих, кроме того, универсальный формат данных при обмене информации.

XML позволяет также осуществлять контроль за корректностью данных, хранящихся в документах, производить проверки иерархических соотношений внутри документа и устанавливать единый стандарт на структуру документов, содержимым которых могут быть самые различные данные. Это означает, что его можно использовать при построении сложных информационных систем, в которых очень важным является вопрос обмена информацией между различными приложениями, работающими в одной системе. Создавая структуру механизма обмена информации в самом начале работы над проектом, менеджер может избавить себя в будущем от многих проблем, связанных с несовместимостью используемых различными компонентами системы форматов данных.

Можно выделить множество задач, связанных с созданием и обработкой структурированной информации, для решения которых может использоваться XML:

- технология XML может оказаться полезной для разработчиков сложных информационных систем, с большим количеством приложений, связанных потоками информации самой различной структурой. В этом случае XML - документы выполняют роль универсального формата для обмена информацией между отдельными компонентами большой программы;

- язык XML позволяет описывать данные произвольного типа и используется для представления специализированной информации, например, химических, математических, физических формул, медицинских рецептов, нотных записей, и т.д. Это означает, что XML может служить мощным дополнением к HTML для распространения в Web "нестандартной" информации;

- XML может использоваться в обычных приложениях для хранения и обработки структурированных данных в едином формате.

Характерными особенностями языка XML являются:

- разметка XML-файла позволяет описывать его содержание;

- XML-документ способен нести информацию о включенном в него материале. Он содержит информацию только о структуре и смысле документа, оставляя форматирование элементов таблице стилей (Extensible Stylesheet Language - XSL);

- сведения о содержании файла могут быть затем повторно использованы на различных компьютерах и в различных приложениях;

- способность объединять несколько XML-документов в один большой документ;

- для XML не обязательно определение типа документа;

- теги XML можно применять для управления поиском информации, в том числе и в глобальных сетях;

- XML предоставляет пользователю возможность определять свой собственный способ кодирования информации с использованием языка разметки;

- XML может употребляться в качестве формата обмена для протоколов транзакций;

В общем случае XML- документы должны удовлетворять следующим требованиям:

- в заголовке документа помещается объявление XML, в котором указывается язык разметки документа, номер его версии и дополнительная информация;

- каждый открывающий тэг, определяющий некоторую область данных в документе обязательно должен иметь своего закрывающего "напарника", т.е., в отличие от HTML, нельзя опускать закрывающие тэги;

- в XML учитывается регистр символов;

- все значения атрибутов, используемых в определении тэгов, должны быть заключены в кавычки;

- вложенность тэгов в XML строго контролируется, поэтому необходимо следить за порядком следования открывающих и закрывающих тэгов;

- вся информация, располагающаяся между начальным и конечными тэгами, рассматривается в XML, как данные, и поэтому учитываются все символы форматирования (т.е. пробелы, переводы строк, табуляции не игнорируются, как в HTML).

Если XML- документ не нарушает приведенные правила, то он называется формально-правильным и все анализаторы, предназначенные для разбора XML- документов, смогут работать с ним корректно. На сегодняшний день существует два способа контроля правильности XML- документа: DTD - определения(Document Type Definition) и схемы данных (XML Schema).

Корпорация Microsoft расширила поддержку XML для компонентов Office 2003 Enterprise Edition; кроме того, в состав данной редакции пакета включено новое приложение - InfoPath, которое позволяет создавать XML-документы и формы. Word, Excel, Visio и другие приложения пакета позволят импортировать XML- схемы и данные для манипуляций с ними (пересчета, создания отчетов, построения графиков) и заполнения несложных форм; элементы схем можно будет переносить в рабочее пространство приложения буксировкой. Схемы и данные затем можно будет сохранить в формате XML или передать в другие приложения посредством Web-служб или технологии Active Data Objects. Все эти возможности направлены не столько на ознакомление с XML нынешнего рядового пользователя Office, сколько на подготовку Office к неизбежному расширению поддержки XML в серверных продуктах Microsoft.

XML используется в качестве формата содержания и в качестве его оболочки, обеспечив возможность кругового преобразования документов между всевозможными форматами. XML-документы постепенно эволюционируют, вобрав в себя, кроме собственно содержания, историю ревизий, сведения о правах доступа и информацию о контекстном процессе.

XML позволяет:

- отделить данные от их представления и тем самым преодолеть хаотичность HTML;

- упорядочить данные в деревья и списки, структурировать их и порождать из них объектные модели;

- описывать метаданные на метаязыке таким образом, чтобы программные модули стали абсолютно универсальными, поскольку они будут иметь дело только с XML-файлами и больше ни с чем другим. Таким образом, с помощью XML можно попытаться реализовать принцип: "Данные должны управлять программами, а не наоборот".

XML поддерживается многими инструментами, разработанными известными фирмами, такими как IBM, MICROSOFT, Oracle, Sun, др. Фирма IBM разработала XML for Java parser — мощный высокоскоростной XML-анализатор; WebSphere — кросс-платформный сервер приложений на Java, расширяющий возможности наиболее популярных Web-серверов, таких, как Apache, IIS, Domino; XMI Toolkit — средство преобразования UML-моделей, построенных с помощью современных CASE-средств типа Rational Rose, в XML- и DTD-структуры; LotusXSL Processor — позволяющий задавать для XML-документов стилевые таблицы и преобразовывать XML-данные в стандартный HTML для поддержки браузеров, не умеющих распознавать язык XML. LotusXSL Processor существует в виде набора Java-классов, методы которых можно вызывать из любых Java-программ, агентов или сервлетов.

XML документы создаются как вручную, так и с помощью программных средств, специальных редакторов или конвертированием из БД. Очевидно, что ручной способ создания структурированной информации не может применяться для наполнения больших информационных узлов. Для этого существуют специальные средства разработки. Для создания XML файлов можно использовать любые XML редакторы (XMLPad, XMLSpy, Xalan, XMetal, др.). Одним их самых простых и удобных и бесплатных является редактор XMLPad. В офисе XP имеются возможности создавать и трансформировать XML файлы.

XML — отнюдь не модное направление, а естественный результат развития Web-технологий, следствие стремления к более эффективному использованию уникальных возможностей открытой глобальной информационной среды, которую они поддерживают. Создание платформы XML — это новая эпоха в развитии Всемирной паутины, это — начало нового, более наукоемкого и технологически более совершенного этапа в ее истории. Сегодня XML, несомненно, стал стандартом де-факто. Все ведущие поставщики программного обеспечения не только Web, но и систем баз данных, включают в свои программные продукты поддержку языка XML или даже создают специализированные системы.

Большую работу по продвижению стандартов платформы XML в практику ведет крупный Международный, некоммерческий консорциум OASIS (Organization for Structured Information Standards, Организация по стандартизации структурированной информации) (Error: Reference source not found), в составе, которого более 600 корпоративных и индивидуальных членов из различных стран мира. Эта деятельность является основной задачей консорциума. OASIS разрабатывает, координирует разработки и распространяет информацию о методологиях применения, технологиях и реализациях этих стандартов. В его задачу входит также создание приложений для «вертикальной» индустрии (например, разработки описания типов документов (Document Type Definition, DTD), схем XML и пространств имен XML), спецификаций интероперабельности (в частности, создание спецификаций профилей, включающих стандарты рассматриваемой категории), тестов на соответствие рассматриваемым стандартам.

Распространению стандартов XML-платформы существенным образом способствует политика W3C, направленная на обеспечение доступности их спецификаций, создание ряда свободно распространяемых синтаксических анализаторов для языка, то большое внимание, которые создатели стандартов XML уделяют обеспечению преемственности для существующей HTML-платформы и накопленных на ее основе ресурсов.

Хотя язык XML и базирующиеся на нем стандарты получают все более широкое распространение, имеются вместе с тем факторы, которые сдерживают массовое распространение XML в среде Web.

Во-первых, существует связанная с экономическими и иными причинами естественная инерционность столь масштабной среды, какой является сегодняшний Web. Эта инерция может преодолеваться только постепенно.

Во-вторых, пока еще не завершена работа над двумя важнейшими стандартами платформы XML, которые позволяют строить из отдельных XML-документов и их компонентов гипермедийную среду. Речь идет о стандартах XPointer (XML Pointer Language, язык указателей XML) и XLink (XML Linking Language, язык ссылок XML). Эти стандарты решают задачу определения гиперссылок в языке XML. Возможности стандартов XPointer и XLink предусматривают существенно более богаты возможности работы с гиперссылками, чем у имеющихся в HTML.

Технологии XML начинают распространяться и в нашей стране. В этой связи приобретает важное значение русскоязычная терминология в этой области.

Платформа XML имеет благоприятные перспективы для широкого практического применения. В пользу этого свидетельствуют не только богатые функциональные возможности рассмотренного семейства стандартов, но и высокая активность в области разработки и развития стандартов, а также производства программного обеспечения, на них основанного.

2.3. Расширяемый язык разметки гипертекста XHTML

XHTML (англ.  Extensible Hypertext Markup Language — Расширяемый язык разметки гипертекста) — язык разметки веб-страниц, по возможностям сопоставимый с HTML, однако является подмножеством XML. Как и HTML, XHTML соответствует спецификации SGML. Вариант XHTML 1.1 одобрен в качестве Рекомендации Консорциума Всемирной паутины (W3C) 31 мая 2001 года.
XHTML представляет собой семейство имеющихся на данный момент и могущих появиться в будущем типов документов и модулей, являющихся копиями, подмножествами или расширениями языка HTML 4. Семейство типов документов XHTML базируется на XML и предназначено для работы с пользовательскими агентами на базе. Более подробную информацию об этом семействе и его эволюции можно найти в разделе «Направления развития».
XHTML 1.0 (настоящая спецификация) представляет первый тип документов семейства XHTML. В ней три типа документов HTML 4 переформулируются в терминах XML 1.0. Она предназначена для использования в качестве языка содержимого, как соответствующего XML, так и, если соблюдены некоторые простые требования, работающего в конформных пользовательских агентах HTML 4. Разработчики, переносящие свои документы в XHTML 1.0, получат следующие преимущества:
- Документы XHTML соответствуют XML. Как таковые они без труда просматриваются, редактируются и проверяются на корректность стандартными средствами XML.
- Документы XHTML могут работать лучше, чем они работали в существующих пользовательских агентах, соответствующих HTML 4, а также в новых пользовательских агентах, соответствующих XHTML 1.0.
- Документы XHTML могут использовать прикладные программы (например, скрипты и апплеты), базирующиеся на HTML Document Object Model или XML Document Object Model  [DOM] .
По мере расширения семейства XHTML документы, соответствующие XHTML 1.0, будут с большей вероятностью совместимы с различными средами XHTML.
Семейство XHTML является следующим шагом в эволюции Интернет. Переходя сегодня на XHTML, разработчики содержимого (контента) могут вступить в мир XML со всеми его преимуществами, сохраняя при этом совместимость содержимого с более старыми и более новыми версиями.
Преимущества XHTML.
Для XHTML можно применять множество технологий разработанных для XML. Например, XSLT и XPath.
Анализ XHTML проще и быстрее, чем HTML. Поскольку синтаксис XML строже, чем SGML, обработка XHTML возможна даже на мобильных телефонах с малыми ресурсами.
Различия между XHTML и HTML.
Все элементы должны быть закрыты. Теги, которые не имеют закрывающего тега (например, или )должны иметь на конце / (например, ).
Булевы атрибуты записываются в развёрнутой форме. Все значения атрибутов обязательно должны быть заключены в двойные, либо одинарные кавычки.
Имена тегов и атрибутов должны быть записаны строчными буквами.
XHTML гораздо строже относится к ошибкам в коде; 
Кодировкой по умолчанию является UTF-8 (в отличие от HTML, где кодировкой по умолчанию является ISO 8859-1). Отличия переходного (англ.  transitional) XHTML от HTML незначительны и предназначены лишь для приведения его в соответствие с XML. Остальные версии отличаются лишь набором тегов.
В том случае, если MIME-тип — text/html (а это чаще всего и есть значение по умолчанию), все современные браузеры поддерживают XHTML. Он также совместим и со старыми браузерами, т. к. в основе XHTML лежит HTML.
Однако если автор страницы задал MIME-тип как application / xhtml+xml, браузер Internet Explorer 6 не сможет обрабатывать страницу, поскольку у него нет XML - парсера. Это одна из причин, замедляющих процесс перехода от HTML к XHTML.
Впрочем, проблема с MIME-типом легко решается при помощи простого PHP-скрипта, меняющего пресловутый MIME-тип в зависимости от пользовательского агента.
Версии XHTML.
XHTML 1.0 Переходный (Transitional): предназначен для лёгкой миграции из HTML 3.2 и для тех, кто использует инлайн-фрэймы.
XHTML 1.0 Строгий (Strict): полностью отделяет содержание документа от оформления (которое теперь задаётся только через CSS), многие атрибуты (такие как, например, bgcolor и align)более не поддерживаются, их поведение можно задавать только через таблицу стилей.
XHTML 1.0 Фрэймовый (Frameset): используется, если необходимо разделить окно браузера на несколько фрэймов.
XHTML 1.1 Модульный (Module-based): авторы могут импортировать дополнительные свойства в их разметку.
XHTML Основной (Basic): специальная облегчённая версия XHTML для устройств, которые не могут использовать полный набор элементов XHTML — в основном используется в миниатюрных устройствах, таких как мобильные телефоны. Подразумевается, что он заменит WML и C-HTML.
XHTML мобильного профиля (Mobile Profile): основанный на XHTML Basic, добавляет специфические элементы для мобильных телефонов.
XHTML 2.0. Пока в разработке. Синтаксис еще больше приближен к синтаксису XML. Также является модульным языком.

Вывод: стиль работы меняется, меняются и средства доступа к содержимому. Язык HTML уже изначально создавался как платформо - независимый язык. Анализируя особенности языка HTML и оценивая уровень его проработки, можно прийти к выводу, что уже в ближайшие годы следует ожидать появления более совершенных его модификаций, новых языков и прикладных пакетов для работы с web-страницами.

3. Спецификации языков гипертекста в WEB - технологиях

3.1. Спецификация HTML

Спецификация состоит из следующих разделов:

Во введении описывается место языка HTML в схеме World Wide Web, приводится краткая история развития языка HTML, описывается, что можно сделать с использованием HTML 4.0 и содержатся некоторые подсказки относительно создания документов в формате HTML.

Краткое руководство по SGML дает читателям понимание отношения языка HTML к языку SGML и предоставляет информацию о чтении Определений типов документов HTML (Document Type Definition - DTD).

Главным содержанием руководства является справочник по языку HTML, в котором определены все элементы и атрибуты языка.

Этот документ упорядочен по разделам, а не по грамматике языка HTML. Разделы сгруппированы в три категории: структура, представление и интерактивность. Хотя конструкции языка HTML трудно разделить на эти три категории, такая модель отражает опыт Рабочей группы HTML, говорящий о том, что разделение структуры документа и его представления обеспечивает большую эффективность документов и лучшие возможности поддержки.

Информация о языке включает следующую:

Какие символы могут отображаться в документе HTML.

Основные типы данных документа HTML.

Элементы, управляющие структурой документа HTML, включая текст, списки, таблицы, ссылки и объекты, изображения и апплеты.

Элементы, управляющие представлением документа в формате HTML, включая таблицы стилей, шрифты, цвета, горизонтальные разделители и другое визуальное представление, а также фреймы (кадры) для многооконного представления.

Элементы, управляющие интерактивностью документа HTML, включая формы для ввода данных пользователя и скрипты для активных документов.

Формальное SGML-определение HTML: SGML-определение HTML;

три DTD: строгое, переходное и с кадрами; список ссылок на символы.

В первом приложении содержится информация об изменениях по отношению к HTML 3.2 с целью помочь авторам при переносе файлов в формат HTML 4.0. Во втором приложении содержатся замечания о производительности и применении, целью которых является помощь разработчикам в создании средств для использования HTML 4.0.

Список нормативных и информативных документов.

Три указателя предоставляют читателям быстрый доступ к определению: понятия, элементы и атрибуты.

Этот документ написан читателями с двумя типами мышления: авторами и разработчиками. Мы надеемся, что спецификация предоставит авторам средства, необходимые им для создания эффективных, привлекательных и доступных документов и не обременяющие их подробностями применения HTML. Разработчики, однако, должны найти здесь всю необходимую для разработки соответствующих средств информацию.

Эту спецификацию можно использовать несколькими способами:

Прочесть от начала до конца. Эта спецификация начинается с общего представления языка HTML, а количество технических подробностей постепенно повышается.

Обращаться к необходимой информации. Для обеспечения максимальной скорости получения информации о синтаксисе и семантике в оперативную версию спецификации включены следующие возможности:

Каждая ссылка на элемент или атрибут связана с его определением в спецификации. Каждый элемент или атрибут определяется только в одном месте.

На каждой странице имеются ссылки на указатели, поэтому Вы всегда сможете найти определение элемента или атрибута, использовав не больше двух ссылок.

На первых страницах трех разделов руководства к исходному оглавлению добавляется более подробная информация о каждом разделе.

Названия элементов представляются символами в верхнем регистре (например, BODY). Названия атрибутов представляются символами в нижнем регистре (например, lang, onsubmit). Помните, что в HTML имена элементов и атрибутов не учитывают регистр; это используется для более легкого чтения.

В названиях элементов и атрибутов в этом документе используется разметка, поэтому агентами пользователей они могут генерироваться особым образом.

В каждом определении атрибута устанавливается тип его значения. Если имеется несколько возможных значений, приводится список значений, разделенных вертикальной чертой (|).

После информации о типе в каждом определении атрибута в квадратных скобках ("[]") указывается, учитывается ли в значениях регистр. Подробнее см. раздел информации о регистре.

Информативные замечания выделены, чтобы отличаться от остального текста и могут генерироваться агентами пользователей особым образом.

Все примеры, иллюстрирующие нежелательное использование, помечены как "ПРИМЕР НЕЖЕЛАТЕЛЬНОГО ИСПОЛЬЗОВАНИЯ". В примеры нежелательного использования входят также рекомендуемые альтернативные решения. Все примеры, иллюстрирующие недопустимое использование, помечены как "ПРИМЕР НЕДОПУСТИМОГО ИСПОЛЬЗОВАНИЯ".

В примерах и замечаниях используется разметка, поэтому некоторыми агентами пользователей они могут генерироваться особым образом.

3.2. Спецификация XML

Расширяемый Язык Разметки (XML) является поднабором SGML и полностью описан в спецификации. Он создан с целью обеспечения обслуживания, передачи и обработки в WEB исходного SGML теми же способами, которые в данный момент имеются в HTML. XML был разработан для облегчения создания конкретных реализаций и для взаимодействия с SGML и HTML.

Роль W3C в составлении Рекомендаций заключается в том, чтобы привлечь внимание к данной спецификации и способствовать её широкому распространению. Это расширит функциональность и возможности Web.

Этот документ специфицирует синтаксис, создаваемый путём подразделения существующих широко распространённых международных стандартов обработки текста для использования в World Wide Web.

Extensible Markup Language, сокращённо XML, описывает класс объектов данных, называемых XML-документы, и частично описывает поведение обрабатывающих их компьютерных программ. XML является профилем приложения или ограниченным вариантом SGML - The Standard Generalized Markup Language. По структуре документы XML являются "соответствующими" документами SGML.

Документы XML состоят из единиц хранения, называемых экземпляры, которые содержат разбираемые или неразбираемые данные.

Разбираемые данные состоят из символов, некоторые из которых образуют символьные данные, а другие - разметку. Разметка кодирует описание схемы и логической структуры единиц хранения документа. XML предоставляет механизм наложения ограничений на схему и логическую структуру единиц хранения.

XML был разработан XML Working Group (ранее известной как SGML Editorial Review Board), сформированной под руководством World Wide Web Consortium (W3C) в1996 году.

Её возглавил Jon Bosak из Sun Microsystems при активном участии XML Special Interest Group (ранее известной как SGML Working Group), также организованной W3C. Члены XML Working Group указаны в Приложении. Dan Connolly является контактёром рабочей Группы с W3C.

Цели создания XML:

1. XML будет широко распространён в Internet.

2. XML будет поддерживать большой диапазон приложений.

3. XML будет совместим с SGML.

4. Он будет лёгким для написания программ, обрабатывающих документы XML.

5. Количество свойств по выбору (optional) в XML будет сведено к абсолютному минимуму, в идеале - к нулю.

6. Документы XML должны быть разборчивыми и ясными по смыслу.

7. Дизайн XML должен выполняться быстро.

8. Дизайн XML должен быть формальным и кратким.

9. Документы XML должны легко создаваться.

10. Краткость в разметке XML имеет минимальное значение.

Эта спецификация, вместе с ассоциированными стандартами, предоставляет всю информацию, необходимую для понимания XML и создания компьютерных программ его обработки.

Символы – это разбираемый экземпляр содержит текст, последовательность символов, которая может представлять символьные данные или разметку. Текст состоит из смеси символьных данных и разметки.

Комментарии могут появляться в любом месте документа вне прочей разметки; кроме того, они могут появляться внутри объявления типа документа в тех местах, которые допускаются грамматикой. Они не являются частью символьных данных документа: процессор XML может, но не должен, давать приложению возможность запрашивать текст комментариев.

Инструкции процесса (ИП) позволяют вводить в текст документа инструкции для приложений. Разделы CDATA могут появляться там же, где и символьные данные; они используются для escape-блоков текста, содержащего символы, которые иначе будут распознаваться как разметка.

Документы XML должны начинаться объявлением XML, которое специфицирует используемую версию XML.

Поскольку будущие версии ещё не сформированы, эта конструкция даётся как средство предоставления возможности автоматического распознавания версии и должна, следовательно, быть включена обязательно. Процессоры могут сигнализировать об ошибке, если получат документ, помеченный неподдерживаемой версией.

Функцией разметки в документе XML является обязанность описывать структуру хранения данных и логическую структуру и ассоциировать пары атрибут-значение с их логическими структурами. XML предоставляет механизм объявления типа документа для определения ограничений в логической структуре и для поддержки использования предопределённых единиц хранения.

Документ XML является правильным/valid, если он имеет ассоциированное объявление типа документа и если документ выполняет ограничения, выраженные в нём.

Объявление типа документа XML содержит или указывает на объявления разметки, предоставляющие грамматику для класса документов. Эта грамматика известна как определение типа документа или DTD. Объявление типа документа может указывать на внешний поднабор (особый вид внешнего экземпляра), содержащий объявления разметки, или может непосредственно содержать объявления разметки во внутреннем поднаборе, или может иметь и то, и другое. DTD документа состоит из обоих соединённых поднаборов. Объявление разметки это объявление типа элемента, объявление списка атрибутов и объявление экземпляра, или объявление нотации. Эти объявления могут полностью или частично содержаться внутри экземпляров параметров.

Каждый документ XML содержит один или более элементов, ограниченных либо начальными и конечными тэгами, либо - для пустых элементов - тэгами пустых элементов. Каждый элемент имеет тип, идентифицируется по имени, которое иногда называется "generic identifier" (GI) - родовой идентификатор, и может иметь набор спецификаций атрибутов. Каждая спецификация атрибутов имеет имя и значение.

Начало каждого непустого элемента XML обозначается начальным тэгом. Окончание каждого элемента, начатого начальным тэгом, обязано быть отмечено конечным тэгом, содержащим имя, отражающее тип элемента, как это было дано в начальном тэге. Текст между начальным и конечным тэгами называется содержимым элемента.

Элемент без содержимого называется пустым. Пустой элемент представлен либо начальным тэгом, после которого непосредственно следует конечный тэг, либо тэгом пустого элемента. Тэг пустого элемента имеет особую форму.

Структура элемента документа XML может, для целей проверки, быть ограничена путём использования объявлений типа элемента и списка атрибутов. Объявление типа элемента ограничивает содержимое элемента.

Объявление типа элемента часто ограничивают типы элементов, которые могут появляться в качестве потомков элемента.

Тип элемента имеет содержимое элемента, если элементы данного типа обязаны содержать только дочерние элементы (а не символьные данные), которые могут быть, по усмотрению, разделены пробелами.

В этом случае ограничение включает модель содержимого, простую грамматику, управляющую разрешёнными типами дочерних элементов и порядком, в котором они могут появляться.

Тип элемента имеет смешанное содержимое, если элементы этого типа могут содержать символьные данные, перемежаемые дочерними (необязательными) элементами.

Атрибуты используются для ассоциирования пар имя-значение с элементами. Спецификации атрибутов могут появляться только в начальных тэгах и тэгах пустых элементов; поэтому продукции, используемые для их распознавания, появляются в разделе.

Прежде чем значение атрибута передаётся приложению или проверяется на правильность, процессор XML обязан нормализовать значение атрибута путём применения к нему нижеприведённого алгоритма или путём использования некоторых других методов так, чтобы значение, передаваемое приложению, было тем же, что и произведённое алгоритмом.

Документ XML может состоять из одной или более единиц хранения. Они называются экземплярами; они имеют содержимое и все (исключая экземпляр документа и внешний поднабор ОТД) идентифицируются по name\имени экземпляра. Содержимое разбираемого экземпляра называется его замещающим текстом; этот текст считается неотъемлемой частью документа.

Неразбираемый экземпляр это ресурс, чьё содержимое может, или может не быть, текстом, и, если это текст, может не быть XML. Каждый неразбираемый экземпляр имеет ассоциированную нотацию, идентифицируемую по имени. Помимо требования к процессору XML сделать идентификаторы экземпляра и нотации доступными приложению, XML не накладывает никаких ограничений на содержимое неразбираемых экземпляров.

Общие экземпляры это экземпляры для использования внутри содержимого документа. В этой спецификации ОЭ иногда называются неквалифицированным термином экземпляр, если это не приводит к неоднозначности.

Экземпляры параметров это разбираемые экземпляры для использования внутри ОТД. Эти два типа экземпляров используют разные формы ссылок и распознаются в различных контекстах. Следовательно, они занимают разные пространства имён; экземпляр параметра и общий экземпляр с одни именем - это два разных экземпляра.

Ссылка символа ссылается на специфический символ в наборе символов ISO/IEC 10646, например, ссылка на символ, не доступный напрямую из устройства ввода. Ссылка экземпляра ссылается на содержимое именованного экземпляра.

Если процессор XML обнаруживает ссылку на разбираемый экземпляр, то, для того чтобы проверить документ, процессор обязан включить его (экземпляра) замещающий текст. Если экземпляр является внешним, а процессор не пытается проверить документ XML, то процессор может, но это не является необходимым, включить замещающий текст экземпляра. Если непроверяющий процессор не включает замещающий текст, он обязан информировать приложение, что он обнаружил, но не прочитал, экземпляр.

Это правило базируется на том, что автоматическое распознавание, предоставляемое механизмом экземпляров SGML и XML, первоначально созданным для поддержки модульности в авторизации, не обязательно подходит для других приложений, особенно для просмотра документов. Браузеры, например, при обнаружении ссылки на внешний разбираемый экземпляр, могут избрать визуальное предупреждение о том, что экземпляр существует, и запрашивать его для показа только по требованию.

Литеральное значение экземпляра - это закавыченная строка, реально представленная в объявлении экземпляра, соответствующая нетерминальному EntityValue. Определение: Замещающий текст это содержимое экземпляра после замещения мнемоник символов и ссылок экземпляров параметров.

Нотации идентифицируют по имени формат не разбираемых экземпляров, формат элементов, которые породили атрибут нотации, или приложение, которому адресуется инструкция процесса. Объявления нотации предоставляют имя нотации для использования в объявлениях экземпляра и списка атрибутов и в спецификациях атрибутов, а также внешний идентификатор для нотации, который может позволить процессору XML или его клиентскому приложению локализовать вспомогательное приложение, способное обработать данные в данной нотации.

Соответствующие процессоры XML делятся на два класса: проверяющие и не проверяющие. Проверяющие и не проверяющие процессоры оба обязаны выводить сообщения о нарушениях ограничений правильно сформированности данной спецификации в содержимом экземпляра документа и любых других разбираемых экземплярах, которые они читают.

Проверяющие процессоры обязаны, по выбору пользователя, сообщать о нарушениях ограничений, выраженных объявлениями в ОТД, и невозможности выполнения ограничений правильности, данных в этой спецификации. Чтобы выполнить это, проверяющие процессоры XML обязаны читать и обрабатывать все ОТД и все внешние разбираемые экземпляры, на которые имеются ссылки в документе.

От не проверяющих процессоров требуется лишь проверить экземпляр документа, включая весь внутренний поднабор ОТД, на правильное формирование.

Поскольку не требуется проверять документ на правильность/верность, необходимо обработать все объявления, прочитанные во внутреннем поднаборе ОТД и во всех экземплярах параметров, которые прочитаны, до первой ссылки на экземпляр параметра, который не прочитан; то есть информация в этих объявлениях обязана использоваться для нормализации значений атрибутов, включения замещающего текста внутренних экземпляров поддержки значений по умолчанию в атрибутах.

Формальная грамматика XML даётся в данной спецификации с использованием нотации Extended Backus-Naur Form (EBNF). Каждое правило грамматики определяет один символ.

3.3. Спецификация XHTML

В настоящей спецификации определяется XHTML 1.0, переформулировка HTML 4 в виде приложения XML 1.0, и три DTD, соответствующих типам, определяемым HTML 4. Семантика элементов и их атрибутов определена в рекомендации W3C HTML 4. Данная семантика представляет собой основу для будущего расширения языка XHTML.

XHTML представляет собой семейство имеющихся на данный момент и могущих появиться в будущем типов документов и модулей, являющихся копиями, подмножествами или расширениями языка HTML 4 [HTML]. Семейство типов документов XHTML базируется на XML и предназначено для работы с пользовательскими агентами на базе. Более подробную информацию об этом семействе и его эволюции можно найти в разделе "Направления развития".

Семейство XHTML является следующим шагом в эволюции Интернет. Переходя сегодня на XHTML, разработчики содержимого (контента) могут вступить в мир XML со всеми его преимуществами, сохраняя при этом совместимость содержимого с более старыми и более новыми версиями.

Преимущества перехода на XHTML 1.0 описаны выше. Вот несколько основных преимуществ:

Разработчики документов и создатели пользовательских агентов постоянно открывают новые способы выражения своих идей в новой разметке. В XML ввод новых элементов или атрибутов достаточно прост. Семейство XHTML разработано так, чтобы принимать расширения путем модулей и технологий XHTML для разработки новых соответствующих XHTML модулей (описанных в готовящейся спецификации модуляризации XHTML). Модули позволят комбинировать существующие и новые наборы функций при разработке содержимого и создании новых пользовательских агентов.

Постоянно вводятся альтернативные методы доступа в Интернет. По некоторым оценкам, в 2002 году 75% обращений к документам в Интернет будет выполняться с альтернативных платформ. Семейство XHTML создавалось с учетом общей совместимости пользовательских агентов. С помощью нового механизма профилирования пользовательских агентов и документов серверы, прокси и пользовательские агенты смогут преобразовывать содержимое наилучшим образом. В конечном счете станет возможной разработка соответствующего XHTML содержимого, пригодного для любого соответствующего XHTML пользовательского агента.

В настоящей спецификации используются следующие термины, которые расширяют определения, данные в [RFC2119] аналогично определениям ISO/IEC 9945-1:1990 [POSIX.1]:

Описываются общие термины XHTML: атрибут, DTD, возможности, документ, пользовательский агент, правильно построенный, представление (генерация), проверка корректности, реализация, синтаксический разбор, элемент.

В настоящей версии XHTML предоставляется определение строго конформных документов XHTML.

Строго конформный документ XHTML - это документ, которому необходимы только возможности, описанные в настоящей спецификации как обязательные.

Пространство имен XHTML может использоваться с другими пространствами XML в соответствии с [XMLNAMES], хотя такие документы не являются строго конформными XHTML 1.0 в соответствии с приведенным выше определением. В будущих работах W3C будут определены способы указания конформности документов, в которых используется несколько пространств имен.

Конформный пользовательский агент должен соответствовать всем определенным в спецификации критериям.

Говорится о различиях, которые присутствуют в языке XHTML. Поскольку XHTML является приложением XML, некоторые приемы, допустимые в языке HTML, основанном на SGML, должны быть изменены.

К документам XHTML 1.0 не предъявляется требование совместимости с существующими пользовательскими агентами, но на практике оно достаточно легко реализуемо.

Спецификация XHTML 1.0 закладывает основу семейства типов документов, которые будут расширениями и подмножествами XHTML, для поддержания широкого диапазона новых устройств и приложений путем определения модулей и механизма объединения этих модулей. Такой механизм позволит унифицировать способы расширения XHTML 1.0 и использования его подмножеств путем определения новых модулей.

По мере перемещения XHTML с традиционных пользовательских агентов на рабочем столе на другие платформы становится ясно, что не все элементы XHTML будут необходимы на всех платформах.

Процесс модуляризации разбивает XHTML на ряд более мелких подмножеств элементов. Модуляризация дает определенные преимущества.

В профиле документа определяется синтаксис и семантика набора документов. Соответствие профилю документа обеспечивает основу гарантии совместимости. В профиле документа определяются возможности, необходимые для обработки документа этого типа.

Для авторов профили устраняют необходимость написания нескольких различных версий документов для различных клиентов.

4. Практическое применение языков разметки гипертекста

Основным принципом формирования интерактивной обучающей среды при всех концепциях обучения, как показывает практический опыт, является гипертекстовый принцип структурирования и представления информации. Разрабатываемая в литературе теория гипертекста, а также имеющийся опыт по созданию гипертекстовых структур позволяют наметить ряд его сущностных, структурно значимых понятийных признаков. Вспомним историю формирования этого явления. Первоначально гипертекстовые технологии привлекли внимание преподавателей как средство интеграции текстовой информации и информации, представляемой в других модальностях - мультимедиа (звук, видео, анимация и т.д.). Затем авторы - разработчики компьютерных обучающих программ открыли для себя гипертекст как средство моделирования когнитивных процессов и тем самым как новое средство управления этими процессами. Симптоматично, что сама идея гипертекста (хотя и без введения именно этого термина) была впервые, как утверждается во всех западных учебниках по истории этого понятия и как принято сейчас считать в интернетовском информационном сообществе, изложена в статье Ванневара Буша, озаглавленной следующим образом: «As we may think»; именно от этой работы начинается отсчет эпохи гипертекста как некоторого особого явления в теории информации, лингвистике и когнитивной психологии, а также в сфере художественного слова нового типа (hypertext fiction).

В настоящее время термин «гипертекст» применяют к разным объектам: 1) так называют особый метод построения информационных систем, обеспечивающий прямой доступ к данным с сохранением логических связей между ними; 2) это определенная система представления текстовой и мультимедийной информации в виде сети связанных между собой текстовых и иных файлов; 3) это особый универсальный интерфейс, отличительными чертами которого является его интерактивность и необычайная дружелюбность по отношению к пользователю. Разработка гипертекстовых систем для целей обучения была начата за рубежом в 80-е годы, аналогичные работы в России до последнего времени находились в пилотной стадии. В 2004 г. у нас наблюдается экспоненциальный рост числа гипертекстовых систем, предлагаемых для дистанционного обучения, что соответствует мировым тенденциям в этой области.

Учебные материалы, подготовленные на основе мультимедийных гипертекстовых технологий, обладают рядом очевидных преимуществ как для учителя, обеспечивающего, направляющего и контролирующего процесс обучения, так и для обучаемого: прежде всего, это принципиально новые возможности презентации учебного материала, связанные с использованием зрительной и аудитивной наглядности. Необходимо также отметить, что сама гипертекстовая структурированность учебного материала обладает собственным дидактическим значением, так как является значительно более гибкой формой подачи информации, позволяющей в максимальной степени учитывать индивидуальные потребности обучающегося. По сути дела, каждое обращение к автоматизированному обучающему курсу, основой которого является база данных, выполненная в гипертекстовом формате, является процессом создания своего собственного учебного текста, наиболее адекватно соответствующего данной актуальной задаче, вследствие чего процесс обучения приобретает творческий аспект. Устанавливая логические связи информационных блоков, выстраивая информацию, следуя собственной логике ее осмысления, обучающийся по сути дела становится соавтором, и, может быть, это и становится наиболее привлекательной стороной использования подобных курсов в процессе обучения. Однако необходимо подчеркнуть, что ключевой проблемой в такой системе становится проблема организации «навигации», свободная или навязываемая автором-разработчиком стратегия исследования данного информационного поля, которая к тому же должна решать и собственно дидактические задачи. В исследованиях по теории гипертекста вопросы организации «чтения» гипертекстовой информации рассматриваются в совокупности с формальным анализом структуры гипертекстового поля, возможностями технических средств управления «навигацией», а также особенностями когнитивных стратегических предпочтений человека (вновь подчеркнем, что последнее остается до сих пор наименее изученной областью). В качестве достаточно хорошо проработанных формализованных стратегических моделей часто выступают модели, лежащие в основе систем автоматизированного поиска и систем автоматической обработки запросов.

Содержательная структура гипертекста в значительной мере соотносима с понятийным тезаурусом конкретной предметной области, которая должна быть смоделирована средствами этого гипертекста. При этом, как показывает практический опыт, рекомендуется следующая уровневая иерархия ссылок, взятых в их функциональном аспекте:

а) на первом, самом высоком уровне, используется жанр максимально коротких аннотаций для всех базовых терминологических понятий,

б) на следующем уровне дается предметное истолкование тех или иных понятий,

в) далее идет информационный слой, связанный с концептуальной трактовкой этих понятий, который может сопровождаться набором библиографических ссылок или ссылками на рекомендуемую литературу.

В теории гипертекста для формализации этих параметров была разработана специальная гипертекстовая метрика, которая включает два базовых параметра: степень информационной компактности и индекс стратификации. Высокий уровень компактности характеризует такие гипертекстовые структуры, в которых на любой из информационных блоков можно с легкостью попасть из любого другого блока (обычно это обеспечивается многочисленными перекрестными ссылками). Чрезмерно высокая компактность может привести к полной дезориентации обратившего к гипертексту читателя, а также чрезвычайно затрудняет процесс отслеживания преемственности понятий. Низкая информационная компактность чревата выпадением из поля зрения читателя гипертекста отдельных узлов, которые могут нести важную для формирования каких-то понятий информацию или же вообще делать отдельные узлы во многих случаях недоступными. Индекс стратификации позволяет оценить допустимую степень свободы выбора последовательности чтения гипертекстового документа. Именно этот последний параметр представляется нам особенно значимым параметром для такой функционально-стилистической разновидности гипертекста, как обучающий гипертекст.

В подготовленных учебных компьютерных материалах было экспериментально получено оптимальное количество допустимых ссылок в расчете на один абзац текста (не более 1 - 2 ссылок), а также рекомендуемый объем текстовой информации: при выводе на экран компьютера он должен занимать не более 1,5 или 2-х экранов. Допустимая и рекомендуемая иерархическая глубина связей устанавливалась в соответствии с данными теории восприятия информации и когнитивной лингвистики. Предполагалось, что в зависимости от индивидуальных когнитивных стилей усвоения информации она может колебаться от 2 до 5 шагов. В ряде психологических и психолингвистических работ, посвященных теории гипертекста, были предприняты попытки выявления базовых стратегий, которые оказывались предпочтительными для разных групп людей; полученные данные позволяют наметить три основных типа поведения в гипертекстовом пространстве, их принято в англоязычной традиции называть depth-first navigation, breadth-first navigation и два варианта промежуточной стратегии (random navigation), совмещающей в определенных долях два первых подхода). Однако нельзя не отметить, что все без исключения исследователи подчеркивают необходимость дополнительных экспериментов в этом направлении для установления степени достоверности полученных данных. Несомненно, этот вопрос нуждается в дальнейшем, более глубоком изучении, поэтому в данной работе руководствовались преимущественно интуитивными представлениями об оптимальной структуре связей, которые были продиктованы спецификой лежащего в основе гипертекста материала.

Контрольное тестирование и устный опрос являются одними из наиболее широко используемых и хорошо разработанных средств проверки знаний в высшем образовании. Классический тест представляет собой последовательность достаточно простых вопросов. На каждый вопрос имеется простой ответ, который может быть формально проверен и оценен как правильный, неправильный или частично правильный (например, неполный). Вопросы обычно классифицируются по типам соответственно типу ожидаемого ответа. Классические типы вопросов делятся на вопросы типа [да/нет], вопросы типа [много вариантов/один ответ] (МВ/ОО), вопросы типа [много вариантов/много ответов] (МВ/МО) и вопросы открытого типа с текстовым или числовым ответом. Более продвинутые типы вопросов включают вопросы на соответствие, вопросы на правильную последовательность, вопросы на указывание (ответ - одна или несколько областей на рисунке), а также графические вопросы (ответ - простой граф). Кроме этого, каждая предметная область может иметь некоторые специфические типы вопросов.

Варианты поддержки на стадии создания обычно зависят от технологии, используемой для хранения отдельного вопроса в системе. В настоящее время, нам известно два различных способа хранения вопроса: в формате представления и во внутреннем формате. В контексте Web-основанного обучения, хранение вопроса в формате представления означает его хранение как части HTML-кода (обычно в виде HTML-формы). Такие вопросы могут также называться статическими вопросами. Они являются «черными ящиками» для WBE-системы. Система может представлять статические вопросы только «как есть» (в том виде, в котором они были созданы). Создание вопросов этого типа часто не поддерживается WBE-системой, так как это может быть сделано в любом HTML-редакторе.

Тип интерактивной технологии, используемой для получения ответов обучаемого, является одной из наиболее важных характеристик WBE-систем. Он определяет всю функциональность на стадии выдачи вопросов, а также влияет на стадии создания и оценки вопросов. В настоящее время, различают пять технологий: HTML-ссылки, HTML/CGI-формы, скриптовые языки, внедрение (plag-in) и Java.ссылки - самая простая технология взаимодействия, реализующая набор возможных ответов как список HTLM-ссылок. Каждая ссылка связана с определенной страницей обратной связи. При использовании этого подхода возникает две проблемы: сложность создания вопросов (логика вопроса должна быть жестко встроена в гипертекст курса) и поддержка всего двух типов вопросов: [да/нет] и [МВ/ОО]. Эта технология использовалась в основном на заре Web-основанного обучения, когда более продвинутые технологии взаимодействия, такие как CGI, JavaScript или Java еще не были разработаны.

Наиболее популярной технологией Web-тестирования, используемой в настоящий момент многочисленными коммерческими и университетскими системами, является комбинация HTML-форм и CGI-скриптов. HTML-формы чрезвычайно удобны для представления основных типов вопросов. Вопросы типа [да/нет] и [МВ/ОО] представляются наборами иконок, списками выбора, всплывающими меню. Вопросы [МВ/МО] представляются списками множественного выбора или наборами переключателей. Вопросы открытого типа реализуются в виде полей редактирования. Более продвинутые вопросы, такие как вопросы на соответствие или на правильную последовательность, также могут быть реализованы, при помощи форм. Кроме того, скрытые поля могут использоваться для хранения дополнительной информации о тесте, в которой может нуждаться CGI-скрипт. Значительные преимущества от использования технологии «стороны сервера» (к которой относится и технология «форма/CGI») и схожей с ней технологии «карты стороны серверной» возникают при реализации графических вопросов на указывание.

ЗАКЛЮЧЕНИЕ

Сегодня гипертекст как способ организации и представления информации становится ведущей технологией в компьютерных системах. Созданы и создаются программные продукты для реализации всех возможностей гипертекстовой репрезентации информации. Успех и постоянный рост глобальной сети INTERNET убедительно свидетельствует о преимуществах такого представления данных. Системы гипермедиа, как расширение гипертекста, зарекомендовали себя одними из самых эффективных для обучения и ежедневного использования в качестве справочников, энциклопедий и тому подобное. Фантастически выглядят системы виртуальной реальности, которые позволяют "входить" в искусственно созданный мир. Виртуальная реальность - это не что иное, как распространение гипертекстовой концепции представления информации + современные технологии, которые позволяют моделировать окружение (шлемы виртуальной реальности, сенсорные перчатки, костюмы, обувь и многое другое). В будущем, по моему мнению, появятся виртуальные библиотеки, магазины и даже города, в которые можно будет ходить, не выходя из дома. То, о чем раньше говорили только писатели - фантасты, например, Сергей Лукьяненко в романе "Лабиринт отражений" (рус.), уже можно представить себе с точки зрения реализации.

Существует и другое направление развития гипертекста, кроме технологического. Экспериментальный опыт применения гипертекста в качестве вспомогательного инструмента творческого процесса писателей сегодня демонстрируют системы генерации художественных сюжетов, в частности, детективов, сказок и других текстов с фиксированной композицией. Разрабатываются системы для создания универсального литературной среды (всей мировой литературы).

Исследование возможностей гипертекстовой технологии продолжаются.

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

Баранов, Д.В. Современные информационные технологии. / Д.В. Баранов. – Томск: ИДО (ТУСУР), 2005. – 130 с.

Ваулина, Ч.Ю. Информатика: толковый словарь / Ч.Ю. Ваулина. – М.: Изд-во Эксмо, 2005. – 480 с.

Когаловский, М.Р. Перспективные технологии информационных систем / М.Р. Когаловский. – М.: Компания АйТи, 2003. – 288 с.

Когаловский, М.Р. Энциклопедия технологий баз данных / М.Р. Когаловский. – М.: Финансы и статистика, 2005. – 800 с.

Крис, Д. Креативный Web-дизайн. HTML, XHTML, CSS, JavaScript, PHP, ASP, ActiveX. Текст, графика, звук и анимация. Учебник Пер с англ. / Д. Крис, К. Кинг, Э. Андерсон. – М.: ООО «ДиаСофтЮП», 2005. 672 с.

Мишенин, А.И. Теория экономических информационных систем / А.И. Мишенин. – М.: Финансы и статистика, 2002. – 240 с.

Непейвода, Н.Н. Основания программирования / Н.Н. Непейвода, Скопин И.Н. – Москва-Ижевск: Институт компьютерных исследований, 2003. – 868 с.

Основы Web – технологий : учеб. пособие / П.Б. Храмцов [и др.]. – М. : Изд-во Интуит.ру “Интернет-Университет Информационных Технологий”, 2003. – 512 с.

Пауэл Томас, А. Справочник программиста / Томас А Пауэл, Д. Уитворт. – М.: АСТ, Мн.: Харвест, 2005. – 384 с.

Петров, В.Н. Информационные системы: учеб. пособие / В.Н. Петров. – СПб.: Питер, 2002. – 588 с.

Экономическая информатика: Введение в экономический анализ информационных систем: учебник. – М.: ИНФРА-М, 2005. – 958 с. – (Учебники экономического факультета МГУ им. М.В. Ломоносова).

Приложение

Международный консорциум W3C

В настоящий момент "на ниве стандартизации" плодотворно трудится целый ряд различных международных и национальных органов, включая такую авторитетную организацию, как ISO (International Standards Organization, Международная организация по стандартизации). То, что мы остановились на W3C и OASIS, объясняется исключительно XML-направленностью данной рубрики. Кроме того, эти консорциумы являются наиболее авторитетными и известными организациями в области XML-технологий (сразу оговоримся, что мы нисколько не пытаемся принизить значимость других объединений, как, например, XBRL Inc. или WS-I, - изучив принятые в этих органах правила и нормы принятия стандартов, можно говорить об общности подходов при их разработке и утверждении).

Немного истории

World Wide Web Consortium (W3C) - это международная организация, объединяющая в своих рядах около 450 членов и постоянный штат из более чем 60 сотрудников. W3C был создан в октябре 1994 года по инициативе Тима Бернерса-Ли (Tim Berners-Lee), создателя "всемирной паутины", на базе Лаборатории вычислительной техники Массачусетского технологического института (Massachusetts Institute of Technology, Laboratory for Computer Science) при активном участии Европейской организации по ядерным исследованиям (Conseil Europeen pour la Recherche Nucleaire, CERN), Управления перспективных исследовательских программ (Defense Advanced Research Projects Agency, DARPA) и Европейской комиссии (European Commission). В апреле 1995 года европейское представительство консорциума "приютил" Национальный институт исследований в области компьютерной обработки данных и автоматики (Institut National de Recherche en Informatique et en Automatique, INRIA), а в 1996 году - появилось азиатское отделение - инициатором выступил японский центр Shonan Fujisawa Campus (Keio University of Japan). Наконец, в этом году Европейскому научно-исследовательскому консорциуму в области информатики и математики (European Research Consortium on Informatics and Mathematics, ERCIM) "были переданы функции" INRAI.

Организационная структура

Как отмечалось выше, основу W3C составляют его члены: поставщики продуктов и услуг, корпоративные пользователи, исследовательские лаборатории, органы стандартизации, правительства различных стран. Члены организации направляют технических специалистов и своих представителей для участия в работе различных групп консорциума: Рабочих групп (Working Group), Неспециализированных групп (Interest Group) и Координационных групп (Coordination Group) - руководство которыми осуществляет персонал W3C, или так называемая Целевая группа (Team). В этих группах выполняется львиная доля работы консорциума - результатом их деятельности являются технические отчеты, программные средства с открытым кодом и различные услуги.

Организационно, все работы в консорциуме ведутся по так называемым направлениям деятельности (Activity). Цели и задачи каждого такого направления излагаются в Декларации направления (Activity statement), в котором приводится список задействованных групп.

От предложения до рекомендации

Прежде чем простое предложение превратится в рекомендацию, оно должно пройти долгий путь развития, согласования и утверждения.

В процессе рассмотрения различных заявок и замечаний, направляемых членами консорциума, организации конференций и семинаров, а также отслеживания развития Web-технологий, руководство W3C - Team - может прийти к выводу о необходимости формирования нового направления деятельности. С этой целью Директор (Director) направляет в Консультативный комитет (Advisory Committee) предложение о формировании нового направления деятельности (Activity Proposal). В течение периода рассмотрения, который длится не менее месяца, Консультативный комитет высказывает свои соображения и замечания по обсуждаемому вопросу, после чего Директор информирует комитет об отношении членов консорциума к этому предложению. При наличии консенсуса, то есть если эта идея получила всеобщую поддержку, W3C инициирует новое направление.

Как указывалось, выше, итогом деятельности той или иной рабочей группы являются технические отчеты. Международный консорциум различает и публикует два типа отчетов: Примечания (Note) и Технические отчеты.

Примечания - это различные документы, комментарии, мнения членов консорциума и представителей общественности. К ним также относятся заявки на рассмотрение, направляемые членами W3C, и различные информационные ресурсы, сформированные в процессе работы какой-либо рабочей группы или Целевой группы.

Технический отчет представляет собой одну из возможных версий стандарта, разрабатываемого рабочей группой: Рабочая версия (Working Draft), Последняя редакция Рабочей версии, или Рабочей версия в статусе "крайнего срока" (Last Call Working Draft), Кандидат к рекомендации (Candidate Recommendation), Предложенная рекомендация (Proposed Recommendation) и Рекомендация (Recommendation).

Любой отчет обязательно содержит сведения о том, является ли этот документ Примечанием или же Техническим отчетом. Кроме того, в нем указывается его статус: объясняется причина публикации, уточняется, кто его составитель, куда направлять комментарии, каковы основные отличия от предыдущей версии, ожидаются ли мероприятия по практической реализации освещаемой технологии и т. д.

Для Рабочей версии обязательно приводится информация о состоятельности рассматриваемого отчета (например, сведения о том, что он может быть аннулирован, или о том, что на него следует ссылаться исключительно как на незаконченный документ) и наличии консенсуса среди членов консорциума в отношении этого документа.

Для Примечания необходимым является указание степени одобрения этого документа со стороны W3C, а также пояснение того, предполагается ли в дальнейшем заниматься вопросами, обсуждаемыми в нем.

Остановимся более подробно на процедуре разработки и принятия различных версий стандартов W3C.

Рабочая версия

Рабочая версия - это "первая ступень" в продвижении технического отчета к самому высокому статусу, который может получить спецификация - Рекомендации. Формально, для опубликования Рабочей версии необходимо согласие Директора, хотя факт обнародования документа не является отражением наличия консенсуса или одобрения со стороны W3C.

При этом, Рабочая группа вправе запросить издания Рабочей версии, даже если ее текст не является окончательным и не отвечает всем требованиям группы.

После выхода Рабочей версии группа должна продолжить работу над ней: принимать комментарии и замечания к данному документу как от членов W3C, так и "представителей общественности".

Последняя редакция Рабочей версии

Последняя редакция Рабочей версии - это "особый случай" Рабочей версии. Этот документ является результатом ее доработки на предмет соответствия требованиям Рабочей группы, а также формального разрешения всех вопросов, возникших в процессе ее изучения как самими ее авторами, так и другими Рабочими группами и "представителями общественности". Представляя спецификацию в статусе Последней редакции Рабочей версии, Рабочая группа рассылает запрос на участие в рассмотрении документа. К изучению спецификации привлекаются другие группы W3C, а также общественность. При этом, Рабочая группа должна установить период приема комментариев (как правило, он составляет три недели, хотя в случае, если технический отчет освещает достаточно сложные технические вопросы, указанный срок может быть продлен). На этом этапе к работе над спецификацией подключается Консультативный комитет, который всячески содействует получению отзывов и замечаний - для того, чтобы выявить все проблемы и вопросы до того, как спецификация перейдет в статус Кандидата к рекомендации.

По завершении "окончательного срока" Рабочая группа может обратиться к Директору с просьбой предоставить спецификации статус Кандидата к рекомендации или Предложенной рекомендации. В случае отказа, Директор обязан "понизить" документ до Рабочей версии, поставив в об этом в известность все группы W3C.

Кандидат к рекомендации

Для получения статуса Кандидата к рекомендации Рабочая группа должна выполнить все требования, предъявляемые к Последней редакции Рабочей версии, формально разрешив все замечания, высказанные во время периода "крайнего срока" Рабочей версии, а также согласовать все вопросы, относящиеся к ведению других групп, а также предоставить список всех формальных возражений.

При переходе Последней редакции Рабочей версии в статус Кандидата к рекомендации Директор направляет в Консультативный комитет запрос на реализацию данной спецификации. В этом запросе должен быть указан минимально возможный период пребывания документа в этом статусе. При определении этого срока должно быть учтено мнение членов Рабочей группы касательно времени, необходимого для получения сведений о случаях реализации спецификации.

Фактически, переход спецификации в рассматриваемый статус означает, что Рабочая группа ожидает, что предложенный ею документ найдет практическое применение (два не связанных между собой случая реализации не являются обязательным требованием при получении данного статуса, однако, их наличие или указание о потенциально возможных решениях всячески приветствуются).

Как и в случае с Последней редакцией Рабочей версии, по окончании "кандидатского" периода Рабочая группа может обратиться к Директору с просьбой предоставить спецификации статус Предложенной рекомендации. В случае отказа, Директор обязан "понизить" документ до Рабочей версии, поставив в об этом в известность Консультационный комитет.

Предложенная рекомендация

Для получения статуса Предложенной рекомендации Рабочая группа должна выполнить все требования предыдущего этапа, а также добиться реализации каждой функциональности, представленной в спецификации. Желательно, чтобы на каждую функциональность имелось бы два не связанных между собой случая реализации. Тем не менее, если Директор считает, что незамедлительное изучение спецификации членами Консультативного комитета является необходимым условием успешного завершения разработки стандарта, он может предоставить спецификации статус Предложенной рекомендации, даже если она не получила необходимого апробирования.

Директор может обязать Рабочую группу разрешить все вопросы, поднятые членами Консультативного комитета в течение периода рассмотрения, который длится не менее одного месяца. Рабочая группа также должна формально ответить на вопросы, возникающие вне Консультативного комитета (в других рабочих группах и в среде общественности), своевременно сообщив об этом Директору.

По окончании данного этапа Директор может предоставить спецификации статус Рекомендации, в противном случае он обязан "понизить" документ до Кандидата к рекомендации или Рабочей версии.

Каким бы ни было его решение, Директор должен сообщить о нем Консультативному комитету не ранее двух недель после завершения периода рассмотрения Предложенной рекомендации. Однако, Директор обязан сделать объявление не позднее трех недель.

Рекомендация

Чтобы Предложенная рекомендация превратилась в Рекомендацию, Директор должен быть уверен, что она пользуется ощутимой поддержки со стороны Консультативного комитета, Целевой группы, рабочих групп W3C и общественности. Решение о предании документу статуса Рекомендации является решением W3C.

При переходе спецификации в статус Рекомендации члены консорциума должны оказывать новой Рекомендации всяческую поддержку (отслеживать опечатки, предоставлять испытательные программные средства и т. д.) и способствовать широкому применению этого стандарта.

W3C может опубликовать исправленную версию Рекомендации, в которой будут исправлены опечатки и внесены редакторские правки. В этом случае раздел о статусе документа должен отражать соответствующую информацию.

Если же требуется более существенный пересмотр Рекомендации, Рабочая группа обязана руководствоваться общими правилами стандартизации, изложенными выше.