Российские Электронные Библиотеки

Функциональные возможности и направления использования стандартов платформы XML

Когаловский М.Р.

Институт проблем рынка РАН

 

Тезисы доклада, опубликованные в сборнике трудов Всероссийской практической конференции "Стандарты в проектах современных информационных систем", Москва, 2001. - М.: Открытые системы, 2001. - С. 127-133.

 

Введение

Родившаяся на пороге 90-х годов в CERN концепция Всемирной паутины в короткие сроки привела к созданию глобальной гипермедийной информационной системы. Беспрецедентно быстрыми темпами растут объем поддерживаемых в ней информационных ресурсов и количество их пользователей. Интенсивно разрабатываются и имеют значительное количество пользователей многочисленные Web-приложения разнообразного характера, такие как поисковые машины, системы дистанционного обучения, цифровые библиотеки или системы электронного бизнеса. В таких условиях первоначальный комплекс стандартов, положенный в основу Web-технологий, быстро исчерпал свой потенциал и стал сдерживать их дальнейшее развитие. Именно в связи с указанным обстоятельством консорциум W3C предпринял разработку стандарта XML и его инфраструктуры – группы основанных на XML стандартов, дополняющих функциональные возможности XML и образующих вместе с XML платформу для разработки более продвинутых Web-приложений по сравнению с разрабатываемыми на основе существующих технологий HTML.

В докладе рассматриваются состав основных стандартов платформы XML, их взаимосвязи и состояние разработки, средства задания метаданных и возможности описания семантики XML-документов для Web-приложений. Обсуждаются основные направления использования стандартов платформы XML, особенности зарождающейся технологии баз данных XML, оцениваются перспективы новой платформы Web.

Состав стандартов платформы XML

В планах работ W3C по развитию технологий XML предусматривается создание значительного количества стандартов. Однако работа над ними ведется с разной степенью интенсивности. В докладе рассматриваются только стандарты, которые приняты консорциумом либо разрабатываются достаточно активно.

Рассмотрим наиболее важные из этих стандартов. Стандарт пространства имен XML (Namespaces in XML) позволяет определять множество допустимых в XML-документе тегов разметки и их атрибутов. С ними можно ассоциировать некоторую семантику, определяемую по умолчанию либо явно - с помощью средств, выходящих за рамки стандарта. Принципиально важно, что этот стандарт является основой создания других стандартов платформы XML. Стандарт спецификаций схемы (XML Schema) предоставляет более богатые возможности описания структуры XML-документов по сравнению со средствами DTD языка XML. Стандарты языка указателей и языка гиперссылок (XPointer и XLink) позволяют идентифицировать фрагменты XML-документов и определять гиперссылки на XML-документы и их фрагменты, а также некоторые свойства гиперссылок. Стандарт среды определения ресурсов (RDF) дает возможность описывать семантику XML-документов с различной степенью формализованности. Управлять представлением XML-документов на стороне клиента дают возможность стандарты каскадных таблиц стилей (CSS) и расширяемого языка таблиц стилей (XSL). Стандарт XSLT, представляющий собой специальную часть XSL, описывает необходимые трансформации XML-документов. Разрабатываются также стандарт языка запросов ресурсов XML (XML-QL), для чего сформулированы требования к базовой модели данных и языку, и стандарт электронной подписи для XML-документов (XML-Signature). Стандарт объектной модели DOM для XML- и HTML-документов определяет функции интерфейса прикладного программирования для их обработки.

Особое место среди стандартов платформы XML занимает стандарт XHTML 1.0. Он предоставляет один из возможных путей обеспечения преемственности развития среды Web, позволяя использовать на платформе XML информационные ресурсы, накопленные в рамках технологий HTML. Этот стандарт поддерживает средствами XML функциональность текущей версии языка HTML (HTML 4.01).

Платформа XML включает также ряд вспомогательных стандартов. К их числу относятся, например, стандарт XML Information Set (Infoset), который определяет абстрактное описание данных, составляющих XML-документ, стандарт XPath, определяющий понятие фрагмента XML-документа, используемое в языках XPointer и XSLT. В стандарте XML Inclusions (XInclude) представлены модель и синтаксис для описания слияния XML-документов. Стандарт XML Fragment Interchange позволяет описывать контекст фрагментов XML-документа и благодаря этому просматривать и редактировать их вне полного текста документа. Упомянем также стандарт Canonical XML, в котором предлагается метод, позволяющий устанавливать эквивалентность двух XML-документов с различным синтаксическим представлением, что существенно, в частности, для использования электронной подписи.

В докладе показано, какие данные может представлять XML, каким образом на основе синтаксиса этого языка можно определять дополнительные стандарты платформы, как они взаимосвязаны и каково состояние их разработки.

Метаданные XML и семантика XML-документов

Одной из важнейших целей создания платформы XML является привнесение в среду Web метаданных, описывающих свойства поддерживаемых в ней информационных ресурсов, прежде всего, структуры XML-документов и их смыслового содержания (семантики). Благодаря этому обеспечиваются возможности автоматической проверки правильности структуры XML-документов и снижения уровня информационного шума при поиске информационных ресурсов в Web с помощью различных поисковых машин. Явное описание семантики XML-документов необходимо также для разнообразных Web-приложений. В частности, становится возможным создание принципиально новых приложений высокого уровня, основанных на интеграции информационных технологий и обеспечивающих интеграцию неоднородных информационных ресурсов. Это направление активно развивается во многих странах мира и связано с созданием информационных систем нового класса, функционирующих в среде Web и называемых электронными библиотеками.

Для определения метаданных, описывающих структуру XML-документов, в языке XML предусмотрены синтаксические конструкции, называемые определением типов документов (Document Type Definition, DTD). В DTD XML-документы данного типа описываются как иерархические структуры, состоящие из их элементов. Это описание может быть встроено в XML-документ или оно хранится где-либо в Web, и в документе дается на него ссылка. Для более утонченного описания структуры XML-документов могут использоваться средства стандарта XML Schema. По сравнению с DTD, этот стандарт предоставляет для описания XML-документов дополнительные возможности, в частности более развитую систему типов значений атрибутов элементов.

Семантика XML-документа может быть определена явным или неявным образом (по умолчанию). Явное определение может быть формализовано в различной степени. Простейший способ задания семантики – использование пространства имен. В отличие от языка HTML, обеспечивающего форматную разметку текста для определения его представления на экране, XML служит для структурной разметки. При этом в размечаемом XML-документе выделяются содержательные структурные единицы, называемые элементами. Для выделения элементов каждого типа используется свой тег, указывающий имя типа элемента. С каждым таким тегом можно ассоциировать семантику соответствующего элемента XML-документа. Наборы имен элементов с фиксированной явной интерпретацией их семантики (например, на естественном языке) могут представляться в виде пространств имен. Адрес документа, представляющего в Web этот набор имен, может рассматриваться как уникальный идентификатор пространства имен, и на него можно ссылаться в XML-документе, где используются принадлежащие этому пространству имена. Заметим, что такое пространство имен может идентифицироваться адресом условного ресурса Web, который не содержит никакого явного описания смысла принадлежащих ему имен и даже просто не существует. Такой подход используется для определения семантики имен данного пространства по умолчанию.

В последнее время начали создаваться сервисы регистрации и поддержки пространств имен в интересах различных сообществ разработчиков и пользователей. Зарегистрированное пространство имен становится своего рода стандартом.

В качестве такого согласованного пространства имен может использоваться, например, набор элементов метаданных, названный Дублинским ядром (Dublin Core, DC). Его поддержкой и развитием занимается специально учрежденная для этих целей организация - Dublin Core Metadata Initiative (DCMI). Текущая версия спецификаций Дублинского ядра - DC 1.1 - была принята в июле 1999 г. Она включает 15 элементов метаданных. В настоящее время на ее основе ведется разработка официального стандарта ANSI/NISO Z39.85.

Более формализованный способ явного описания семантики XML-документов обеспечивается средствами стандарта W3C - Resource Definition Framework (RDF). Такое описание (RDF-спецификация) аналогично по своим возможностям концептуальной схеме в системах баз данных. По сравнению с рассмотренными выше средствами, оно представляет собой более высокий уровень семантического описания информационных ресурсов, приблизительно эквивалентный ER-модели.

В RDF-спецификации объявляется некоторое множество ресурсов, для каждого из которых определяются пары "свойство-значение". Информационные ресурсы в RDF - это ресурсы Web, идентифицируемые уникальным образом с помощью их URI (Uniform Resource Identifier, обобщение концепции URL в WWW). Они могут также представлять собой коллекции других информационных ресурсов или литералов, называемые контейнерами. Допускаются контейнеры типа мультимножества, последовательности и альтернативы. Значения свойств задаются литерально либо ссылками на другие ресурсы, которые представляются, в свою очередь, их свойствами. Таким образом, свойства могут определять и связи между ресурсами. Описание семантики свойств называется схемой. В стандарте RDF не регламентируется способ задания схемы для RDF-спецификации. Достаточно лишь представить ее как некоторый ресурс в WWW, и использовать URI этого ресурса для ссылки на нее в RDF-спецификации. В документации стандарта RDF рассматривается, например, вариант использования для этих целей упоминавшегося выше Дублинского ядра. Во второй части стандарта, называемой Schema Specification, предлагается значительно более богатый способ задания схемы. Этот способ основан на объектной модели, в которой используются концепции классов, свойств и ограничений, ассоциируемых с классами и свойствами, поддерживается иерархическое отношение "класс-подкласс".

Применения XML

Хотя язык XML вместе с базирующейся на нем платформой стандартов W3C создавался как средство представления информационных ресурсов Web, он тем не менее находит значительно более широкие применения. Назовем несколько других важных направлений, где он используется.

Прежде всего, создано и продолжает создаваться большое количество конкретизаций языка XML для разметки документов в различных предметных областях за счет создания DTD, согласованных различными профессиональными сообществами. Известны, в частности, версии DTD для применения в химии, географии, астрономии, истории, библиографии, издательском деле и др.

В последнее время активно развиваются технологии баз данных XML, в которых XML используется в качестве языка определения данных.

Третье направление применений XML – это системы управления документами, аналогичные тем, которые основаны на стандарте SGML и уже много лет используются на практике. Преимущество использования языка XML в этой сфере состоит в том, что становится возможной интеграции указанных систем в среду Web.

Следует далее упомянуть о применениях XML в стандартах других информационных технологий, где он используется как язык-посредник для обмена информацией между различного рода системами с помощью Web. В качестве примеров можно назвать стандарт XMI (XML Metadata Interchange) консорциума OMG обменного формата метаданных для CASE, стандарт OIM (Open Information Model) консорциума Meta Data Coalition и созданный на его основе стандарт OMG CWMI (Common Warehouse Metadata Interchange), определяющие формат представления метаданных и обмена метаданными для хранилищ данных. Планируется использовать XML для кодирования сообщений, которыми обмениваются клиент и сервер в известном стандарте ISO/IEC RDA/SQL (Remote Database Access for SQL) удаленного доступа к системам SQL баз данных. В разрабатываемом консорциумом Workflow Management Coalition (WfMC) стандарте потоков работ определяются спецификации XML DTD, позволяющие осуществлять обмен сообщениями на языке XML между программными средствами потоков работ для поддержки их интероперабельности.

В связи с успешным продвижением платформы XML в практику, начались работы над новым ранее не планировавшимся компонентом SQL/XML следующей версии стандарта языка SQL - SQL:200n. По замыслу разработчиков, он будет определять возможности совместного использования SQL и XML. В частности, будут определяться представление схем и данных SQL в форме XML-документов и наоборот.

Еще одно важное направление применения стандартов платформы XML – интеграция неоднородных информационных ресурсов.

Базы данных XML

XML-технологии развиваются в значительной мере под влиянием сложившихся технологий баз данных, и базы данных XML-документов становятся одной из важных сфер применения рассматриваемых стандартов.

Основополагающий принцип систем баз данных – многоуровневое представление данных. Этого принципа придерживаются и авторы стандарта XML. Однако в отличие от систем баз данных аспекты физического и логического представления данных в XML-документе сосуществуют и не отделены в независимые спецификации, что не позволяет реализовать здесь важнейшую идею технологий баз данных - независимость данных.

Далее, как и в системах баз данных, в стандартах платформы XML идет речь о модели данных для представления информационных ресурсов XML. Однако в этой модели пока отсутствуют, к сожалению, какие-либо операционные средства.

В среде XML появляется аналог схемы базы данных, роль которой играет DTD или описание XML-документов средствами стандарта XML Schema. Здесь можно вести речь и об аналоге концептуальной схемы базы данных, роль которой играет RDF-спецификация. Для управления XML-документами разрабатываются языки запросов, как и в системах баз данных. В имеющихся проектах таких языков информационные ресурсы рассматриваются как множества независимых XML-документов. Гиперссылки, определяемые стандартами XLink и XPointer, во внимание не принимаются.

В контексте обсуждения баз данных XML важно обратить внимание на разработанный и развиваемый W3C стандарт Document Object Model (DOM) объектной модели для XML-документов, на основе которого могут строиться интерфейсы прикладного программирования для систем баз данных XML.

Заключение

Более подробное обсуждение затронутых в докладе вопросов можно найти в статьях [1-3]. Там же приводятся точные ссылки на документы, определяющие все упомянутые здесь стандарты.

Литература

  1. Когаловский М.Р. XML: возможности и перспективы. Часть 1. Платформа XML и составляющие ее стандарты. Директор информационной службы. Январь 2001, с. 24-28.
  2. Когаловский М.Р. XML: возможности и перспективы. Часть 2. Базы данных XML, семантика XML-документов, перспективы. Директор информационной службы. Февраль 2001, с. 16-20.
  3. Когаловский М.Р. XML: сферы применения. Директор информационной службы. Апрель 2001.

Поиск:
Последнее обновление страницы было произведено: 2004-01-22

Все предложения и пожелания по содержанию и структуре портала направляйте по адресу: rdlp@iis.ru