Российские Электронные Библиотеки

Введение к первой версии глоссария

Интенсивное развитие службы World Wide Web в Internet (называемой также Web, WWW и "Всемирной паутиной") в короткие сроки превратило ее в беспрецедентно крупную по масштабам, открытую гипермедийную систему, обеспечивающую глобальный доступ без ограничений на период времени, прозрачные для пользователя распределение и неоднородность ресурсов, демократический характер поддерживаемого информационного пространства, который не требует каких-либо административных санкций для получения права включения в него со статусом как поставщика, так и потребителя информационных ресурсов.

Благодаря своим функциональным возможностям среда Web стала полигоном для разработки целого ряда новых информационных технологий, имеющих революционные социально-экономические последствия, обеспечила платформу для интеграции различных подходов к разработке информационных систем. На платформе Web осуществляются реализации новых важных и быстро развивающихся классов приложений, таких как электронные библиотеки, системы электронного бизнеса, дистанционного обучения и др.

Вместе с тем, за несколько лет интенсивного развития потенциал качественного совершенствования существующих Web-технологий заметно исчерпался. Сдерживающее влияние на дальнейшую эволюцию приложений Web-технологий стали оказывать слабые стороны языка HTML - основного выразительного и структурообразующего средства гипермедийных информационных ресурсов Web, а также среды поддержки этого языка в Web. Эти слабые стороны заключаются, прежде всего, в закрытом характере языка HTML, в невозможности расширения его функциональности самим пользователем, а также в отсутствии поддержки метаданных, которые могли бы описывать структурные и семантические свойства документов, как это делается, например, в базах данных, и позволять тем самым верифицировать их целостность, обеспечивать сравнительно невысокий уровень информационного шума при обработке поисковых запросов и возможности интеграции информационных ресурсов.

Магистральное направление развития Web-технологий в последнее время связано с новым расширяемым языком разметки XML (Extensible Markup Language). Стандарт этого языка [1] был принят консорциумом W3C в феврале 1998 г.

Язык XML представляет собой удобное для реализации подмножество стандартизованного ISO в 1986 г. языка SGML [2]. В отличие от своего предшественника - языка HTML, XML является "открытым" языком. В нем не фиксируется множество тегов, используемых для разметки документов. Создатель XML-документа или набора документов может сам конструировать необходимые ему теги, определяя их с помощью метасредств языка XML - набора синтаксических конструкций, называемых декларациями разметки (Markup Declaration).

Язык XML позволяет описывать логическую структуру документов в терминах составляющих их элементов. Такие описания - Document Type Definition (DTD) могут поддерживаться в глобальной среде независимо от экземпляров XML-документов и могут унифицироваться в интересах различных сообществ пользователей. Благодаря этому можно создавать новые языки разметки, адекватные потребностям различных сфер применения. Широко известны основанные на таком принципе химический язык разметки CML (Chemical Markup Language) [3], географический язык разметки консорциума Open GIS [4], язык разметки для астрономических инструментов Astronomical Instrument Markup Language (AIML) [5], язык разметки для коллекций исторических документов "American Memory" в Библиотеке конгресса США [6]. Консорциумом W3C разрабатывается также стандарт языка разметки математических текстов MathML (Mathematical Markup Language) [7].

Стандарт XML уже получил широкое признание. Можно ожидать, что в близкое время он станет настолько же широко применяться для представления информационных ресурсов Web, как и его предшественник - язык HTML.

В этой связи возникает проблема сохранения в среде XML возможностей доступа к тем огромным информационным ресурсам, которые накоплены в среде HTML. Важным инструментом для решения этой задачи является разработанный консорциумом W3C стандарт XHTML 1.0 (The Extensible Hypertext Markup Language) [8], определяющий правила конверсии HTML-документов в среду XML.

Наряду с главным предназначением языка XML как средства представления информационных ресурсов Web, он оказался полезным как язык-посредник для обмена информацией между компонентами распределенных систем, функционирующих в среде Web. Это обстоятельство используется, в частности, во многих стандартах метаданных (например, стандарты XMI и CWM консорциума OMG, стандарт OIM консорциума Meta Data Coalition и др.).

Вместе с тем, несмотря на все его достоинства, язык XML не может обеспечить решение всех проблем, возникающих в связи с намерениями его широкого использования. Поэтому консорциумом W3C активно ведутся работы по созданию разветвленной инфраструктуры среды XML, дополняющей функциональность языка в такой мере, что вполне правомерно рассматривать весь этот комплекс средств как "платформу XML". Мы рассмотрим здесь лишь компоненты этой инфраструктуры, которые составляют, на наш взгляд, ее ядро.

Прежде всего, необходимо упомянуть средства описания структуры и семантики XML-документов и их отдельных компонентов.

Простейший подход состоит здесь в использовании концепции пространства имен XML, которая позволяет ассоциировать нужную семантику с элементами и атрибутами элементов XML-документов. W3C разработан соответствующий стандарт "Namespaces in XML" [9].

В настоящее время W3C завершает разработку стандарта языка определения схемы для XML-документов - XML Schema Definition Language (XML Schema) [10-12]. Этот язык предоставляет возможности описания структуры XML-документов и ограничений, которым должно удовлетворять их содержание. Новые возможности XML Schema, по сравнению с DTD, заключаются во введении более развитой совокупности типов значений атрибутов элементов XML-документов, в допущении наряду с закрытой моделью спецификаций DTD также и открытой модели, при которой пользователь может дополнять повторно используемую схему новыми спецификациями.

К рассматриваемой категории относится также стандарт W3C средств описания семантики информационных ресурсов в среде Web, независимых от конкретной предметной области, ­Resource Definition Framework (RDF) [13,14]. В нем определена семантическая модель и синтаксис основанного на XML языка для представления семантики информационных ресурсов, называемого RDF-спецификацией. Описание семантики информационных ресурсов в терминах модели RDF фактически эквивалентно ER-диаграмме и декларирует множество ресурсов, с каждым из которых ассоциируются пары "свойство - значение". Для описания семантики используемых в RDF-спецификации свойств служит так называемая RDF-схема. Никаких ограничений на способ представления RDF-схемы не налагается. Можно, например, использовать для этих целей пространство имен XML или известное Дублинское ядро. Другой, семантически более богатый способ задания RDF-схемы предлагается W3C во второй части стандарта RDF [14].

Необходимость в другой группе стандартов, входящих в инфраструктуру языка XML, возникает в связи с отсутствием в этом языке средств определения связей между компонентами документов иных, чем иерархические связи их элементов. Отсутствуют также возможности поддержки распределенных макроструктур в среде Web, состоящих из документов и/или их компонентов. Поэтому только лишь средствами XML не удается, в частности, поддерживать гипертекстовые технологии, играющие важнейшую роль в сформировавшейся в настоящее время среде Web, основанной на языке HTML.

Указанные проблемы позволяют решить стандарты, разработка которых завершается консорциумом W3C - язык идентификаторов фрагментов документов (XML Pointer Language, XPointer) [15] и язык связей XML (XML Linking Language, XLink) [16]. Функциональность языков, определяемых этими стандартами, полностью поддерживает аналогичные возможности языка HTML и существенным образом обогащает их.

Нужно заметить, что стандарт XPointer базируется на функциональных возможностях для идентификации фрагментов XML-документов, определяемых другим стандартом W3C - языком путей XML (XML Path Language, XPath) [17]. В XPath идентификация фрагментов документов осуществляется в терминах логической структуры документа, отличной от модели, которая принята в языке XML. Логическая структура документа в XML описывается как дерево составляющих его элементов. В языке XPath используется более детальная модель - дерево узлов, в качестве которых выступают декларации элементов, их атрибутов, комментарии, инструкции по обработке документа и т.д. В модели XPath используются предопределенные отношения между узлами, называемые осями, а также ряд других средств, в терминах которых формируются выражения для идентификации фрагментов документов, содержащие предикаты.

Третья группа стандартов, которую мы хотели бы здесь упомянуть, связана с форматированием XML-документов.

Как известно, различаются две категории языков разметки - языки разметки, определяющей представление документов, и языки разметки, определяющей их содержание.

В отличие от языка HTML, относящегося к первой названной категории, XML обеспечивает разметку, определяющую содержание документов. Предполагается при этом, что для определения представления XML-документов будут использоваться другие языки.

Первый из них - язык каскадных таблиц стилей (Cascading Style Sheets, CSS) - предназначен для управления процессом отображения XML и HTML-документов Web-браузерами. Действующая в настоящее время версия этого стандарта CSS2 (Cascading Style Sheets, level 2) [18] была принята W3C в 1998 г.

Специально ориентированный на XML-документы и, в отличие от CSS2, основанный на синтаксисе XML стандарт расширяемого языка таблиц стилей (Extensible Stylesheet Language, XSL) разработан пока не полностью, и он призван решать более широкую задачу. Первая часть этого стандарта, аналогично CSS, описывает правила форматирования (таблицы стилей) XML-документов, управляющие браузером, который осуществляет отображение документов для пользователя. Вторая часть этого стандарта - ­трансформации XML (XSL Transformations, XSLT) - содержит спецификации для описания трансформаций одного документа в другой. Средствами XSL может быть, например, описано преобразование XML-документа в документ, представленный средствами HTML и CSS. В настоящее время в стадии обсуждения находится проект стандарта XSL версии 1.0 [19]. Вторая его часть - XSLT Version 1.0 [20] была принята W3C в ноябре 1999 г.

В заключение этого краткого обзора важной группы стандартов платформы XML необходимо отметить, что они, вполне естественно, вводят новый довольно широкий пласт терминологии, русскоязычное представление которой пока еще не сформировалось и не устоялось в отечественной литературе. Можно лишь посочувствовать столкнувшимся с большими трудностями специалистам, готовившим русские переводы недавно выпущенных отечественными издательствами монографий по языку XML [21,22].

Предлагаемая здесь работа представляет собой нашу попытку систематизации указанного пласта терминологии. Эта версия глоссария охватывает терминологию стандартов W3C XML, Namespaces XML, XPointer, XLink и XPath. Предполагается впоследствии продолжить работу с тем, чтобы включить в него термины других рассмотренных выше стандартов, стандарта объектной модели документов (Document Object Model, DOM) [23], а также по их появления стандартов новых моделей данных и языков запросов для среды XML.

Автор выражает глубокую благодарность старшему научному сотруднику ИПР РАН Е.Н. Ефимовой за помощь в подготовке исходных материалов для этой работы и полезные обсуждения ряда возникавших вопросов.

М.Р. Когаловский,
Зав. лабораторией систем баз данных,
Институт проблем рынка РАН

20.06.2000

Литература

  1. Extensible Markup Language (XML) 1.0. W3C Recommendation 10-February-1998.
        http://www.w3.org/TR/1998/REC-xml-19980210

  2. ISO 8879:1986. Information Processing - Text and Office Systems - Standard Generalized Markup Language (SGML), 1986.

  3. Design Consideration for CML.
        http://www.xml-cml.org/design.html

  4. OpenGIS Catalog Interface Implementation Specification. Revision 1.1. OpenGIS Project Document 99-049.
        Open GIS Consortium. May 5, 1999.

  5. Cover R. Astronomical Instrument Markup Language (AIML).
        http://www.oasis-open.org/cover/aiml.html.

  6. American Memory DTD for Historical Documents.
        http://lcweb2.loc.gov/ammem/amdtd.html.

  7. Mathematical Markup Language (MathML). Version 2.0. W3C Working Draft, 28 March 2000.
        http://www.w3.org/TR/2000/WD-MathML2-20000328.

  8. XHTML 1.0: The Extensible Hypertext Markup Language. Reformulation of HTML 4 in XML 1.0.
    W3C Recomendation 26 January 000.
        http://www.w3.org/TR/REC-xtml1-20000126.

  9. Namespaces in XML. W3C Recomendation, 14 January 1999.
        http://www.w3.org/TR/1999/REC-xml-names-19990114.

  10. XML Schema Part 0: Primer. W3C Working Draft 7, April 2000.
        http://www.w3.org/TR/2000/WD-xmlschema-0-20000407.

  11. XML Schema Part 1: Structures. W3C Working Draft 7, April 2000.
        http://www.w3.org/TR/2000/WD-xmlschema-1-20000407.

  12. XML Schema Part 2: Datatypes. W3C Working Draft 7, April 2000.
        http://www.w3.org/TR/2000/WD-xmlschema-2-20000407.

  13. Resource Description Framework (RDF). Model and Syntax Specification. W3C Recommendation. 22 February 1999.
        http://www.w3.org/TR/REC-rdf-syntax/

  14. Resource Description Framework (RDF). Schema Specification 1.0.
    W3C Candidate Recommendation 27 March 2000.
        http://www.w3.org/TR/2000/CR-rdf-schema-20000327.

  15. XML Pointer Language (XPointer). Version 1.0.
    W3C Candidate recommendation, 7 June 2000.
        http://www.w3.org/TR/2000/CR-xptr-20000607.

  16. XML Linking Language (XLink). WWWC Working Draft, 21 February 2000.
        http://www.w3.org/2000/WD-xlink-20000221.

  17. XML Path Language (XPath). Version 1.0.
    W3C Recomendation, 16 November 1999.
        http://www.w3.org/TR/1999/REC-xpath-19991116.

  18. Cascade Style Sheet, level 2.
    CSS2 Specification. W3C Recomendation 12-May-1998.
        http://www.w3.org/TR/1998/REC-CSS2-19980512.

  19. Extensible Stylesheet Language (XSL). Version 1.0.
    W3C Working Draft. 27 March 2000.
        http://www.w3.org/TR/2000/WD-xsl-20000327.

  20. XSL Transformations (XSLT). Version 1.0.
    W3C Recommendation, 16 November 1999.
        http://www.w3.org/TR/1999/REC-xslt-19991116.

  21. Эдди С. XML: Справочник /Пер. с англ. - СПб: Питер, 1999.
         - 480 с.

  22. Питтс Н. XML за рекордное время /Пер. с англ. - М.: Мир, 2000.
         - 444 с.

  23. Document Object Model (DOM) Level 1 Specification.
    Version 1.0. W3C Recommendation. October 1, 1998.
    REC-DOM-Level-1-19981001.
        http://www.w3.org/TR/REC-DOM-Level-1.

 

 


Поиск:
Последнее обновление страницы было произведено: 2003-12-16

Все предложения и пожелания по содержанию и структуре портала направляйте по адресу: rdlp@iis.ru