РОССИЙСКИЙ НАУЧНЫЙ ЭЛЕКТРОННЫЙ ЖУРНАЛ Электронные библиотеки
2011 - Том 14 - Выпуск 2

Базы знаний для описания информационных ресурсов в молекулярной спектроскопии 2. Модель данных в количественной спектроскопии

Лаврентьев Н.А., Привезенцев А.И., Фазлиев А.З.

 

Аннотация

Представлена модель данных предметной области «Количественная спектроскопия», необходимая для построения информационной системы. В качестве языка описания использован XML. Основное внимание уделено характеристике сущностей и отношений, используемых в двух частях этой предметной области – «Вещество» и «Молекулярная спектроскопия». При спецификации семантики данных рассмотрены только конкретные свойства (Datatype) и ограничения на области их значений.

Введение

Построение базы знаний предметной области, одной из форм логической теории, влечет закономерный вопрос: что понимается тем или иным исследователем под предметной областью, которую он называет тем или иным термином? Часто исследователи, называя одним термином предметную область, имеют в виду во многом не сходные концептуализации и используют разные логики при определении базовых понятий. О такого рода представлениях говорят как об описательных информационных моделях предметной области. Построение формальной информационной модели предметной области проводится в рамках только оговоренных исследователем языков спецификации. В данной статье таким языком является XML.

В работе выделены три предметные области: «Вещество», «Количественная спектроскопия» и «Источник информации». Первые две тесно связаны, поскольку в количественной спектроскопии изучаются спектральные свойства вещества. Именно эти две области рассматриваются в этой работе. Спектральные свойства тесно связаны с разными процессами взаимодействия вещества с излучением, столкновениями атомов и молекул и т. д.

Описательных моделей предметной области «Вещество» достаточно много. Не останавливаясь на их обзоре, мы рассмотрим только часть этой предметной области, связанную с моделью данных. В предлагаемой модели формализованы только изолированные атомы и молекулы и оставлены без описания вещества в разных фазовых состояниях. Программное обеспечение для описания вещества в таком приближении было создано при выполнении проекта ATMOS [1]. Оно использовалось в информационных системах по молекулярной спектроскопии, созданных нами в ряде грантов [2 – 11]. Представляемая ниже модель данных по атомам и молекулам учитывает наш опыт работы в проекте VAMDC [12].

Предметная область «Количественная молекулярная спектроскопия» ориентирована на описание спектральных свойств молекул, в первую очередь тех свойств, которые характерные для процессов испускания и поглощения излучения в атмосферах планет. В этой предметной области факты, представляемые в форме данных, собраны в банках данных HITRAN [13], GEISA [14], JPL [15] и ряде других. Отличительная особенность нашей модели [16] состоит в том, что она основана на выделении первичных опубликованных источников данных, содержащих решение прямых и обратных задач, которые характеризуют значения физических величин, относящиеся к процессам испускания и поглощения. Число задач, решаемых в молекулярной спектроскопии, достаточно велико. Их можно разбивать на группы. Например, группа задач для определения параметров гамильтониана молекулы. В нее входит значительное число задач, так как исследователи используют разные физические модели молекулы, следовательно, и разные параметры. Поскольку мы ограничились свойствами, относящимися к процессам испускания и поглощения, нас интересует группа задач, которые связаны с измерениями или вычислениями параметров спектральных линий, необходимых для описания этих процессов. Эти задачи образуют структуру, состоящую из двух цепей [2]. В статье описана схема данных, связанная с решениями этих задач.

Описание спектральных данных во многих работах [13 – 15, 17 – 19] долгое время проводилось в рамках описательной модели количественной спектроскопии. В 1090-х годах появились реализации первых формальных моделей, относящихся на первой стадии к отдельным молекулам [20, 21] и позже – ко всем атмосферным молекулам [22]. Основное назначение как описательных, так и формальных информационных моделей состояло в автоматической организации хранения и представления данных. Вопросы автоматической проверки достоверности данных и отнесения к публикациям, из которых они извлечены, не рассматривались. Учитывая длительный период, в течение которого данные не актуализировались (от двух до 15 лет), можно утверждать, что в них накапливалось несколько процентов данных, вышедших из употребления (см. в [23] анализ части массивов [13, 14] для изотопологов молекулы воды). В 2000-х годах появились стандарты W3C (XML, RDF, OWL и др.), создавшие техническую основу для создания формальных моделей данных разного уровня детализации. В 2005 – 2007 годах при работе со спектральными данными IVOA (Международный альянс виртуальных обсерваторий) создал свой внутренний стандарт «Модель спектральных данных» [24], некоторые части которого можно отнести к формальной информационной модели количественной спектроскопии. Наконец, в 2009 году начался европейский проект VAMDC (Виртуальный центр атомных и молекулярных данных) [25]. Целью проекта является создание распределенной информационной системы с центральным узлом, через который осуществляется работа со всеми распределенными информационными ресурсами участников проекта. Технологическими задачами проекта стали создание XML-схемы [26] для описания атомарных и молекулярных данных, протокола доступа к данным [27], языка запросов к распределенным информационным ресурсам [28] и словаря [29]. Созданная схема [26] решила ряд вопросов, оставшихся не решенными в предшествующих моделях, в частности, упомянутый выше вопрос отнесения данных к публикации в явном виде. Вопросами достоверности данных в проекте занимались авторы статьи.

Описанные выше формальные информационные модели ориентированы на задачи тех предметных областей, в которых используются соответствующие модели данных. Схему [26] можно применять для систематизации данных в количественной спектроскопии, но ее применение не всегда эффективно. Связано это с тем обстоятельством, что она ориентирована на поиск и передачу данных. В ней не затронуты такие важные вопросы, как достоверность данных (достоверность связана с правилами, и они не могут быть реализованы в схеме), согласование данных из разных первичных источников и т. д. Подобные задачи возникли при выполнении проекта IUPAC [30], ориентированного на систематизацию экспериментальных данных о параметрах спектральных линий молекулы воды. Систематизации подверглись результаты опубликованных работ, отнесенные к трем группам задач спектроскопии: определения параметров состояния изолированной молекулы, параметров перехода изолированной молекулы и параметров спектральной линии молекулы в газовой фазе при определенных термодинамических условиях. При такой систематизации значимыми становятся структуры данных, связанные с результатами решения задач спектроскопии. Отметим, что интенсионал решений выбранных задач значительно пересекается с интенсионалом схемы [26], но не поглощается им. Систематизация необходима для создания экспертных массивов данных, которые и являются основными ресурсами, потребляемыми в смежных со спектроскопией предметных областях, на передачу которых ориентирована схема [26].

Данная статья посвящена описанию формальной и описательной информационной моделей количественной спектроскопии, ориентированных на создание автоматической компоненты информационной системы по молекулярной спектроскопии, создаваемой для построения экспертных массивов данных по спектроскопии. Для этого была создана автоматически пополняемая база знаний. При ее проектировании необходимо было выделить информационные объекты, из которых она будет создаваться. Эти объекты и их свойства связаны с предметной областью «Источник информации». Детальное описание этой предметной области дано в третьей части статьи.

1. Информационная модель предметной области с процедурными знаниями в виде цепей её прямых и обратных задач

В естественных науках значительная часть задач связана с исследованием объектов, обладающих состояниями, которые могут изменяться в зависимости от взаимодействия объектов между собой. В качестве примеров можно привести предметные области, рассматривающие физические и химические объекты микромира в рамках квантового подхода. Изменение состояния системы, обусловленное разными физическими или химическими процессами, например, такими, как поглощение или испускание излучения, называют переходом из одного состояния системы в другое. В данной статье рассмотрена задача построения информационной модели подобной предметной области, связанной с классом предметных областей, в которых объекты могут обладать сотнями тысяч состояний, и между которыми возможны сотни миллионов переходов. Значительное количество значений сущностей, связанных с состояниями объектов предметной области и переходами между ними, делает невозможным обработку такого количества данных и связанной с ними информации вне рамок автоматизированных информационно-вычислительных систем (ИВС).

Построение ИВС требует формирования информационной модели для предметных областей этого класса. В общем случае описание предметной области должно содержать концепты, отношения, ограничения, правила и операции, раскрывающие семантику данных [31, 32] и относящиеся как к декларативной, так и к процедурной частям знаний предметной области. При построении информационной модели нами рассмотрена концептуализация предметных областей, детально описывающая концепты, отношения и ограничения, относящиеся к декларативной части предметной области. Концепты, отношения и ограничения, характеризующие процедурную часть, описаны с низкой степенью детализации. Де факто такая модель предметной области широко используется, например, в ряде разделов физики. Один из таких разделов (молекулярная спектроскопия диоксида углерода) подробно описан ниже.

Одной из задач, решение которой содержится в данной статье, является задача построения информационной модели молекулярной спектроскопии. Она позволяет типизировать существующие информационные объекты, относящиеся к данной предметной области, таким образом, что с помощью модели можно описывать ту часть задач молекулярной спектроскопии, решения которых представляют интерес для предметных областей, прикладных по отношению к спектроскопии.

Упрощение модели процедурного знания обусловлено допущением, связанным со следующим фактом. На практике, например, при информационном описании молекулярной спектроскопии востребованной является преимущественно количественная информация о состояниях молекул. Процедурные знания о молекулярной спектроскопии представляют интерес для пользователей в рамках качественной модели, которая характеризует процедурные знания как процесс решения задач предметной области.

Естественной является постановка такого вопроса: являются ли задачи предметной области объектами, отношения между которыми обладают свойствами рефлексивности, транзитивности и антисимметрии.

Если ответ на этот вопрос положительный, то в такой модели предметной области важной является иерархия предметных задач и ограничения, накладываемые на неё. Детализация процедурного знания необходима для узкого круга спектроскопистов-теоретиков, определяющих среди прочего ограничения на количественные характеристики спектров молекул, важные при проверке достоверности получаемых количественных значений. Еще одним формальным ограничением, обусловленным необходимостью представления знаний в компьютерах, является выбор модели сущностей, зависящих от времени (оккурентов), в которой они рассматриваются как формальные задачи, описываемые IPO (Input-Processing-Output) – моделью [33]. Степень детализации входных (Input) и выходных (Output) данных, а также методов решения (Processing) задач при построении модели процедурных знаний может быть разная. В статье ключевой компонентой IPO-модели задачи являются выходные данные (решения задачи). В рамках выбранной модели описание входных данных и метода решения задач относятся к свойствам решения задачи, т. е. к метаданным, связанным с ней.

Как правило, в задачах, относящихся к естественным наукам, предметные данные, связанные с экземпляром решения задачи, описываются моделью структурированных данных. Описание модели структурированных данных связано с выделением интенсионала, неизменной на некотором промежутке времени компоненты данных и меняющейся на этом промежутке времени части данных, называемой экстенсионалом.

Выделим такие задачи предметной области, решения которых являются описаниями состояний исследуемых объектов и переходов между состояниями объекта. Структура решений таких задач в количественной спектроскопии и ограничения на нее являются предметом исследования в данной статье. Детальное описание приведено для молекулы диоксида углерода [10]. Описание молекулы воды проведено в диссертации А.И. Привезенцева [34].

2. Информационная модель вещества

Систематизация атомов, изотопов и ионов в соответствии с их физическими и химическими свойствами в основных чертах была закончена в первой половине 20 века. Стройность созданной системы нарушает только классификация атомных состояний – она не завершена до сих пор. Связано это с тем, что при описании свойств состояний атомов с большими порядковыми числами используются разные физические приближения и, как следствие, разные математические модели. Разнообразие моделей приводит к выбору разных свойств для описания состояний. Эти свойства в теории называют квантовыми числами. При использовании приближенных моделей для описания состояний наряду с квантовыми числами (например, полным угловым моментом, четностью) используют метки, которые не всегда удается преобразовывать при переходе от одной модели к другой, из одного представления в другое адекватно.

Систематизация молекул, в частности, сложных органических молекул, также как и атомов, не закончена. Число известных молекул составляет несколько миллионов. Ниже мы ограничились рассмотрением группы молекул, содержащих небольшое число атомов. Свойства подобных веществ представляют интерес при изучении планетарных атмосфер (в настоящее время и экзопланет). Наиболее изученных планетарных веществ около сотни, но вместе с изотопологами их несколько сотен. Для атмосферных молекул, характерных для Земли, принята классификация [35], основанная на группах симметрии, классах и спектральных моделях молекул. Пример такой классификации приведен в Приложении.

В молекулах состояния описываются с учетом электронов (электронная часть) и движений атомов, входящих в молекулу. В частности, к таким движениям могут относиться колебательно-вращательные движения. В моделях молекул, допускающих такое представление, говорят о колебательных и колебательно-вращательных состояниях. При описании состояний молекулы выбор математической модели молекулы во многом определяет набор меток, которые могут включать в себя точные квантовые числа. В силу использования разных приближений в литературе используются разные наборы меток для одной и той же молекулы.

Если атомы, ионы, изотопы, молекулы и изотопологи являются понятиями, связанными с физическими объектами, то понятие состояния связано с описанием свойств, присущих этим объектам. Введение квантовых состояний в предметную область «Вещество» обусловлено намерением использовать это свойство для выделения атомов и молекул в определенном состоянии в отдельный информационный объект. На практике такое выделение используется в атмосферной химии, например, реакции некоторых веществ с атомарным кислородом в разных состояниях приводит к разным скоростям и даже продуктам реакции. Добавим к этому, что в атмосферной спектроскопии изучение свойств большинства молекул связано только с основным электронным состоянием.

2.1. Атомы

Основной целью работы является систематизация информационных ресурсов количественной молекулярной спектроскопии. В такой классификации роль атомов, изотопов и ионов является вспомогательной. При описании они нужны как некоторые элементы, из которых строится структура молекулы. Атомы в нашем подходе обладают двумя наборами атрибутов (атрибут – свойство, однократно применяемое к субъекту (свойство кардинальности 1)). К первому набору атрибутов, описываюших атомарные объекты, относятся hasRussianName (string), hasEnglishName (string), hasAtomicNumber (positiveInteger), hasAtomicWeight (float), hasSymbol (string), hasCharge (positiveInteger), hasIsotopeWeight (float). Второй набор атрибутов описывает свойства модели атомарных объектов, необходимые при работе с ними в информационной системе. Эти свойства включают комментарий (hasCommentary (string)), уникальный идентификатор ID и свойство, определяющее зарегистрированную в ИС персону, создавшую тот или иной информационный объект (изотоп, ион или молекула). Последнее обусловлено тем обстоятельством, что ИС содержит фиксированное число атомов, молекул, ионов, изотопов, изотопологов и квантовых состояний. Только для элементов таблицы Менделеева это число соответствует полному набору соответствующих информационных объектов. Следовательно, если пользователю необходимы вещества, которых нет в публичной части информационно й системы, то он может создать соответствующий объект и описать их.

2.2. Молекулы

Объект «Молекула» обладает существенно большим набором свойств по сравнению с атомарными объектами. Свойствами присущими только молекулам являются hasClass (string), hasModel (string), hasSymmetry (string), hasInChI (string) и hasInChIkey (string). Первые три свойства характеризуют молекулу в соответствии с математической моделью, применяемой для ее описания. В таблицах 2.1 – 2.3 [35] приведены значения этих свойств, использованные при создании ИС.

Таблица 2.1. Перечень спектроскопических моделей атмосферных молекул
Идентификатор модели Спектроскопические модели Пример молекулы
SM1 Асимметричный волчок H2O
SM2 Двухатомные и линейные молекулы с целым J CO2
SM3 Двухатомные и линейные молекулы с целым J и полуцелым F HBr
SM4 Сферический волчок CH4
SM5 Симметричный волчок NH3
SM6 Триплетные сигма основные электронные состояния O2
SM7 Дублетные П основные состояния (полуцелое J и целое F) NO
SM8 Дублетные П основные состояния (полуцелое J и полуцелое F)  

Таблица 2.2. Группы симметрии атмосферных молекул
Идентификатор группы Группа симметрии Пример молекулы
C2v Cnv – contains the identity, an n-fold axis of rotation, and n vertical mirror planes σv SO2
C2   H2O2
Cs Операции Е и отражение CS - contains the identity E and a plane of reflection σ HNO3
D∞h Линейные молекулы с центром симметрии O2
C3v Cnv – contains the identity, an n-fold axis of rotation, and n vertical mirror planes σv PH3
Oh Октаэдрическая группа Oh – the group of the regular octahedron SF6
D2h Dnh – contains the same symmetry elements as Dn with the addition of a horizontal mirror plane C2H4
C∞v Линейные молекулы без центра симметрии OH
D3d Dnd – contains the same symmetry elements as Dn with the addition of n dihedral mirror planes C2H6
Td Тетраэдрическая группа Td – contains all the symmetry elements of a regular tetrahedron, including the identity, 4 C3 axes, 3 C2 axes, 6 dihedral mirror planes, and 3 S4 axes e.g. CH4 CH4

Таблица 2.3. Классы атмосферных молекул
Идентификатор модели Класс молекулы Пример молекулы
CM1 двухатомные молекулы NO+
CM2 двухатомные молекулы с разными электронными уровнями O2
CM3 двухатомные молекулы с П-дублетом электронного состояния OH
CM4 линейные трехатомные молекулы OCS
CM5 линейные трехатомные молекулы с большим Ферми-резонансом [36] CO2
CM6 нелинейные трехатомные молекулы H2O
CM7 линейные четырехатомные молекулы [37] C2H2
CM8 пирамидальные четырехатомные молекулы NH3
CM9 нелинейные четырехатомные молекулы H2CO
CM10 пятиатомные и многоатомные молекулы [38] SF6

Следующие два свойства характеризуют структуру молекулы. Значения этих свойств определяются стандартами международной организации аналитической и прикладной химии (IUPAC) (http://www.iupac.org/inchi/). Международный химический идентификатор (InChI) позволяет представлять структуру молекулы с желаемым уровнем детализации. Он предназначен для обеспечения интероперабельности поиска и обмена информацией в больших базах данных. В силу того, что уровень детализации может быть разным, введено понятие ключа InChI. IUPAC поддерживает программное обеспечение, позволяющее генерировать уникальный ключ для каждого значения InChI. Например, в проекте VAMDC основной изотополог молекулы воды описывается как InChI=1S/H2O/h1H2 и InChIkey= XLYOFNOQVPJJNP-UHFFFAOYSA-N.

Наконец, свойство hasStructure описывает элементный состав молекулы в терминах, используемых при конкретной реализации схем данных. Значение этого свойства имеет структуру:

x1,y1, z1 | x2,y2, z2 |…..| xn,yn, zn

где xi – код интенсионала (атом, изотоп, ион и молекула ), yi – код экстенсионала (конкретный атом, изотоп и т. д.), zi – число вхождений конкретного объекта в молекулу, n – число разных кодов экстенсионала.

На рис. 2.1. показана схема данных, соответствующая описанной модели предметной области.

Рис. 2.1. Схема базы данных, характеризующая предметную область "Вещество"

3. Информационная модель предметной области «Количественная спектроскопия»

Предметом изучения молекулярной спектроскопии являются спектры молекул. Исследования свойств молекул проводятся как экспериментально, так и теоретически. Теоретические работы по спектроскопии явным образом основаны на логиках (математической логике и модальной логике) и представлены на естественном языке. Формализация теоретических работ в той части, которая связана с формальными логиками, является при создании ИС относительно несложной задачей, но для решения задачи автоматической обработки информационных ресурсов (систематизации, интеграции и семантического поиска) необходимо дополнительно упрощать существующую в литературе описательную информационную модель спектроскопии. В настоящее время отсутствуют машины логического вывода, основанные на указанных выше логиках. В силу того факта, что созданные в последнее десятилетие машины логического вывода основаны на дескриптивных логиках, построение логической теории информационных ресурсов по количественной спектроскопии будет проведено в рамках языка OWL DL.

При построении формальной информационной модели количественной спектроскопии используется два языка описания: XML и OWL DL. Язык XML применяется для описания модели данных предметной области. Язык OWL DL применяется для описания свойств данных предметной области.

Молекулярная спектроскопия, являясь частью физики, имеет все ее характерные особенности, связанные с необходимостью уточнения условий идентичности, позволяющих выделять объекты этой предметной области. Оставляя в стороне теорию измерений, позволяющую определять эти условия, отметим тот факт, что задачи, связанные с обработкой результатов измерений, принято называть обратными. Ключевыми экспериментально определимыми характеристиками молекул в спектроскопии являются спектральные функции. Обратные задачи молекулярной спектроскопии связаны с обработкой данных измерений спектральных функций, что позволяет в дальнейшем при машинной обработке классифицировать их выходные данные как экспериментальные.

Прямые задачи молекулярной спектроскопии связаны с расчетами из первых принципов фундаментальных характеристик молекул, таких, как уровни энергии молекул, частоты перехода, коэффициенты Эйнштейна и т. д. В цепи задач молекулярной спектроскопии существуют связи между прямыми и обратными задачами.

Входными данными для обратных задач являются либо непосредственно результаты измерений, либо выходные данные как прямых, так и обратных задач. Результатами измерений являются спектральные функции, значения которых используются для нахождения параметров спектральных линий.

Прямые задачи в качестве входных данных используют универсальные константы либо иные величины (потенциальные функции, мультипольные моменты и т. д.). Последовательность решения прямых задач начинается с задачи нахождения уровней энергии молекулы и заканчивается задачей вычисления спектральных функций. Последовательность решения обратных задач начинается с задачи определения параметров спектральных линий из экспериментальных измерений и заканчивается задачей нахождения уровней энергии молекулы. На практике расчетные данные помещаются в базы данных и используются для решения задач атмосферной радиации, оптики атмосферы, астрономии и т. д.

При решении задач обоих типов проводятся вычисления одних и тех же физических величин. Их сравнение позволяет делать выводы о корректности расчетов и идентифицировать обнаруженные в эксперименте переходы, в соответствии с решениями прямых задач.

Среди задач молекулярной спектроскопии нами выделены задачи трех типов T, ET и E. Задачи типа T – это теоретико-расчётные задачи. Задачи типа ET – это смешанные задачи, где присутствуют данные из физического эксперимента и проводятся расчёты. Задачи типа E – это экспериментальные задачи, где присутствуют данные, полученные из физического эксперимента. Выделение этих задач обусловлено тем фактом, что концепты, входящие в их решения, присутствуют в подавляющем большинстве высказываний опубликованных в статьях, монографиях и справочников по количественной спектроскопии.

3.1. Описательная информационная модель количественной спектроскопии

3.1.1. Прямые задачи

К классам прямых задач молекулярной спектроскопии, используемых нами для проектирования информационной системы, относятся следующие классы [2]:

1. Задача определения физических характеристик изолированной молекулы (Т1).

Результатом решения задачи являются вычисленные уровни энергии молекулы, волновые функции, которым соответствуют стационарные состояния молекулы, и интегралы движения (или заменяющие их величины), определяющие квантовые числа для уровней энергии. Входные данные имеют разную структуру, зависящую от выбора метода решения задачи.

2. Задача определения параметров спектральной линии изолированной молекулы (Т2).

Результатом решения являются частоты переходов (вакуумные волновые числа) и коэффициенты Эйнштейна. Входными данными для этой задачи являются уровни энергии, волновые функции и квантовые числа.

3. Задача определения параметров контура спектральной линии (Т3).

Входными данными являются частоты переходов, волновые функции, коэффициенты Эйнштейна и др. Результатом решения являются вычисленные полуширины, сдвиги, интенсивности, параметры, характеризующие интерференцию спектральных линий, статистические веса и т. д.

4. Задача расчета спектральных функций (Т4).

Входными спектральными данными являются параметры спектральных линий взаимодействующей молекулы. Рассчитываются коэффициенты поглощения, функция пропускания и т. д. при заданных термодинамических и электромагнитных условиях.

Данная цепь задач определяет последовательность их решения. Например, для решения задачи Т3 необходимо иметь решение задачи Т2 или, иными словами, входные данные задачи Т3 должны включать в себя выходные данные задачи Т2. Выделение первых двух классов задач (Т1 и Т2) обусловлено важным физическим фактом, а именно, свойства изолированных молекул не зависят от термодинамических параметров. Задача Т3 позволяет определить параметры спектральных линий молекулы при реперных термодинамических условиях (температуры 296K, 1000K, 3000K) и учете столкновений молекул в газе. Задача Т4 описывает излучающие или поглощательные способности газов при разных термодинамических условиях.

3.1.2. Обратные задачи

К классам элементарных обратных задач, используемых нами для проектирования информационной системы, относятся следующие классы [2]:

1. Задача измерения спектральных функций (Е1). Результатом решения этой задачи, значимым для ИВС, являются значения спектральных функций и метаданные об условиях проведения эксперимента.

2. Задача определения параметров спектральной линии взаимодействующей молекулы (ЕТ1). Входными данными являются измеренные спектральные функции и условия измерения. Результатом решения задачи являются параметры спектральных линий взаимодействующих молекул.

a. Подзадача определения центров спектральных линий (ЕТ1.1). Результатом решения являются частоты переходов (два типа: вакуумные волновые числа, отнесенные к условиям их существования в вакууме; вакуумные волновые числа, отнесенные к конкретным термодинамическим и электромагнитным условиям).

b. Подзадача определения интенсивностей спектральных линий (ЕТ1.2). Результатом решения являются интенсивности, отнесенные к центрам спектральных линий при заданных термодинамических и электромагнитных условиях.

c. Подзадача определения полуширин, сдвигов и температурных зависимостей полуширин и сдвигов (ЕТ1.3). Результатом решения задачи являются значения параметров контура спектральной линии (полуширина линии и сдвиг линии, обусловленные столкновениями исходной молекулы со сторонними атомом, молекулой или воздухом, температурная зависимость полуширины и сдвига спектральной линии)

d. Подзадача определения параметров смешения линий (ЕТ1.4).

3. Задача приписывания квантовых чисел спектральным линиям (Т5). Входными данными являются расчетные спектры с идентифицированными переходами и решения обратных задач ET. Результатом является установление связи между частотами перехода и квантовыми числами.

4. Задача определения коэффициентов Эйнштейна (Т6). Результатом являются коэффициенты Эйнштейна, отнесенные к частотам перехода.

5. Задача определения уровней энергии изолированной молекулы (Т7). Результатом является список уровней энергии с приписанными к ним квантовыми числами, погрешности определения уровней энергии и число переходов, использованных для определения значения уровня энергии.

Данная цепь задач также определяет последовательность их решения. Так, для решения задачи Т7 необходимо иметь решение задачи Т6, или, иными словами, входные данные задачи Т7 должны включать в себя выходные данные задачи Т6. Задачи также можно сгруппировать по температурной зависимости. Задачи E1 и ET1 описывают излучающие или поглощательные способности газов при разных термодинамических условиях. Задача Т5 позволяет определить параметры спектральных линий одной молекулы при реперных термодинамических условиях (температуры 296K, 1000K, 3000K). Обратные задачи (Т6 и Т7) обусловлены важным фактором, а именно, свойства изолированных молекул не зависят от термодинамических параметров.

Задачи Т4 реализованы в виде приложений в информационно-вычислительной системе W@DIS (http://wadis.saga.iao.ru). Остальные задачи в настоящее время представлены в ИС в виде информационных ресурсов, представляющих результаты их решения (Т1 – Т7, Е1 и ЕТ1). В информационной системе возможно проведение сравнительного анализа однотипных задач по одинаковым физическим величинам. Так, прямая задача T1 имеет однотипную обратную задачу T7, где в выходных данных сравниваются уровни энергии. Прямая задача T2 имеет однотипную обратную задачу T6, где в выходных данных сравниваются переходы. Прямая задача T3 имеет однотипную обратную задачу T5, где в выходных данных сравниваются интенсивности, полуширины, сдвиги и термодинамические зависимости полуширин и сдвигов. Прямая задача T4 имеет однотипную обратную задачу E1, где в выходных данных сравниваются значения спектральных функций.

Стоит отметить, что анализ данных, находящихся в банках данных HITRAN, JPL и Beamcat, показывает, что они относятся только к задачам Т2, Т3, Т4, Е1 и ЕT1. Отметим, что интенсионалы этих банков данных существенно меньше, чем следует из классификации задач. Например, в задаче Т3 как в БД HITRAN, так и в БД GEISA учитываются только самоуширение и уширение воздухом, тогда как в ИС W@DIS [39] дополнительно учитывается уширение атомами и сторонними молекулами (см. таблицу 2.4).

3.2. Формальная информационная модель

3.2.1. XML-схема для описания данных в ИС W@DIS

В этом параграфе описана часть формальной информационной модели, использованной для создания информационной системы по спектроскопии. Эта часть включает в себя XML-схемы результатов решений прямых и обратных задач молекулярной спектроскопии. Схемы являются субъектно-предикатными структурами, предназначенными для использования во время загрузки данных в базы данных ИС. В них применяются два вида ограничений – ограничения на тип данных и на интервал изменения значений.

Во многих задачах, решаемых в молекулярной спектроскопии, физические величины и их характеристики представляются с помощью моделей структурированных данных. При программной реализации предметных задач часть этих данных является для приложений входными или выходными данными. При решении задач хранения и управления данными интенсионал данных явно представляется в виде схемы базы данных, а экстенсионал данных является определенным зафиксированным решением задачи, размещенным в базе данных в соответствии с этой схемой.

Существующие наборы параметров спектральных линий HITRAN и GEISA [13, 14] содержат в основном данные о решениях задач молекулярной спектроскопии (Т2, Т3, и T5 – T7). Интенсионал этих наборов данных описывает физические величины, характеризующие спектр молекул, погрешности их определения и ссылки на публикации, в которых они содержатся. Недостатками интенсионалов, используемых в ряде экспертных спектральных массивов, является то, что в них не включены некоторые физические характеристики молекул, используемые при решении прямых и обратных задач молекулярной спектроскопии, и форма представления библиографических ссылок не позволяет определять с помощью SQL-запросов к БД, в которой размещены эти наборы, принадлежность данных к публикации. Это означает, что невозможно при компьютерной обработке установить авторов данных и время опубликования результатов, а также провести корректное сравнение экспериментальных и расчетных данных.

В нашей работе расширение интенсионала спектральных данных осуществлено дополнением физических величин, относящихся к задачам нахождения уровней энергии молекулы и спектральным функциям.

Наполнение информационной системы данными возможно двумя способами: во-первых, через проведение расчётов средствами информационной системы, во-вторых, через загрузку опубликованных решений предметных задач в ИС. Загружаемые пользователем данные образуют первичные ресурсы, которые характеризуются источником данных, содержащим библиографическую ссылку. Как правило, данные загружаются в систему в виде файлов. Структура данных, используемая в файлах, может не соответствовать структуре данных, используемой для их хранения.

XML-схемы для каждой задачи используются для структуризации данных задач и проверки их значений. Часть схемы, связанная с метками, характеризующими состояния, может меняться для разных групп молекул. Организация XML-схем основана на предположении, что любая физическая задача из информационной модели спектроскопии состоит в изучении определенной молекулы. Поэтому корневым элементом в документе будет название изотопомера молекулы, ему соответствуют название файла, содержащего XML-схему. Ниже анализируются схемы для молекулы диоксида углерода.

Молекула диоксида углерода относится к классу «Линейные трехатомные молекулы с большим Ферми-резонансом» и спектроскопической модели «Двухатомные и линейные молекулы с целым J». Все изотопологи диоксида углерода, относящиеся к двум группам симметрии (D?h, C?v), представлены в таблице 3.1.

Таблица 3.1. Доступный набор изотопологов молекулы СO2
Симметрия Изотопическая модификация
Основной изотополог Изотопологи диоксида углерода
D∞h CO2  
D∞h   C18O2
D∞h   C17O2
D∞h   O13CO
D∞h   13C18O2
D∞h   13C17O2
D∞h   14CO2
D∞h   14C18O2
C∞v   O13C17O
C∞v   O13C18O
C∞v   OC18O
C∞v   OC18O
C∞v   OC17O
C∞v   17OC18O
C∞v   13C17O18O

Особенности в меток («квантовых числах») диоксида углерода описаны в ресурсе main:substance/abstract/identification_CO2group.xsd, где пространство имен определяется выражением main=”http://wadis.saga.iao.ru/data/xsd/tasks/version4/”.

XML-схема основана на переопределении возможных значений меток, описывающих состояния, для всей группы изотопологов молекулы диоксида углерода, что позволяет варьировать их возможные значения. Установленные значения ограничений на идентификационные параметры квантовых чисел имеют вид регулярных выражений.

В XML-схеме приведены ограничения на метки, относящиеся к модели CDSD и модели, описываемой нотацией HITRAN.

Для меток в представлении CDSD накладываются ограничения на P, n, J и ε. Значение «-2» указывает на неопределенность метки. Для квантового числа «полный угловой момент J» допустимы целые значения 0, 1, 2 ... 999, для метки «симметрия колебательного состояния» ε возможны значения e, f. Метка «ранжирующий индекс колебательного состояния» n принимает целые значения 0, 1, 2, ..., 90, а метка «полиада состояния» Р – 0, 1, 2,...,50.

В представлении «нотация HITRAN» накладываются ограничения на метки, характеризующие колебательную (v1, v2, v3, l2, r) и вращательную (J и ε) части. Так для v1, v2, v3 возможны целые значения 0, 1, 2, ..., 99, а для полного углового момента J возможны целые значения 0, 1, 2, ..., 999. Для колебательного углового момента l2 возможны целые значения – 0, 1, 2, ..., 99. Для квантового числа r (номер компоненты Ферми-мультиплета) возможны целые значения 0, 1, 2, ..., 99.

Цепочка переопределений в XML-схеме приводит к выбору элемента из списка возможных задач, что представлено на рисунке 3.1.

Рис. 3.1. Визуальное представление XML-схемы для файла CO2.xsd

Обратимся к определению структуры данных решения спектроскопической задачи. Для задачи T7 структура имеет вид, представленный на рисунке 3.2. Решение задачи T7 содержит список линий, включающий значения уровней энергии, погрешность определения уровня энергии, число переходов, использованных для определения уровня энергии и квантовые числа, характеризующие уровень энергии, причём для наименования этих физических величин используются наравне с полными названиями их аббревиатуры. Для задачи T7 в этот список входят (EnergyLevel ~ EL; UncertaintyOfEnergyLevel ~ dEL; NumberTransitionsDefiningLevels ~ NEL; Identification ~ QN).

Рис. 3.2. Визуальное представление XML-схемы для файла T7.xsd

Полное определение всех физических величин для задач информационной модели содержится в файле main:task/abstract/task.xsd. В нём определены диапазоны изменения допустимых значений физических величин (таблица 3.2), а также аббревиатуры для именования этих величин (таблица 3.3).

Диапазоны возможных значений физических сущностей заданы для всех задач и изотопологов. Такой структурой задаётся гибкость в формировании ограничений на возможные значения и исключается конфликтность ограничений для разных задач.

Таблица 3.2. Диапазоны возможных значений некоторых физических величин для молекул СО2
  Интенсионал Тип Диапазон значений Атрибуты (комментарий) Единицы измерений
1 EnergyLevel double [0, 45000] error (необязательный)  
2 UncertaintyOfEnergyLevel double [-100,100]    
3 NumberTransitionsDefiningLevels integer -1||[0, MAX]    
4 Wavenumber double [0,45000] error (необязательный)  
5 VacuumWavenumber double [0,45000] error (необязательный)  
6 EinsteinCoefficient double [0, MAX] error (необязательный)  
7 Intensity double - || [0, MAX] error (необязательный) (“-“ - нет данных)  
8 RelativeIntensity double - || [0, MAX] error (необязательный) (“-“ - нет данных)  
9 Halfwidth double - || [0, MAX] error (необязательный) (“-“ - нет данных)  
10 Shift double [MIN, MAX] error (необязательный)  
11 TemperatureDependence double [MIN, MAX] error (необязательный)  
12 PressureDependence double [MIN, MAX] error (необязательный)  
13 Temperature double [0, MAX]   Град. К
14 Pressure double [0, MAX]   атм
15 P string -2 || [0,50] (“-2” - нет данных)  
16 n string -2 || [0,90] (“-2” - нет данных)  
17 ε string -2 || [e,f] (“-2” - нет данных)  
18 v1 string -2 || [0,99] (“-2” - нет данных)  
19 v2 string -2 || [0,99] (“-2” - нет данных)  
20 v3 string -2 || [0,99] (“-2” - нет данных)  
21 l2 string -2 || [0,99] (“-2” - нет данных)  
22 r string -2 || [0,99] (“-2” - нет данных)  
23 J string -2 || [0,99] (“-2” - нет данных)  

Для оптимизации размеров создаваемых файлов вместо длинных названий XML-элементов используются их аббревиатуры, что позволяет в разы уменьшить размеры создаваемых XML-документов. Результат такой оптимизации заметен при работе с данными больших объемов, содержащих десятки тысяч переходов или состояний.

Таблица 3.3. Аббревиатуры для физических сущностей
  Полное название Короткое название Комментарий
1 EnergyLevel EL Уровень энергии
2 UncertaintyOfEnergyLevel dEL Погрешность определения уровня энергии
3 NumberTransitionsDefiningLevels NEL Число переходов, использованных для определения уровня энергии
4 Wavenumber WN Длина волны
5 VacuumWavenumbers VWN Вакуумные волновые числа
6 EinsteinCoefficient EC Коэффициент Эйнштейна
7 Intensity I Интенсивность
8 RelativeIntensity RI Относительная интенсивность
9 Halfwidth HW Полуширина
10 Shift Sh Сдвиг
11 TemperatureDependence THW Температурная зависимость
12 PressureDependence PSh Зависимость от давления
13 Temperature T Температура
14 Pressure P Давление
15 J   Полной угловой момент (Точное квантовое число)
16 P   полиада состояния
17 n   ранжирующий индекс колебательного состояния
18 ε s cимметрия Ванга колебательного состояния
19 ε Sym симметрия
20 vl   кратность возбуждения 1-го колебания
21 v2   кратность возбуждения 2-го колебания
22 v3   кратность возбуждения 3-го колебания
23 l2   колебательный угловой момент
24 r   номер компоненты Ферми-мультиплета

Для XML-элементов комплексного типа, состоящих из дочерних XML-элементов, структура более сложная. Так, для квантовых чисел структура данных имеет вид, представленный на рисунке 3.3. У XML-элемента QN (эквивалент Identification), задающего структуру квантовых чисел, должен обязательно присутствовать один дочерний XML-элемент из списка CDSD или нотации HITRAN, а второй из них может присутствовать или отсутствовать, в зависимости от решения задачи. В зависимости от выбора типа меток и соответственно определяющего этот выбор XML-элемента метки будут разными. Так, для нотации HITRAN будут доступны XML-элементы v1, v2, v3, l2, r, J, ? (колебательные и вращательные квантовые числа).

Рис. 3.3. Визуальное представление структуры элемента QN (квантовые числа)

По аналогии с определением XML-элемента QN создаётся элемент Transition (переход между уровнями энергии), представленный на рисунке 3.4. У XML-элемента Transition (эквивалент Tr), задающего структуру идентифицирующего перехода между уровнями энергии, должен обязательно присутствовать один дочерний XML-элемент из списков TransitionCDSDNotation (эквивалент TrCN) и TransitionHitranNotation-CO2 (эквивалент TrHN-CO2), а два другие из этих списков могут присутствовать или отсутствовать, в зависимости от решения задачи, подразумевающего квантовые числа различного типа. В зависимости от выбора типа квантовых чисел и соответственно определяющего этот выбор XML-элемента квантовые числа будут разными. Так, для CDSDNotation (тип меток CN) будут доступны внутри дочерних XML-элементов Upper (для меток, идентифицирующих верхний уровень энергии) и Lower (для меток, идентифицирующих нижний уровень энергии) XML-элементы P, J, ?, n (квантовые числа).

Рис. 3.4. Визуальное представление структуры элемента Transition (переход)

Стоит подробнее остановиться на комплексных XML-элементах PhysicalCondition (физические условия решения задачи) и ThermodynamicDependence (термодинамические значения в решении задачи). Так, для физических условий структура данных имеет вид, представленный на рисунке 3.5.

Рис. 3.5. Cтруктура элемента PhysicalCondition (физические условия)

XML-элемент PhysicalCondition определяет физических условия, характеризующие термодинамические свойства среды в которой происходит столкновение молекулы с посторонней частицей (атомом или молекулой), парциальное давление, относящееся к посторонним частицам и наименование частицы. Поскольку публикуются решения задач, содержащие значения интенсивностей и/или столкновительных полуширин и/или сдвигов давлением, элемент BroadeningSubstance может не присутствовать в документах, соответствующих конкретному решению. Допустимые названия BroadeningSubstance связаны с областью значений атрибута name (название уширяющего вещества), принимающего одно из возможных фиксированных значений названия уширяющего вещества (таблица 3.4).

Таблица 3.4. Фактические значения уширяющего вещества для молекулы диоксида углерода, имеющиеся в литературе
  Полное название Комментарий
1 Self Самоуширение
  Смеси  
2 Air Воздух
  Молекулы  
3 H2O Основной изотопомер воды
4 O2 Молекулярный кислород
5 N2 Молекулярный азот
6 H2 Молекулярный водород
7 CO2 Диоксид углерода
8 СО Монооксид углерода
9 NO Монооксид азота
10 NH3 Аммиак
11 N2O Закись азота
12 CH4 Метан
13 3He Гелий
  Атомы  
14 Ar Аргон
15 Kr Криптон
16 Xe Ксенон
17 He Гелий
18 Ne Неон

Для термодинамических значений структура данных имеет вид, представленный на рисунке 3.6. XML-элемент ThermodynamicDependence (эквивалент TDD), задаёт структуру термодинамических зависимостей решения задачи и предполагает упорядоченную последовательность дочерних XML-элементов _l (линия), где повтор элементов _l не лимитирован по верхней границе. В свою очередь дочерние XML-элементы _l, должны состоять из неупорядоченной последовательности XML-элементов Halfwidth (полуширина), TemperatureDependence (температурная зависимость), Shift (сдвиг), PressureDependence (зависимость от давления), то есть порядок их появления не важен при формировании структурированного документа. Причём любой из элементов Halfwidth, TemperatureDependence, Shift, PressureDependence может отсутствовать, в зависимости от решения задачи. Ключевым моментом у XML-элемента _l является наличие атрибута broadening (название уширяющего вещества), принимающего одно из возможных фиксированных значений названия уширяющего вещества (таблица 3.3). Кроме этого задаётся уникальный ключ, на атрибут broadening (название уширяющего вещества) дочернего XML-элемента _l (линия) по отношению к ThermodynamicDependence, что позволяет XML-парсерам проверять на уникальность названия уширяющих веществ, в пределах одного XML-элемента ThermodynamicDependence.

Рис. 3.6. Структура элемента TDD (термодинамическая зависимость)

3.2.2. Прямая задача определения физических характеристик изолированной молекулы

Для задачи Т1 интенсионал данных содержит уровень энергии молекулы и квантовые числа, характеризующие уровень энергии. Обязательными для загрузки элементами интенсионала являются уровень энергии и хотя бы один набор квантовых чисел.

Для задачи определения физических характеристик изолированной молекулы XML-схема представлена в ресурсе main:task/T1.xsd.

Данная XML-схема является переопределением схемы main:task/abstract/task.xsd, где определяются физические сущности для всех задач. В ней вводится новый элемент T1, предполагающий упорядоченную последовательность дочерних XML-элементов _l (дочерними элементами для него являются EnergyLevel и Identification). Число таких дочерних элементов может быть ограниченным сверху положительным целым. Дочерние XML-элементы _l должны состоять из неупорядоченной последовательности XML-элементов EnergyLevel (уровень энергии) и Identification (метки), то есть порядок их появления не важен при формировании структурированного документа.

3.2.3. Прямая задача определения параметров спектральной линии изолированной молекулы

Для задачи Т2 интенсионал данных содержит вакуумную частоту, коэффициент Эйнштейна и идентифицирующие переходы между уровнями энергии. Обязательными для загрузки элементами интенсионала являются вакуумная частота и хотя бы один набор меток идентифицирующих переходы между уровнями энергии.

Для задачи определения параметров спектральной линии изолированной молекулы XML-схема представлена в main:task/T2.xsd.

Данная XML-схема является переопределением схемы main:task/abstract/task.xsd, где определяются физические сущности для всех задач. Также как и в предыдущей схеме, новый элемент T2 содержит ограниченное число дочерних XML-элементов _l (дочерними элементами для него являются VacuumWavenumber, EinsteinCoefficient и Transition). Дочерние XML-элементы _l должны состоять из неупорядоченной последовательности XML-элементов VacuumWavenumber (вакуумные волновые числа), EinsteinCoefficient (коэффициент Эйнштейна) и Transition (метки идентифицирующие переходы), то есть порядок их появления не важен при формировании структурированного документа. Причём XML-элемент EinsteinCoefficient может отсутствовать.

3.2.4. Прямая задача определения параметров контура спектральной линии

Для задачи Т3 интенсионал данных содержит физические величины: температура, давление, уширяющие вещества, столкновительные полуширины и сдвиги, температурные зависимости полуширин и сдвигов, вакуумные волновые числа, интенсивности и метки, идентифицирующие переходы между уровнями энергии. Обязательными для загрузки элементами интенсионала являются частоты переходов, хотя бы один набор квантовых чисел, идентифицирующих переходов.

Для задачи определения параметров контура спектральной линии XML-схема представлена в main:task/T3.xsd.

Данная XML-схема является переопределением схемы main:task/abstract/task.xsd, где определяются физические сущности для всех задач. В ней вводится новый элемент T3, предполагающий упорядоченную последовательность дочерних XML-элементов PhysicalCondition (физические условия задачи) и ограниченное количество элементов _l. В свою очередь дочерние XML-элементы _l должны состоять из неупорядоченной последовательности XML-элементов Wavenumber (волновые числа), Intensity (интенсивность), ThermodynamicDependence (термодинамическая зависимость) и Transition (идентификации переходов), то есть порядок их появления не важен при формировании структурированного документа, причём XML-элементы Intensity и ThermodynamicDependence могут отсутствовать. Кроме этого задаётся уникальный ключ на атрибут name (название уширяющего вещества) дочернего XML-элемента BroadeningSubstance (уширяющее вещество) по отношению к PhysicalCondition, что позволяет XML-парсерам проверять на уникальность названия уширяющих веществ в пределах одного XML-документа, содержащего XML-элемент T3. Также к уникальному ключу по названиям уширяющих веществ привязываются внешние ключи для проверки атрибута broadening (название уширяющего вещества для группировки физических сущностей, относящихся к описанию значений полученных по этому веществу) дочернего XML-элемента _l (линия) по отношению к ThermodynamicDependence или его эквиваленту TDD, что позволяет XML-парсерам проверять наличие описаний в PhysicalCondition уширяющего вещества. XML-представление данных по этой схеме может выглядеть с учётом ограничений, введенных в XSD-схеме.

3.2.5. Обратная задача приписывания квантовых чисел спектральным линиям

Для задачи Т5 интенсионал данных содержит физические условия расчёта, такие, как температура, давление, уширяющие вещества с парциальным давлением и полуширины, сдвиги, температурные зависимости, зависимости от давления по ним, частоты переходов, интенсивности и идентифицирующие переходы между уровнями энергии. Обязательными для загрузки элементами интенсионала являются частоты переходов, хотя бы один набор идентифицирующих переходов.

В задаче приписывания квантовых чисел спектральным линиям XML-схема имеет вид, сходный с XML-схемой по задаче T3, но предполагающий ввод значений экспериментальных значений ошибок в физических величинах.

XML-представление данных по этой схеме может выглядеть с учётом ограничений, введенных в XSD-схеме, в виде, представленном в main:task/T5.xsd.

3.2.6. Обратная задача определения коэффициентов Эйнштейна

Для задачи Т6 интенсионал данных содержит вакуумную частоту, коэффициент Эйнштейна и идентифицирующие переходы между уровнями энергии. Обязательными для загрузки элементами интенсионала являются вакуумная частота и хотя бы один набор идентифицирующих переходов между уровнями энергии.

В задаче определения коэффициентов Эйнштейна XML-схема имеет вид, сходный с XML-схемой по задаче T2, но предполагающий ввод значений экспериментальных значений ошибок в физических величинах. XML-представление данных по этой схеме может выглядеть с учётом ограничений, введенных в XSD-схеме, в виде, представленном в main:task/T6.xsd.

3.2.7. Обратная задача определения уровней энергии изолированной молекулы

Для задачи Т7 интенсионал данных содержит уровень энергии молекулы погрешность определения уровня энергии, число переходов, использованных для определения уровня энергии и квантовые числа, характеризующие уровень энергии. Обязательными для загрузки элементами интенсионала являются уровень энергии и хотя бы один набор квантовых чисел.

Для задачи определения уровней энергии изолированной молекулы XML-схема представлена в main:task/T7.xsd. Данная XML-схема является переопределением схемы main:task/abstract/task.xsd, где определяются физические сущности для всех задач. Здесь вводится новый элемент T7, предполагающий упорядоченную последовательность дочерних XML-элементов _l (линия). Дочерние XML-элементы _l, состоят из неупорядоченной последовательности XML-элементов EnergyLevel (уровень энергии), UncertaintyOfEnergyLevel (погрешность определения уровня энергии), NumberTransitionsDefiningLevels (число переходов, использованных для определения уровня энергии) и Identification (квантовые числа), то есть порядок их появления не важен при формировании структурированного документа, причём XML-элементы UncertaintyOfEnergyLevel и NumberTransitionsDefiningLevels могут отсутствовать. XML-представление данных по этой схеме может выглядеть с учётом ограничений, введенных в XSD-схеме, в виде, представленном в main:task/T7.xsd.

Все приведенные схемы описывают соответствующие части модели данных предметной области «Количественная молекулярная спектроскопия». Модель данных предназначена для построения слоя данных и приложений информационной системы.

4. Заключение

Задача представления печатных статей в форме, допускающей автоматическую обработку их содержания, является важной в силу того, что при таком представлении можно сгенерировать значительный объем высказываний, остающихся в настоящее время скрытыми для программных агентов. Поскольку научные статьи связаны с разными предметными областями, то перспективными для такого представления являются предметные области, содержащие значительное число данных, допускающих представление в виде субъектно-предикатных структур.

В качестве примера количественной предметной области рассмотрена предметная область «количественная спектроскопия». В значительном числе статей, публикуемых в спектроскопии, содержатся табулированные данные, как в тексте, так и приложениях. Число высказываний, находящихся в этих таблицах, на порядки превышают число высказываний, которые можно извлечь из статьи. В спектроскопии большая часть табулированных данных связана с шестью задачами спектроскопии. Эти задачи положены в основу описательной информационной модели предметной области. Формальная информационная модель содержит концепты, отношения и ограничения, позволяющие решить задачу приобретения данных и предварительного контроля их качества при формировании слоя данных и приложений в информационной системе по спектроскопии.

В данной статье, основанной на понятиях, определенных в первой части работы [40], кратко представлены описательная информационная модель предметной области «Вещество» и формальная и описательные модели предметной области «Количественная спектроскопия». На примере молекулы диоксида углерода показаны все компоненты этой формальной модели, соответствующие описательной информационной модели.

Отметим некоторые ограничения, накладываемые моделями обеих предметных областей. Первое из них связано с тем фактом, что в процессах поглощения и излучения наряду с веществом принимает участие излучение, которое в нашей модели не описывается. Второе ограничение связано с тем фактом, что некоторые задачи спектроскопии в нашей модели не рассмотрены. К числу этих задач относятся задачи определения мультипольных моментов молекул, поляризационных характеристик молекулы и т. д.

Созданные модели данных, характеризующие цепи прямых и обратных задач в предметной области, позволяют перейти к уровню большей детализации и разработать онтологию описывающую информационные ресурсы, представляющие решения задач. В фактологической части онтологии информационных ресурсов, содержатся свойства результатов решения задач в молекулярной спектроскопии и их значения.

Описанная часть формальной модели не описывает детально семантику данных, содержащихся в ИС. С одной стороны информационная система должна содержать все данные, извлеченные из публикаций, а с другой стороны, данные из разных статей противоречат друг другу. Для описания качества данных необходимо более детальное представление решений задач спектроскопии по сравнению с тем, которое обеспечивает язык XML.

Развитие информационной модели количественной спектроскопии, связанное с формализацией свойств решений задач спектроскопии, будет дано в следующей части нашей работы (третьей статье из настоящей серии).

Литература

1. Gordov E.P. Web portal on environmental sciences “ATMOS” / Gordov E.P., Lykosov V.N., Fazliev A.Z. // Adv. Geosci. 2006. V. 8. P. 33-38.

2. Bykov A.D. Distributed information system on atmospheric spectroscopy / Bykov A.D., Fazliev A.Z., Filippov N.N. et al. // Geophysical Research Abstracts. European Geosciences Union General Assembly 2007. Vienna, 15 – 20 April 2007. Vienna: Copernicus, 2007. V. 9. 8 p.

3. Быков А.Д. Информационная система по молекулярной спектроскопии 1. Структура информационных ресурсов / Быков А.Д., Воронин Б.А., Козодоев А.В., Лаврентьев Н.А., Родимова О.Б., Фазлиев А.З. // Оптика атмосферы и океана. 2004. Т. 17. № 11. С. 816-820.

4. Быков А.Д. Структурирование ресурсов информационной системы по молекулярной спектроскопии / Быков А.Д., Козодоев А.В., Привезенцев А.И., Фазлиев А.З. // Вычислительные технологии. 2007. Т. 12. С. 10-18.

5. Козодоев А.В. Аннотирование информационных ресурсов в распределенной информационной системе "Молекулярная спектроскопия" /Козодоев А.В., Привезенцев А.И., Фазлиев А.З. // Труды 7-ой Всерос. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL’2005). Ярославль, 4 – 6 октября 2005 г. Ярославль: Изд-во Ярославского ун-та, 2005. С. 80-86.

6. Козодоев А.В. Информационная система для решения задач молекулярной спектроскопии. 3. Уровни энергии молекул /Козодоев А.В., Привезенцев А.И., Фазлиев А.З. // Оптика атмосферы и океана. 2007. Т. 20. № 9. С. 805-809.

7. Козодоев А.В. Организация информационных ресурсов в распределенной информационно-вычислительной системе, ориентированной на решение задач молекулярной спектроскопии / Козодоев А.В., Привезенцев А.И., Фазлиев А.З. // Вычислительные технологии. 2005. Т. 10, спец. выпуск. С. 82-91.

8. Лаврентьев Н.А. Информационная система для решения задач молекулярной спектроскопии. 4. Переходы в молекулах симметрии C2v и Cs / Лаврентьев Н.А., Привезенцев А.И., Фазлиев А.З. // Оптика атмосферы и океана. 2008. Т. 21. № 11. С. 957-962.

9. Voronina S.S. Systematization of the published spectroscopic parameters of ammonia / Voronina S.S., Yurchenko S.N., Fazliev A.Z. // Abstracts of the 22-nd Colloquium on High Resolution Molecular Spectroscopy, Dijon, 2011. P. 163.

10. Fazliev A.Z. Complete set of published spectral data on CO2 molecule / Fazliev A.Z., Lavrentiev N.A., Privesentsev A.I., Filippov N.N. // Abstracts of the 22-nd Colloquium on High Resolution Molecular Spectroscopy, Dijon, 2011. P. 353.

11. Лаврентьев Н.А. Распределенная информационная система по молекулярной спектроскопии углекислого газа / Лаврентьев Н.А., Привезенцев А.И., Фазлиев А.З. // Материалы XVI Межд. симпозиума «Оптика атмосферы и океана. Физика атмосферы». Томск, 12 – 15 октября 2009 г. Томск: Изд-во ИОА СО РАН, 2009. С. 42-45.

12. Dubernet M.L. Virtual atomic and molecular data centre / Dubernet M.L., Boudon V., Culhane L. et al. // J. of Quant. Spectrosc. & Rad. Transfer. 2010. V. 111, No 15. P. 2151-2159.

13. Rothman L.S. The HITRAN 2008 molecular spectroscopic database / Rothman L.S., Gordon I.E., Barbe A. et al. // J. of Quant. Spectrosc. & Rad.Transfer. 2009. V. 110, No 9. P. 533-572.

14. Jacquinet-Husson N. The GEISA spectroscopic database: current and future archive for earth and planetary atmosphere studies / Jacquinet-Husson N., Scott N.A., Chedin A. et al. // J. of Quant. Spectrosc. & Rad. Transfer. 2008. V. 109. No 6. P. 1043-1059.

15. Pickett H.M. Submillimeter, millimeter and microwave spectral line catalog / Pickett H.M., Poynter R.L., Cohen E.A., Delitsky M.L. et al. // J. of Quant. Spectrosc. & Rad. Transfer. 1998. V. 60. P. 883-890.

16. Быков А.Д., Науменко О.В., Синица Л.Н., Родимова О.Б., Творогов С.Д., Тонков М.В., Фазлиев А.З., Филиппов Н.Н. Информационные аспекты молекулярной спектроскопии. – Томск: Изд-во ИОА СО РАН, 2008. 356 c.

17. Gamache R.R. Extension of the HITRAN database to non-LTE applications / Gamache R. R., Rothman L.S. // J. of Quant. Spectrosc. & Rad. Transfer. 1992. V. 48. P. 519-525.

18. Jacquinet-Husson N. The GEISA system in 1996: towards an operational tool for the stcjnd generation vertical sounders radiance simulation / Jacquinet-Husson N., Scott N.A., Chedin A. et al. // J. Quant. Spectrosc. Radiat. Transfer. v. 59, p. 51 l-527, 1998

19. Rothman L.S. The HITRAN 2004 molecular spectroscopic database / Rothman L.S., Jacquemart D., Barbe A. et al. // J. of Quant. Spectrosc. & Rad. Transfer. 2005. V. 96. P. 139-204.

20. Golovko V.F. Information system AIRSENTRY for modeling atmospheric IR-spectra and radiation transmission in the atmosphere / Golovko V.F., Nikitin A.V., Chursin A.A., Tyuterev Vl.G. // Proc. 2nd Int. Workshop AD-BIS’95. V. 2. Moscow, 1995. P. 12-14.

21. Mikhailenko S.M. The DataBank of Ozone Spectroscopy on WEB (S&MPO) / Mikhailenko S.M., Babikov B.L., Tyuterev V.G., Barbe A. // Computational Technologies. 2002. V. 7. P. 64-70.

22. Бабиков Ю.Л. Интернет-коллекция по молекулярной спектроскопии / Бабиков Ю.Л., Barb A., Головко В.Ф., Михайленко С.М., Тютерев В.Г.// Труды 3-ей Всерос. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». Петрозаводск, 11 – 13 сентября 2001. Петрозаводск: Изд-во КарНЦ РАН, 2001. С. 183-187.

23. Лаврентьев Н.А. Сравнение спектральных массивов данных HITRAN и GEISA с учетом ограничения на опубликование спектральных данных / Лаврентьев Н.А., Макогон М.М., Фазлиев А.З. // Оптика атм. и океана. 2011. Т. 24. № 4. С. 279-292.

24. IVOA Spectral Data Model, Version 1.03. //IVOA Recommendation 2007-10-29 [Электронный ресурс]. – Режим доступа: http://www.ivoa.net/Documents/REC/DM/SpectrumDM-20071029.pdf.

25. Виртуальный центр атомных и молекулярных данных [Электронный ресурс]. – Режим доступа: http://vamdc.eu.

26. VAMDC-XSAMS reference guide [v 0.2] [r 11.05] [Электронный ресурс]. – Режим доступа: http://vamdc.eu/documents/standards/dataModel/vamdcxsams/index.html.

27. Data access protocol [v 11.05] [r 11.05] [Электронный ресурс]. – Режим доступа: http://vamdc.eu/documents/standards/dataAccessProtocol/index.html.

28. Query language [v 11.05] [r 11.05] [Электронный ресурс]. – Режим доступа: http://vamdc.eu/documents/standards/queryLanguage/index.html.

29. Dictionaries [v 11.05] [r 11.05] [Электронный ресурс]. – Режим доступа: http://vamdc.eu/documents/standards/dictionary/index.html.

30. IUPAC project N 2004-035-1-100 «A database of water transitions from experiment and theory» [Электронный ресурс]. – Режим доступа: http://www.iupac.org/web/ins/2004-035-1-100.

31. Lee Y.Tina. Information modeling: from design to implementation [Электронный ресурс]. – Режим доступа: http://www.mel.nist.gov/msidlibrary/doc/tina99im.pdf.

32. Chen P. The entity-relationship model – towards a unified view of data // In: ACM Transactions on database Systems. 1976. V. 1, No 1.

33. Chandrasekaran B. Ontology of tasks and methods Chandrasekaran B., Josephson J. R., Benjamins V. R. Chandrasekaran B., Josephson J. R., Benjamins V. R. // Banff Knowledge Acquisition Workshop. 1998 [Электронный ресурс]. – Режим доступа: http://www.cse.ohio-state.edu/~chandra/Ontology-of-Tasks-Methods.PDF. – 25 p.

34. Привезенцев А.И. Организация онтологических баз знаний и программное обеспечение для описания информационных ресурсов в молекулярной спектроскопии. – Дисс. ... к. т. н., Томск, 2009.

35. Rothman L.S. The HITRAN molecular spectroscopic database: edition of 2000 including updates through 2001 / Rothman L.S., Barbe A., Benner D. Chris et al. // J. of Quant. Spectrosc. & Rad. Transfer. 2003. V. 82. P.5-44.

36. Rothman L.S. Infrared energy levels and intensities of carbon dioxide, II / Rothman L.S., Young L.D.G. // J. of Quant. Spectrosc. & Rad. Transfer. 1981. V. 25. P. 505-524.

37. Jacquemart D. The IR acetylene spectrum in HITRAN: update and new results / Jacquemart D., Mandin J. -Y., Dana V. et al. // J. of Quant. Spectrosc. & Rad. Transfer. 2003. V. 82. P. 363-382.

38. Brown L.R. Methane line parameters in HITRAN/ Brown L.R., Benner D. Chris, Champion J. P. et al. // J. of Quant. Spectrosc. & Rad. Transfer. 2003. V. 82. P. 219-238.

39. Информационная система W@DIS [Электронный ресурс]. – Режим доступа: http://wadis.saga.iao.ru.

40. Привезенцев А.И., Базы знаний для описания информационных ресурсов в молекулярной спектроскопии. 1. Основные понятия. / Привезенцев А.И., Фазлиев А.З. // Электронные библиотеки, 2011, т. 14, в.1. [Электронный ресурс]. – Режим доступа: http://elbib.ru/index.phtml?page=elbib/rus/journal/2011/part1/PF

Об авторах

Лаврентьев Николай Александрович - научный сотрудник Центра интергированных информационных систем Института оптики атмосферы им. В.Зуева СО РАН, E-mail: lnick@iao.ru;

lnick@iao.ru

Привезенцев Алексей Иванович - к.т.н., научный сотрудник Центра интергированных информационных систем Института оптики атмосферы им. В.Зуева СО РАН, E-mail: remake@iao.ru;

remake@iao.ru

Фазлиев Александр Зарипович - к.ф.-м.н., заведующий Центром интергированных информационных систем Института оптики атмосферы им. В.Зуева СО РАН

faz@iao.ru

Приложение 1. Классификация молекул, данные о которых находятся в информационной системе W@DIS
  Вещество Основной изотополог Спектроскопическая модель Группа симметрии Класс для молекулы
1 C2H2 C2H2 SM3 D∞h CM7
2 HC13CH C2H2 SM3 C∞ v CM7
3 C2HD C2H2 SM3 C∞ v CM7
4 C2T2 C2H2 SM3 D∞ h CM7
5 13C2D2 C2H2 SM3 D∞ h CM7
6 14C2D2 C2H2 SM3 D∞ h CM7
7 14C2H2 C2H2 SM3 D∞ h CM7
8 C2D2 C2H2 SM3 D∞ h CM7
9 DC13CD C2H2 SM3 C∞ v CM7
10 13C2H2 C2H2 SM3 D∞ h CM7
11 C2H4 C2H4 SM1 D2h CM10
12 H2C13CH2 C2H4 SM1 C∞v CM10
13 C2H6 C2H6 SM5 D3d CM10
14 CH3Cl CH3Cl SM5 C3v CM10
15 CH337Cl CH3Cl SM1 C2v CM1
16 CH4 CH4 SM4 Td CM10
17 CH3D CH4 SM5 C3v CM10
18 13CH4 CH4 SM4 Td CM10
19 CD4 CH4 M4 Td CM10
20 CHD3 CH4 SM4 C3v CM10
21 CH2D2 CH4 SM4 C2v CM10
22 13CH2D2 CH4 SM4 C2v CM10
23 13CH3D CH4 SM4 C3v CM10
24 13CHD3 CH4 SM4 C3v CM10
25 13CD4 CH4 SM4 Td CM10
26 CT4 CH4 SM4 Td CM10
27 ClO ClO SM7 C∞v CM3
28 37ClO ClO SM7 C∞ v CM3
29 ClONO2 ClONO2 SM1 Cs CM10
30 CO CO SM3 C∞ v CM1
31 13CO CO SM3 C∞ v CM1
32 13C18O CO SM3 C∞v CM1
33 13C17O CO SM3 C∞ v CM1
34 C18O CO SM3 C∞ v CM1
35 C17O CO SM3 C∞ v CM1
36 14CO CO SM3 C∞ v CM1
37 14C18O CO SM3 C∞ v CM1
38 CO2 CO2 SM3 D∞ h CM5
39 O13C17O CO2 SM3 C∞ v CM5
40 O13C18O CO2 SM3 C∞ v CM5
41 O13CO CO2 SM3 D∞ h CM5
42 OC18O CO2 SM3 C∞ v CM5
43 C18O2 CO2 SM3 D∞ h CM5
44 OC17O CO2 SM3 C∞ v CM5
45 17OC18O CO2 SM3 C∞ v CM5
46 13C17O18O CO2 SM3 C∞ v CM5
47 18O13C18O CO2 SM3 D∞ h CM5
48 C17O2 CO2 SM3 D∞ h CM5
49 13C17O2 CO2 SM3 D∞ h CM5
50 14CO2 CO2 SM3 D∞ h M5
51 14C18O2 CO2 SM3 D∞ h CM5
52 COF2 COF2 SM1 C2v CM9
53 H2CO H2CO SM1 C2v CM9
54 H213CO H2CO SM1 C2v CM9
55 H2C18O H2CO SM1 C2v CM9
56 H2O H2O SM1 C2v CM6
57 H18OH H2O SM1 C2v CM6
58 H17OH H2O SM1 C2v CM6
59 HOD H2O SM1 Cs CM6
60 H18OD H2O SM1 Cs CM6
61 H17OD H2O SM1 Cs CM6
62 D2O H2O SM1 C2v CM6
63 D217O H2O SM1 C2v CM6
64 D218O H2O SM1 C2v CM6
65 DTO H2O SM1 Cs CM6
66 HTO H2O SM1 Cs CM6
67 H2O2 H2O2 SM1 C2 CM9
68 H2S H2S SM1 C2v CM6
69 H33SH H2S SM1 C2v CM6
70 H34SH H2S SM1 C2v CM6
71 HDS H2S SM1 C2v CM6
72 H36SH H2S SM1 Cs CM6
73 D2S H2S SM1 C2v CM6
74 HD33S H2S SM1 Cs CM6
75 HD34S H2S SM1 Cs CM6
76 D233S H2S SM1 Cs CM6
77 D234S H2S SM1 Cs CM6
78 HBr HBr SM3 C∞ v CM1
79 H81Br HBr SM3 C∞ v CM1
80 HCl HCl SM3 C∞ v CM1
81 H37Cl HCl SM3 C∞ v CM1
82 HCN HCN SM3 C∞ v CM4
83 H13CN HCN SM3 C∞ v CM4
84 HC15N HCN SM3 C∞ v CM4
85 HCOOH HCOOH SM1 Cs CM10
86 HF HF SM3 C∞ v CM1
87 HI HI SM3 C∞ v CM1
88 HNO3 HNO3 SM1 Cs CM10
89 HO2 HO2 SM1 Cs CM6
90 HOBr HOBr SM1 Cs CM6
91 HOCl HOCl SM1 Cs CM6
92 HO37Cl HOCl SM1 Cs CM6
93 N2 N2 SM3 D∞ h CM1
94 N2O N2O SM3 C∞ v CM4
95 N15NO N2O SM3 C∞ v CM4
96 15NNO N2O SM3 C∞ v CM4
97 N218O N2O SM3 C∞ v CM4
98 N217O N2O SM3 C∞ v CM4
99 NH3 NH3 SM5 C3v CM8
100 15NH3 NH3 SM5 C3v CM8
101 ND3 NH3 SM5 C3v CM8
102 15ND3 NH3 SM5 C3v CM8
103 NO NO SM8 C∞ v CM1
104 15NO NO SM8 C∞ v CM3
105 N18O NO SM8 C∞ v CM3
106 NO2 NO2 SM1 C2v CM6
107 NO+ NO+ SM3 C∞ v CM1
108 O2 O2 SM6 D∞ h CM2
109 O17O O2 SM6 C∞ v CM2
110 O18O O2 SM6 C∞ v CM2
111 O3 O3 SM1 C2v CM6
112 O18OO O3 SM1 C2v CM6
113 O17OO O3 SM1 C2v CM6
114 O218O O3 SM1 Cs CM6
115 18OO18O O3 SM1 C2v CM6
116 O217O O3 SM1 Cs CM6
117 OCS OCS SM3 C∞ v CM4
118 OC34S OCS SM3 C∞ v CM4
119 O13C34S OCS SM3 C∞ v CM4
120 OC33S OCS SM3 C∞ v CM4
121 18OCS OCS SM3 C∞ v CM4
122 O13CS OCS SM1 C2v CM4
123 OH OH SM7 C∞ v CM3
124 18OH OH SM7 C∞ v CM3
125 OD OH SM7 C∞ v CM3
126 PH3 PH3 SM5 C3v CM8
127 SF6 SF6 SM4 Oh CM10
128 SO2 SO2 SM1 C2v CM6
129 33SO2 SO2 SM1 C2v CM6
130 SO17O SO2 SM1 Cs CM6
131 SO18O SO2 SM1 Cs CM6
132 34SO2 SO2 SM1 C2v CM6

Последнее обновление страницы было произведено: 2011-12-21

Все предложения и пожелания по содержанию и структуре портала направляйте по адресу rdlp@iis.ru