РОССИЙСКИЙ НАУЧНЫЙ ЭЛЕКТРОННЫЙ ЖУРНАЛ Электронные библиотеки
2011 - Том 14 - Выпуск 1

Базы знаний для описания информационных ресурсов в молекулярной спектроскопии. 1. Основные понятия

Привезенцев А.И., Фазлиев А.З.

 

Аннотация

В работе представлено описание основных понятий, использованных при построении информационной системы трехслойной архитектуры. Слой знаний этой системы содержит базу знаний, используемую приложениями для семантического поиска, интеграции и систематизации (частично автоматической) информационных ресурсов по количественной молекулярной спектроскопии. База знаний представлена в форме прикладных онтологий, с помощью которых решаются перечисленные выше задачи. Основное внимание сконцетрировано на интерпретации понятия «онтология», введенном в работах Н. Гуарино.

Введение

Типичными компонентами работы исследователя, занимающегося анализом предметной области, являются сбор фактов, построение модели предметной области, соотнесение собственной модели с моделями других исследователей, организация доступа другим исследователям к его модели и, на завершающей стадии, публикация модели. При этом возникает ряд вопросов: насколько полный набор фактов имеется у исследователя и не противоречивы ли они; позволяет ли формальный язык спецификаций моделей построить адекватную собранным фактам модель; существуют ли противоречия между собственной моделью и моделями иных исследователей; каким образом организовать быстрый доступ к результатам исследований и т. д.?

Поставленные вопросы возникают при создании информационных систем коллективного пользования. В предлагаемой серии статей, объединенной одним названием, на примере предметной области «Количественная молекулярная спектроскопия», показано, каким образом, и в рамках какого инструментария, могут быть получены ответы на поставленные вопросы.

Выполненная работа состоит из шести частей. В первой части, которой является данная статья, вводятся основные понятия, необходимые для последующего изложения. Наиболее важным среди них является определение онтологии, используемое затем при создании онтологической базы знаний. Во второй части будут описаны модель данных количественной молекулярной спектроскопии и XML- схемы для молекулы диоксида углерода. В третьей части представлена фактологическая часть (A-box) базы знаний по спектроскопии молекулы диоксида углерода и ее изотопологов. В настоящее время она, наряду с базами знаний информационных ресурсов по молекулам сероводорода, диоксида углерода и аммиака, является наиболее полной по числу достоверных фактов в данной предметной области. В четвертой части рассмотрено программное обеспечение для создания сервисов описания информационных ресурсов в молекулярной спектроскопии. В пятой части дан перечень критериев достоверности в молекулярной спектроскопии, обсуждается проблема достоверности ресурсов и рассмотрены результаты вычислений, связанные с достоверностью ресурсов для трех молекул (вода, диоксид углерода и сероводород). В шестой части обсуждаются вопросы автоматического построения понятийной части (T-box) в прикладной онтологии.

Молекулярная спектроскопия является одним из разделов физики, широко используемых во многих прикладных исследованиях. Предметом изучения молекулярной спектроскопии являются спектральные свойства молекул. Детальное изучение спектральных свойств молекул не закончено до сих пор. Связано это с тем обстоятельством, что в расчетах физических характеристик атмосферы используются сотни тысяч линий, каждая из которых описывается десятком параметров.

Работа с такими массивами данных требует предметной систематизации данных и создания программных средств для их обработки. Такая систематизация проведена теоретиками несколько десятков лет назад, но до сих не представлена в виде, допускающем ее программную реализацию. Поэтапное решение этой задачи осуществляется в проекте Virtual Atomic and Molecular Data Center (VAMDC) [1].

Классификацией данных, сбором, хранением и распространением информационных ресурсов по молекулярной спектроскопии занимается несколько групп, среди которых выделяются две группы, поддерживающие банки данных HITRAN [2] и GEISA[3]. В России работы по созданию информационных ресурсов в области молекулярной спектроскопии ведутся в Институте оптики атмосферы СО РАН с начала 1980-х годов [4].

Стоит отметить, что задача систематизации данных в количественной спектроскопии относится как к задачам спектроскопии, поскольку термины и понятия спектроскопии связаны с содержательной стороной информации о предметной области, так и к информатике в силу того, что её решение во многом определяется организацией сбора, хранения и распространения данных, информации и знаний.

В количественной спектроскопии процесс наполнения данных далек от завершения. За почти сорокалетнюю историю группа, поддерживающая HITRAN, несколько раз модифицировала как набор физических сущностей (интенсионал), так и типы данных, в которых они хранятся. Такие модификации связаны с тем, что современная техника измерения спектров позволяет получать данные с большей точностью и в тех диапазонах длин волн, в которых ранее измерения не проводились. Количество расчетных спектров растет еще более стремительно, например, за последние десять лет данные по молекуле воды выросли более чем в сто раз. Растет также число исследовательских групп. Все это указывает на необходимость сбора, хранения, обработки и распространения информации с использованием современных технологий для коллективной работы с ней, на базе информационных систем.

Оцифровка спектральных данных имеет почти сорокалетнюю историю, но качественный скачок в создании информационных систем (ИС) в этой предметной области произошел с появлением доступа к интернету в начале 1990-х и глобальной информационной системы веб [5]. Веб-технологии позволили сделать значительный шаг в развитии информационно-вычислительных систем (ИВС) коллективного использования по молекулярной спектроскопии. В 1999 году появилась первая веб-информационная система «Спектроскопия атмосферных газов» (http://spectra.iao.ru) [6], опирающаяся на известные банки спектроскопических данных HITRAN и GEISA.

В последние годы произошло переосмысление принципов создания ИВС, как в целом в информатике [7], так и, в частности, в молекулярной спектроскопии [8]. Это связано с инициативой World Wide Web Consortium (W3C) по преобразованию Web в Semantic Web [9], где декларируется представление информации, используемой компьютерами, для автоматизации, интеграции и повторной используемости приложениями [10]. В рамках этой инициативы ведутся активные работы по созданию инфраструктуры Semantic Web, создаются рекомендации [11-13], программное обеспечение и онтологические базы знаний. Эти рекомендации являются элементами технологий, актуальными при представлении знаний в глобальном информационном прстранстве (вебе).

При современном подходе к построению модели научной информационно-вычислительной системы (НИВС) используют её трёхслойную модель [7]. В число слоев входят: слой данных и вычислений, слой метаданных (информации) и слой знаний.

Слой данных и вычислений предназначен для непосредственного решения предметных задач, информационный слой ориентирован на компьютерную генерацию информации о данных предыдущего слоя и возможности обмена этой информацией между программами. Цель разработчиков ИС состоит в представлении подобной информации в формализованном и машинно-обрабатываемом виде. Эта задача в рамках подхода Semantic Web, как известно, решается с помощью языков разметки XML [13] и RDF [15]. Слой знаний необходим для машинной интеграции и структурирования разнородных ресурсов из различных предметных областей с возможностью унифицированного доступа к ним в рамках информационной системы, и последующей их логической машинной обработки. Этот слой создается на основе онтологий, для описания которых рекомендован язык спецификации OWL [16]. Однако использование этого языка не дает однозначного ответа, что же строится с его помощью, или, другими словами, что же есть онтология, построенная в Semantic Web. Определение этого понятия при создании слоя знаний остается за исследователем. В данной работе, создавая онтологическую БЗ, мы следуем определениям Гуарино [32].

В нашей работе слой знаний для информационной системы по количественной спектроскопии является основным предметом исследования. Этот слой основан на базах знаний (БЗ) информационных ресурсов по количественной спектроскопии. В свою очередь БЗ ориентирована на решение задач, в основании которых лежит использование информационных аспектов этих ресурсов. К числу таких задач относятся систематизация ресурсов, их поиск и исследование их достоверности по ряду критериев, характерных для данной предметной области.

Для предметной области молекулярной спектроскопии введение в модель ИС слоя метаданных и слоя знаний даёт возможность исследователям проводить анализ решений задач и проверять согласованность своих неявных знаний с другими научными логическими теориями [75]. Кроме этого исследователи, анализируя получаемое знание о результатах решения предметных задач, могут своевременно реагировать на важные сведения, например, о недостоверных данных.

Создание W3C рекомендаций RDF и OWL заставило переосмыслить роль метаданных в информационных системах. На базе этих рекомендаций построен базис для формирования инструментов и сервисов для разработчиков информационных систем с целью “проектирования и реализации высококачественных, значимых, корректных, минимально избыточных и хорошо аксиоматизированных онтологий” [14]. С их помощью должна быть решена следующая ключевая задача – создание машинно-обрабатываемых аннотаций для информационных ресурсов в вебе.

Онтология задач, разработанная Лабораторией прикладных онтологий [17] и реализованная в KIF и OWL Full, является онтологией верхнего уровня, которую можно использовать при решении задач коллективного машинного использования знаний в рамках парадигмы Semantic Web. Стоит отметить работы [18, 19], представляющие прикладные онтологии решения задач. В настоящее время развитый в них подход лежит вне рамок развития Semantic Web.

Рассматриваемая в третьей части статьи фактологическая часть онтологии информационных ресурсов молекулярной спектроскопии воды представляет собой «domain-lightweight-reference» онтологию, то есть предметную ссылочную онтологию, которая основной акцент делает на составление описательной картины предметной области, не изменяющейся во времени и являющейся основой для других онтологий. Онтология задач молекулярной спектроскопии воды представляет собой «domain-lightweight-application» онтологию, то есть предметную онтологию приложения, которая основной акцент делает на индивиды, динамически формирующиеся во время описания решаемых задач в информационной системе с определенными входными предметными данными. Заметим, что первая упрощенная версия ссылочной онтологии по молекулярной спектроскопии воды была опубликована в [20].

Прикладные онтологии, связанные с приложениями, формализованы таким образом, чтобы с ними можно было работать в реальном масштабе времени (например, машинное отнесение фактов к классам осуществляется за небольшой промежуток времени). Они созданы, в частности, для решения задачи семантического поиска источников данных, характеризующих решения конкретных задач молекулярной спектроскопии воды. По выделенной цели и выразительности такие онтологии, согласно классификации, называют прикладными онтологиями [21].

Появление НИВС по молекулярной спектроскопии инициировало создание информационных ресурсов в виде структур данных, содержащих не только параметры спектральных линий, но и ряд других физических величин. Это привело к расширению набора структурных метаданных, используемых в банках данных (например, HITRAN и GEISA), и, в свою очередь, к появлению трактовки информационного ресурса как пары связанных между собой данных и метаданных.

При формировании слоя данных стало очевидным, что при коллективной работе в ИВС необходимо предоставить пользователю возможность самостоятельного формирования структуры массивов спектральных данных и их наполнение конкретными значениями, проведения на их основе расчетов и сравнения с результатами экспериментов. Работа в этом направлении состояла, в первую очередь, в создании системы ввода данных со структурами, характерными для количественной спектроскопии.

Наряду с работами, в которых информационные ресурсы представляются в виде связанных между собой данных и метаданных, в настоящее время ведутся активные работы по разработке и внедрению информационных систем, основанных на знаниях [22-24]. Обращаясь к классификации существующих информационно-вычислительные систем по молекулярной спектроскопии [6, 25], отметим, что они содержат в себе только слой данных и вычислений. Качественно новый скачок в работе с информационными ресурсами в ИС предоставляет реализация информационного слоя и слоя знаний. Учёт этих слоев повышает эффективность и качество обработки спектральной информации. Отсутствие этих двух слоев, необходимых для перехода к автоматической машинной обработке информации и знаний, указывает на ограниченность развития существующих информационно-вычислительных систем.

В настоящее время задача создания слоя знаний для НИВС по количественной спектроскопии является актуальной в силу назревшей необходимости интеграции информационных ресурсов, имеющихся у спектроскопистов. Шаги, сделанные в этом направлении в проекте VAMDC, пока слабо связаны со слоем метаданных и не связаны со слоем знаний.

Решение задач в молекулярной спектроскопии логическими программными агентами, предназначено для повышения эффективности работы ученых в своих специализированных предметных областях. Имеющиеся инструментальные средства для работы со знаниями, представленными в виде онтологий, позволяют уже сейчас проверять корректность отнесения понятий и делать логические выводы с помощью машин вывода.

1. Информационные системы

1.1 Определение информационной системы

Исследование информационных систем является задачей, которой посвящены специальные конференции, изучающие дисциплину «Информационные системы» [60, 61]. Современное понимание информационной системы предполагает использование её в качестве основного технического средства обработки информации.

В структуру ИС входят компоненты трех различных типов: прикладные программы, информационные ресурсы, такие, как базы данных и/или базы знаний, и пользовательские интерфейсы. Эти компоненты объединены таким способом, чтобы выполнить конкретную задачу [32]. В статье, если не оговорено особо, под автоматизированной информационной системой понимается система, содержащая базы данных и знаний, прикладные программы, формирующие систему управления базами данных и знаний и пользовательские интерфейсы. Назначением машинно-читаемых баз знаний является хранение знаний с целью применения к ним программного логического вывода. В статье онтология определяет структуру хранимых знаний и фактов, специфицированных на языке OWL.

1.2 Слои информационной системы

В инициативе e-Science (цифровая наука) [7] выделяют три слоя eё инфраструктуры:

  • слой данных и вычислений;
  • информационный слой;
  • слой знаний.

В силу того, что информационные системы являются частью инфраструктуры e-Science, они наследуют такую архитектуру. В ИС в слое данных и вычислений рассматриваются любые не интерпретируемые (т. е. не имеющие машинно-интерпретируемой семантики) объекты и процессы, лежащие в основе предметной области. В слое метаданных (информации) рассматриваются любые свойства, относящиеся к объектам и процессам уровня данных, а также значения этих свойств. Эти объекты и свойства должны быть машинно-интерпретируемыми. В слое онтологий (знаний) рассматриваются субъектно-предикатные структуры и логики, на основе которых они построены. Основой для создания этого слоя являются слои данных и метаданных, ориентированные на систематизацию и интеграцию информации для достижения какой-либо цели, решения задачи или принятия решения. С каждым слоем ИС связан свой уровень абстракции. Эти уровни показаны на рис. 1.1.

Рис.1. Слои информационной системы

Построение уровней осуществляется на начальном этапе вручную в рамках моделирования предметной области. Оно начинается с концептуализации, выбора логики для построения высказываний слоя метаданных и языка спецификации для создания индивидов и классов слоя знаний. Использование машины вывода при построении слоя знаний расширяет созданный слой знаний. Это расширение позволяет автоматически строить расширение слоев метаданных и данных.

Построение слоя знаний способствует созданию систем автоматического построения элементов и структур информационного слоя и слоя знаний. В настоящее время активно ведутся работы [18, 22, 41, 62] по созданию информационных систем, включающих слой знаний, основанный на онтологиях. Эти работы направлены на представление знаний в конкретных предметных областях. Например, в работе [62] показано использование машиннообрабатываемых знаний для документно-ориентированных корпоративных информационных систем, а в работе [22] – применение для информационных систем по гуманитарным наукам.

2. Ресурсы информационной системы

2.1 Определение информационных ресурсов

В широком смысле трактовка термина «информационный ресурс» или просто «ресурс» близка к определению W3C [63], где под ресурсом понимается любая сущность, имеющая URI.

В статье значение этого термина огрублено, и под информационным ресурсом понимается информационная пара, включающая две компоненты – данные и свойства этих данных. В следующих частях статьи в качестве названия этой пары используется термин «источник информации». Под данными [64] понимаются факты предметной области информационной системы в форме, допускающей их хранение и обработку на компьютерах, передачу по каналам связи, а также восприятие человеком. В данной работе мы несколько сузим такое широкое определение. Ограничение относится к выбору представления, в котором описываются факты предметной области. В контексте статьи будем называть факты данными в том случае, когда они используются при решении задач, не требующих автоматического логического вывода. Метаданные будем трактовать как свойства данных и их значения, которые можно использовать при автоматическом логическом выводе.

На практике используют термин «информационный ресурс» в широком смысле, придавая ему смысл любой информации, которую можно логически идентифицировать. Это могут быть любые структурированные (базы данных и их схемы) и неструктурированные данные (документы на естественных языках).

2.2 Метаданные

Термин «метаданные» используется в статье в двух смыслах: в широком смысле слова он используется как указание на тип модели информации, в рамках которой проводятся исследования, а в узком смысле слова как описание данных, следуя устоявшемуся неформальному определению: метаданные это данные о данных. Основное назначение метаданных – решать задачи описания данных для машинной обработки и обработки человеком параллельно, хотя возможно превалирование одной из этих целей. Метаданные для человека предоставляют дополнительные возможности для поиска необходимых ресурсов, обеспечивая гибкие и разнообразные механизмы селекции в соответствии с поисковым запросом. Для машины же метаданные дают дополнительную информацию для решения прежних задач более эффективными способами.

Определение. Семантические аннотации – это описание информационного ресурса (ABox) относительно некоторой терминологии онтологической модели предметной области (TBox). Семантические аннотации информационных ресурсов MD(IR) описываются свойствами и классами из онтологии предметной области в виде набора триад: MD(IR) = ((s1, p1, o1), (s2, p2, o2), … (sk, pk, ok)), где (si, pi, oi) – триада, которая состоит из субъекта si, которым является экземпляр класса онтологической модели (URI информационного ресурса или URI зависимых от него экземпляров), предиката (свойства) pi, описанного в онтологической модели, и объекта oi, которым может быть либо экземпляр класса онтологической модели (URI зависимых от информационного ресурса экземпляров), либо некоторый литерал (строка, число, дата).

Ниже семантические аннотации представлены с помощью языка спецификации OWL DL. Синонимом семантических аннотаций являются онтологические описания. Они являются индивидами онтологий, относящихся к уровню знаний. Процесс формирования семантической аннотации обусловлен задачей перевода интерпретируемого человеком контента в контент, интерпретируемый машиной. Семантические аннотации представляют собой частный случай метаданных, который связан с формой их представления, допускающей машинную интерпретацию.

Такое определение очень общее, и разные научные сообщества используют разные представления о метаданных. В работе [65] описывается подход к решению проблемы гетерогенности информации, заключающийся в том, чтобы предоставить метаданные, то есть данные о реальной информации. Простая классификация метаданных по описываемой ими семантической информации дана в работе [66]:

  • независимые от содержания метаданные – это данные об информации, не относящиеся напрямую к содержанию информации, которую они описывают; они скорее создают и описывают контекст и окружение, в которых эта информация создается и поддерживается (например, автор или дата создания ресурса);
  • метаданные, зависимые от содержания, – это данные об информации, которые были извлечены из информации, но при этом не описывают информационное содержание, а являются скорее дополнительным атрибутом, который напрямую вытекает из содержания; примерами метаданных, не зависимых от содержания, являются – размер документа, количество слов или страниц или язык, на котором он написан;
  • метаданные, основанные на содержании, напрямую отражают содержание источника информации, а также добавляют информацию или структуру, которая помогает обрабатывать начальную информацию более эффективно; примером таких метаданных, могут являться полнотекстовые алфавитные указатели;
  • метаданные, описывающие контекст, являются данными об информации, предоставляющие абстрактное описание содержания информационного ресурса; они помогают суммировать содержание информационного источника и принимать решение о том, подходят ли они для решения данной задачи или нет; примером таких метаданных , являются списки ключевых слов, глоссарии или распределения по тематическим категориям.

Различные типы метаданных раскрывают различные аспекты информации: технические данные о месте хранения и методах доступа, совместно с описаниями содержания и информацией об использовании по назначению и качестве данных. Что касается проблемы поиска и доступа к информации, роль метаданных в этом случае двойственна: cо стороны поставщиков информации метаданные служат средством организации, поддержки и каталогизации данных, со стороны пользователей информации средством нахождения информации, получения к ней доступа и интерпретации.

Организация больших хранилищ информации является сложной проблемой. В то время как системы управления базами данных предоставляют технологии для организации и поддержки данных, гетерогенные хранилища, содержащие наряду с данными информацию и знания, такие, как ИС, сталкиваются с проблемой неоднородности, которая требует более сложных методов организации. В связи с этой проблемой метаданные могут служить для выполнения следующих целей:

  • структурирование, – метаданные могут быть использованы для структурирования неоднородной информации с помощью уточнения областей интересов, ключевых слов и отношения к другой информации.; этот тип метаинформации может быть использован для организации информации по различному назначению, например, тема, дата, автор и т. д.;
  • поддержка, – метаданные помогают при поддержке данных, предоставляя информацию об авторах, дате создания и сроке годности;. эта информации помогает определить местонахождение устаревшей информации или найти человека, который ответственен за внесенные изменения;.
  • каталогизация, – чем больше становится информационное хранилище, тем большее значение имеет общий обзор информации, которая на самом деле в нем присутствует;. она может быть осуществлена путем создания информационных систем, основанных на каталогизации метаданных доступной информации.

Технологии работы с метаданными опираются на ряд типовых схем метаданных. Одной из них, ориентированной на описание абстрактного информационного ресурса, является схема Dublin Core [67], содержащая 15 базовых элементов: (заглавие; автор; предмет и ключевые слова; описание; помощники; тип ресурса; формат; источники ресурса; зависимые ресурсы; область контента; права на ресурс; дата; идентификатор; издатель; язык). Как видно из содержания этого перечня, такое описание не содержит отношений, характерных для конкретных предметных областей. Для подавляющего большинства данных конкретной предметной области метаданные, построенные с помощью отношений, взятых из смежных с ней предметных областей, являются наиболее важной частью информации о предметной области, характеризующей место этих данных в системе знаний.

Для конкретных предметных областей ведутся работы по широкому спектру, например, довольно успешно разрабатываются схемы метаданных по библиотечному делу, географическим описаниям, медицине, экологии, архивным и музейным описаниям, работе с новостями, административным делам и научной информации [69].

3. Представление знаний

Определение. Знания – совокупность фактов предметной области, зафиксированных в сознании и мышлении человека или в машине. Сознание определяет восприятие и понимание окружающего мира, а мышление задаёт способы установления связей, сопоставлений и осуществление из этого выводов, используя логику. Обращение к компьютерному описание мира требует наложения ограничений на логику: она должна допускать только создание вычислимых и разрешимых высказываний.

Естественным способом представления знаний предметной области является построение иерархии понятий, связанных между собой отношениями. Такое построение лежит в основе фреймов и семантических сетей, но эти языки не имеют формальной семантики (машина не может интерпретировать смысл высказываний). С другой стороны, логика предикатов первого порядка имеет формальную семантику, причём логический вывод не является полностью разрешимым, но не имеет удобных средств представления знаний предметной области в виде иерархий понятий и их отношений. Для достижения компромисса между логикой предикатов и семантическими сетями используется семейство дескриптивных логик, которое является подмножеством логики предикатов первого порядка.

Представление знаний определяется как «междисциплинарная научная дисциплина, применяющая теории и техники из трех областей:

  • логики, обеспечивающей формальные структуры и правила вывода;
  • концептуализации, определяющей виды вещей, существующие в предметной области;
  • вычислений, поддерживающих приложения, которые отличают представление знаний от чистой философии" [26].

Объектом изучения научной дисциплины «представления знаний» является предметная область. Представление знаний в предметной области предполагает выделение концептуализации, указание формальных структур предметной области и правил их вывода, а также типов вычислений, выполняемых на этих структурах и их частях. Представление знаний предметной области в форме баз знаний в автоматизированных системах накладывает ряд ограничений на допустимые наборы логик и вычисления, обусловленные современным состоянием вычислительной техники и программного обеспечения, делая их менее выразительными по сравнению, например, с представлением знаний на естественном языке. Существенным ограничением на представление знаний в автоматизированных информационных системах является тот факт, что они оперируют только абстрактными объектами и процессами и не могут осуществлять отнесение абстракции к физическим объектам или процессам.

Представление знаний в виде логической теории наиболее продуктивно используется в научных исследованиях. Логические научные теории – это субъектно-предикатные структуры, в которых можно выделить три уровня:

  • терминологический уровень (TBox),являющийся фиксированным каркасом, определяющим классы концептов и отношения на них;
  • реляционный уровень (Rbox), представляющий иерархии, связывающие между собой отношения, содержащиеся в концептуализации,
  • уровень экземпляров (ABox), являющийся телом логической теории, определяющим совокупность фактов, существующих в предметной области.

3.1 Концептуализация

Представление знаний развивалось в процессе становления натурфилософии, как научной дисциплины, а позже перешло в информатику, претерпев существенные метаморфозы в своей терминологии [26]. Наиболее существенное расхождение точек зрения произошло при интерпретации термина «онтология». Существует две разные точки зрения на определение онтологии. Первой придерживаются философы, а второй – инженеры по знаниям. С философской стороны Онтология (с заглавной буквы) понимается как наука о бытие. Онтология рассматривает объекты, свойства, категории и отношения между ними в реальном мире. Важным понятием в Онтологии является «категория», определяющая различные способы бытия. Категориальное представление из философии перешло в инженерию знаний и используется в онтологиях верхнего уровня [26]. С точки зрения инженеров по знаниям [27], онтология понимается как представление реальности, понятной и человеку, и компьютеру. В инженерном подходе, в отличие от философского, важным субъектом, анализирующим онтологическую картину реальности мира, является компьютер, который должен производить логические выводы при построении логической научной теории. В связи с этим онтология должна быть представлена на машинно-интерпретируемом языке.

Две трактовки слова «онтология», описанные выше, на самом деле связаны друг с другом, но для того, чтобы выйти из этого терминологического тупика, нужно выбрать один из них, придумав новое название для другого: далее термин «онтология» используется для решения задач представления знаний, а для передачи философского смысла используется термин «концептуализация» [26] или «Онтология» [32].

Существует ряд работ, в которых даны определение и интерпретация понятия "онтология" [22, 23, 28 – 38]. Классическое определение онтологии дано Грубером [31]: "Онтология – это явная спецификация концептуализации". Оно было слегка модифицировано Борстом [28] в виде: "Онтология – это формальная спецификация разделяемой концептуализации". Обобщение этих двух определений было представлено Студером и др. [36] в виде: "Онтология – это явная формальная спецификация разделяемой концептуализации", где:

  • "явная" означает, что "указан тип концептов, и ограничения на их использование явно определены";
  • "формальная" определяет факты, которые "должны быть читаемы машиной";
  • "разделяемая" ссылается на определение знаний, представленных в онтологии, "фиксирует согласованные знания, которые не являются частными некоторого индивидуума, а признаны группой";
  • "концептуализация" определяет "абстрактную модель некоторого явления в мире, идентифицируемого релевантными концептами этого явления".

Другое возможное определение онтологии, намного шире, более неформальное, определено Ушолдом [37] как "Онтология – словарь терминов и некоторой спецификации их смысла". Главное различие подходов Грубера и Ушолда состоит в формальном требовании и согласовании природы знаний, представленных в онтологии. Важно, что знания, представленные в онтологии, имеют согласованную природу, по меньшей мере, среди данной группы, так что можно было бы использовать её в разных системах, основанных на знаниях.

В работе [31] даны формальное и неформальное определения онтологии. В неформальном понимании онтология предметной области – это терминологический предметный словарь, все необходимые концепты в домене, их классификация, таксономии, отношения, включающие все важные иерархии и ограничения, и аксиомы на этом домене. Формально же онтология предоставляет каталог типов сущностей из предметной области, где типы в онтологии представлены в понятиях концептов, отношений и предикатов выбранного языка.

С точки зрения инженерии знаний [38] даётся техническое определение: "Онтология – это базы знаний специального типа, которые могут "читаться" и пониматься, отчуждаться от разработчика и/или физически разделяться их пользователями".

В современных актуальных прикладных работах, как правило, дается персонифицированное формальное определение онтологии [22, 23, 35].

В данной статье понятие "онтология" используется как в широком, так и в и узком смысле. В широком смысле это понятие определено в языке спецификации знаний OWL. Недостаток этого определения состоит в том, что использование его на практике приводит к множеству онтологий, описывающих предметную область, что обусловлено разной степенью грануляции предметной области, выбираемой исследователями. В работе [33] предложено иное определение понятия онтологии, о котором в статье будет упоминаться как об онтологии в узком смысле.

Известно, что представление данных и знаний в информационно-вычислительной системе основано на концептуализации предметной области. Общее описание назначения концептуализации, сформулированное в [40], хорошо описывается следующей цитатой. "Формально представленное знание основано на концептуализации: объектах, концептах и других сущностях, которые, предполагается, существуют в некоторой интересующей нас области, и отношений между ними. Концептуализация является абстракцией, упрощающей мир, который мы хотим представить с некоторой целью. Каждая база знаний, система, основанная на знании, или агент уровня знаний фиксирует некоторую концептуализацию, явно или неявно" [21]. В этой же работе сформулировано определение понятия "концептуализация".

Определение [21]. Концептуализация является парой (D, R), где D – предметная область, а R – множество отношений на D.

Предполагается, что D – множество концептов, а R – экстенсиональные отношения.

Существует другое определение понятия «концептуализация», данное Н. Гуарино [33]. Н. Гуарино отметил, что экстенсиональные отношения отражают конкретную безвариантную предметную область. Фактически же “при представлении знания необходимо сосредоточиться на смысле отношений, независимо от конкретной реализации предметной области” [21]. Такой подход привел к иному определению понятия “концептуализация”.

Определение [33].Концептуализация является триадой С=(D, W, R), в которой D – предметная область, W – возможные реализации предметной области, а R – множество концептуальных отношений на D.

Различие в трактовке понятия концептуализации привело к возникновению термина "онтологическое соглашение", обобщающего термин "моделирование предметной области". Описание деталей различия и условий совместимости этих терминов можно найти в монографии [21].

Понятие "онтологическое соглашение" является связью между концептуализацией, не зависящей от логики, и, онтологией, т. е. логической теорией, выраженной в соответствии с концептуализацией и интерпретацией словаря этого языка.

Онтологию можно рассматривать как логическую теорию, назначение которой – обеспечивать намеченный смысл некоторого словаря определенного языка. Словарь логического языка содержит константы, функции и отношения [21].

Определение [21]. Для данной интерпретируемой логики L и связанного с ней онтологического соглашения K онтологией О для L является логическая теория, сконструированная таким образом, что множество ее моделей как можно лучше аппроксимирует множество совместимых, т. е. намеренных, моделей L, связанных с К.

О логической теории, удовлетворяющей определению [21], будем говорить как об онтологии в узком смысле слова. Определение, данное выше, будем рассматривать как основание для построения онтологии, с фактологической частью (A-box) являющейся максимальной по отношению к любым другим, относящимся к наперед заданному классу задач, которые решаются с ее использованием. Такого рода онтологию будем называть онтологией Гуарино. Именно, отнологии Гуарино далее используются для построения базы знаний информационных ресурсов по количественной молекулярной спектроскопии.

В рекомендации OWL [16] описано опеределение словаря онтологии V, который состоит из конечного множества литералов VL и конечных восьми множеств URI-ссылок: VC, VD, VI, VO, VDP, VIP, VAP, VOP. Для любого словаря VC и VD непересекающиеся, а VDP, VIP, VAP, VOP – попарно непересекающиеся. VC – это имена классов словаря, которые обозначают понятия предметной области, содержащие owl:Thing и owl:Nothing. VD – это имена типов данных словаря, содержащих URI-ссылки на встроенные типы данных XML и rdfs: Literal. VI– это имена индивидов (экземпляров классов) словаря. VO – это онтологические имена словаря, являющиеся примитивами для составления аксиом онтологии. VOP – это URI-ссылки на встроенные онтологические свойства (двуместные предикаты), являющиеся примитивами для составления аксиом онтологии. VAP – это имена аннотационных свойств словаря, содержащих owl:versionInfo, rdfs:label, rdfs:comment, rdfs:seeAlso, and rdfs:isDefinedBy, используемых для дополнительного описания. VIP – это имена свойств связи индивидов в словаре. VDP – это имена свойств типа данных в словаре. Таким образом, словарь V состоит из множества триад отношений вида: v rdf:type owl:Ontology, где v ∈ VO; v rdf:type owl:Class, где v ∈ VC; v rdf:type rdfs:Datatype, где v ∈ VD; v rdf:type owl:Thing, где v ∈ VI; v rdf:type owl:ObjectProperty, где v ∈ VIP; v rdf:type owl:DatatypeProperty, где v ∈ VDP; v rdf:type owl:AnnotationProperty, где v ∈ VAP; v rdf:type owl:OntologyProperty, где v ∈ VOP.

Введенный формализм позволяет выбирать онтологии, близкие к описанию предметной области. В рамках естественного языка и набора логик, используемого при написании научных работ, неявным образом формулируются онтологии, отличающиеся как по выразительности, так и степени детализации предметной области. На практике для создания автоматизированных ИС используются менее выразительные языки для того, чтобы обработка выражений была ограничена конечным интервалом времени. Использование разных логических языков и словарей приводит к множеству возможных онтологий, требующих систематизации.

Подходы к классификации онтологий различаются у многих ученых. Например, в работе [21] приведена классификация онтологий по цели (справочная, прикладная), выразительности (ментальная, машинно-ориентированная) и уровню детализации (верхнего уровня, корневая, предметной области). В работе [32] приведена классификация онтологий: онтологии верхнего уровня, описывающие общие концепты и применяющиеся для связывания онтологий более низкого уровня иерархии, например, онтология Sowa [26], Upper Cyc Ontology [41], DOLCE [42], разрабатываемый стандарт IEEE [43], SUMO[44]; онтологии предметной области, использующиеся для специфицирования домена, которые обеспечивают словарь концептов и отношений между ними в предметной области; онтологии задач, описывающие словарь отношений задач или активности; онтологии приложений, используемые для прикладных задач в программном обеспечении.

3.2 Инженерия онтологий

Онтологическая инженерия как теория и технология разработки онтологий развита в работах [45 – 47]. Онтологическая инженерия предоставляет логические аргументы при проектировании баз знаний и дает возможность накопления и систематизации знаний из предметной области. Разработка онтологий требует эффективного концептуального анализа предметной области. Концептуальный анализ раскрывает концепты, отношения, факты предметной области и связывающие их структуры. Использование языка спецификации OWL сводит построение таких структур к таксономиям отношений (R-box) и концептов (T-box). Это позволяет проводить систематизацию знаний в предметной области. Посредством онтологического анализа создаваемая база знаний не просто передает знания, извлеченные от эксперта, а моделирует поведение логического агента, который может работать с базой знаний.

Методология разработки онтологий включает в себя ряд принципов, процессов, практик, методов и деятельности, используемой при проектировании, реализации и развертывании онтологий. Методологии классифицируют по задаче, которую они решают:

  • методологии разработки, решающие задачи построения онтологий;
  • методологии, включающие методы для слияния, реинжиниринга, обслуживания и развития онтологий;
  • методологии, построенные на общих процессах и практиках разработки ПО и применяющие их к разработке онтологий.

Процесс построения онтологии для моделирования предметной области, использующий различные методологии, является непременно итеративным процессом.

Существует три различных подхода к формированию онтологии:

  • нисходящий, первоначально выделяющий абстрактные концепты, а затем итерационно специфицирующий их до нужной степени другими концептами;
  • восходящий, первоначально выделяющий специфицированные концепты, затем итерационно обобщающий их до абстрактных концептов;
  • промежуточный, первоначально выделяющий важные концепты, затем специфицирующий и обобщающий их до нужной степени другими концептами.

Онтологии позволяют компьютерам получить доступ в машинно-интерпретируемом и машинно-обрабатываемом виде к знаниям [48]. Если представить информационные системы в виде взаимодействующих онтологий, то это обеспечит создание хорошей основы для дальнейших разработок логических приложений в предметных областях, потому что позволит решать проблемы получения и интерпретации знаний.

В работах [5, 40, 45, 49] дан широкий обзор онтологических языков и инструментальных средств для работы с ними.

Инструментальные средства для работы с онтологиями можно разбить на следующие группы:

  • средства разработки онтологий;. эта группа включает программное обеспечение, которое используется для построения новых онтологий с нуля;. в добавление к общим редакторским функциям и функциям просмотра, эти инструменты обычно предоставляют поддержку для документирования онтологии, экспорта и импорта онтологии в различные форматы и языки, возможности визуального редактирования, управления онтологическими библиотеками, и т. п.;
  • средства оценки качества онтологий; они используются, чтобы оценить качество содержимого онтологии, что ставит целью уменьшить проблемы, когда нам необходимо интегрировать и использовать онтологии в других информационных системах;
  • средства согласования и объединения онтологий;. эти средства используются, чтобы решать проблемы слияния и согласования различных онтологий в некоторой предметной области;
  • средства онтологического аннотирования; этими инструментальными средствами предоставляется возможность вставлять экземпляры концептов и отношений в онтологии и сохранять полуавтоматически онтологическую разметку в веб-страницы;. большинство из этих средств появилось недавно в рамках Semantic Web;
  • средства для онтологических запросов и машины вывода; эти инструменты позволяют опрашивать и производить логический машинный вывод на онтологиях;. в действительности, они очень сильно зависят от языков, используемых в реализации онтологии;
  • средства онтологического обучения; они могут извлекать онтологии полуавтоматически из текстов на естественных языках, из слабоструктурированных (HTML-документы) и хорошо структурированных источников (базы данных), способами машинного обучения и техниками анализа естественных языков.

Большинство программного обеспечения по функциональности попадает сразу в несколько различных групп, но есть и инструменты узкоспециализированной направленности.

Начиная с конца 1980-х годов, было создано множество языков представления онтологий. Парадигма представления знаний, лежащая в основе таких языков, основывалась на логике первого порядка (KIF), фреймах, комбинированных с логикой первого порядка (CycL, Ontolingua), и дескриптивной логике (LOOM). Первым из этих языков был создан CycL [50]. Он использовался для построения Cyc- онтологии. Затем в 1992 году был создан язык KIF [51], как формат обмена знаниями. Позже появился наследник KIF –- Ontolingua [52], ставший стандартом de facto в онтологическом сообществе в 1990 гг. В начале 1990 гг. был создан язык LOOM [53], основанный на дескриптивной логике. Дальнейшее развитие языков описания онтологий связано с развитием веба. Стали появляться онтологические языки, используемые в вебе, так называемые языки разметки онтологии. Они основаны или на HTML, или на XML. Первым языком онтологической разметки был SHOE [54], расширяющий язык HTML. Затем к развитию языков разметки знаний подключился W3C, начались работы по созданию рекомендации RDF [55] и затем RDF Schema [56]. В этом контексте были разработаны три более выразительных языка, расширяющие RDFS: OIL [57], DAML+OIL [58], OWL [16]. Язык OIL разрабатывался в 2000 году в рамках Европейского проекта. Язык DAML+OIL разрабатывался в 2000 – 2001 годах в рамках проекта DARPA, группой из США и ЕС. В конце 2001 г., W3C анонсировала группу по созданию языка OWL, и в феврале 2004 года были созданы рекомендации [12]. На текущий момент идет развитие языка OWL, и в октябре 2009 года реализован язык OWL 2 [59].

4. Обзор информационных систем по молекулярной спектроскопии

Начиная с начала 1980 годов, в Институте оптики атмосферы (ИОА) СО РАН начались работы по созданию информационных ресурсов в области молекулярной спектроскопии атмосферных молекул [4]. В начале 1990 годов был сделан качественный скачок в создании информационных систем, когда в 1993 году появилась система Airsentry, имеющая графический интерфейс.

С развитием интернета начали появляться информационно-вычислительные системы коллективного пользования по молекулярной спектроскопии [69]. С созданием этих систем [6, 25] был выполнен переход от концепции банка данных к концепции информационной системы в области молекулярной спектроскопии. Приложения, соответствующие задачам молекулярной спектроскопии и существовавшие ранее отдельно от данных, были интегрированы в единую систему с доступом в интернет. В дальнейшем развитие вышеупомянутых ИВС пошло экстенсивным путем.

Веб-ориентированная информационная система "Спектроскопия атмосферных газов" [6] предназначена для предоставления доступа через интернет к информации о параметрах спектральных линий атмосферных газов и малых примесей, необходимой для решения задач оптики атмосферы, для моделирования и визуализации молекулярных спектров поглощения. Эта информационная система опирается на известные банки спектроскопических данных HITRAN [2] и GEISA [3] и оригинальные опубликованные данные лаборатории теоретической спектроскопии ИОА СО РАН. Структуры данных и относительная полнота значений физических величин в этой ИС определили перечень предметных приложений, доступный пользователю. Отметим, что эта ИВС ориентирована на вычисление спектральных функций. ИС позволяет получать все результаты работы в графическом или табличном виде, а также экспортировать в текстовом виде на компьютер пользователя для дальнейшей обработки другими программами. Полученные данные сохраняются в ИС по запросу пользователя и могут использоваться при последующей работе с ИС (http://spectra.iao.ru). В настоящее время система тесно связана с группой, работающей над поддержкой Hitran (http://hitran.iao.ru), и имеет название «Hitran on the Web».

Веб-ориентированная информационная система "Спектроскопия и молекулярные свойства озона (S&MPO)" [25]: основана на результатах совместных экспериментальных и теоретических исследований, проводимых лабораториями GSMA (Реймс) и Института оптики атмосферы СО РАН, а также на данных из более крупных исследовательских проектов, и информации, опубликованной в спектроскопической литературе. В этой ИС появились данные о фундаментальных характеристиках изолированной молекулы озона, а именно, уровни энергии, потенциальные и волновые функции и т. д. [70]. Возможности системы аналогичны ИС “Спектроскопия атмосферных газов” и свободно доступны (http://ozone.iao.ru).

Интернет-информационная система "Carbon Dioxide Spectroscopic Databank (CDSD)": Система CDSD основана на результатах совместных экспериментальных и теоретических исследований, проводимых лабораториями LPMA (Париж) и ИОА СО РАН. ИС представляет собой интерактивную среду для доступа к банку данных CDSD, моделирования на его основе различных спектральных функций и сравнения результатов с результатами, полученными из других источников. (http://cdsd.iao.ru).

В перечисленных ИС реализован только слой данных и вычислений. Дальнейшее интенсиональное развитие структур данных и метаданных, в частности, составление онтологий, произошло при создании ИВС «Атмосферная спектроскопия» [70]. Это развитие было основано на подходе семантического грида [7] к проектированию современных ИВС. В рамках этого подхода ИВС представляется в виде трех слоев: слоя данных и вычислений, информационного слоя и слоя знаний. Такое разделение позволяет явно очертить области моделирования. Моделирование в предметной области связано с уровнем данных и вычислений. Моделирование в двух других слоях относится к задачам информатики и связано с информационными объектами и процессами работы с ними.

Информационная система «W@DIS»: проект направлен на создание распределенной информационно-вычислительной системы в области молекулярной спектроскопии. Базовые узлы системы располагаются в Нижнем Новгороде, Санкт Петербурге и Томске. ИС является веб-ориентированной и предоставляет информацию об источниках спектроскопических данных. Информационные ресурсы ИВС содержат данные трех типов: структурные характеристики молекул, параметры спектральных линий и спектральные функции. Источником данных являются как известные наборы данных HITRAN и GEISA, так и оригинальные экспериментальные результаты и численные расчеты участников проекта. Результаты расчетов оформляются в виде ресурсов, содержащих ссылки на метаданные, характеризующие данные всех трех типов, их источники и методы расчета, использованные в вычислениях. В данной статье описана компонента ИС «W@DIS», ориентированная на представление знаний.

Научная информационно-вычислительная система W@DIS ориентирована на работу с информационными ресурсами, относящимися к спектроскопии высокого разрешения молекулы воды и ее изотопомеров. Задачи, решение которых можно найти в W@DIS, представлены ниже:

1. Cбор первичной информации о спектральных характеристиках молекулы воды и их представление в виде атомарных первичных источников информации.

2. Проверка данных, входящих в такие источники информации, в соответствии с ограничениями, налагаемыми как теоретическими представлениями, так и допустимыми типами данных;

3. Формирование составных источников информации и их разложение на атомарные источники информации;

4. Сравнение источников информации (в графическом и табличном виде);

5. Вычисление среднеквадратичных отклонений при попарном сравнении источников информации;

6. Предоставление отчетов о корреляциях данных источников информации для всего массива сравниваемых источников информации.

Решение этих задач обеспечивает с большой степенью достоверности непротиворечивость данных, представляемых в информационных ресурсах данной информационной системы.

5.1 Информационные ресурсы в предметной области молекулярной спектроскопии

Данные, относящиеся к прикладной части молекулярной спектроскопии, можно разделить на три группы – фундаментальные характеристики молекул, параметры спектральных линий и значения спектральных функций.

Теоретическое изучение спектров основано на знании фундаментальных характеристик молекул. С их помощью рассчитываются параметры спектральных линий, применяемые для нахождения спектральных функций, например, коэффициента поглощения.

Экспериментальное изучение параметров спектральных линий и спектральных функций всегда было задачей спектроскопии. Ясно, что даже одна и та же измеренная или рассчитанная физическая величина будет обладать разным набором метаданных. Например, для экспериментальных данных ключевыми являются разрешение и точность измерения величины, тогда как для расчетных важно происхождение исходных параметров, на основе которых проводится расчет, методы и физические модели, используемые в расчете.

Среди выделенных трех групп параметры спектральных линий молекул по объёму значений данных являются основной. Для атмосферных наук, в частности, наиболее важной является спектральная информация о почти полусотне молекул.

Систематизация данных в молекулярной спектроскопии, проделанная теоретиками, предполагает следующие смежные структуры данных:

- фундаментальные характеристики молекулы, определяющие энергию молекулы; в зависимости от способа описания ими могут быть либо параметры полного молекулярного гамильтониана (потенциальная энергия, дипольный момент), либо параметры эффективного гамильтониана (вращательные, центробежные и резонансные постоянные, параметры эффективного дипольного момента); к ним необходимо добавить квадрупольные, октупольные моменты молекул и другие параметры, характеризующие межмолекулярное взаимодействие в газах;
- параметры спектральных линий, распределенные по группам:
а) параметры изолированной спектральной линии (интенсивность, центр линии, энергия нижнего уровня, статистический вес верхнего и нижнего состояний, момент перехода и т. д.);
б) параметры идентификации (колебательная и колебательно-вращательная идентификация);
в) параметры, обусловленные столкновениями (полуширина, сдвиг давлением, температурная зависимость полуширины и т. д.).
- спектральные функции, к которым относятся коэффициент поглощения, функция пропускания, сечение поглощения и т. д.

Отметим, что структура данных, присущая банкам данных HITRAN и GEISA, ориентирована на решение прикладных задач, и набор физических величин в них соответствует области их применения – спектроскопии атмосферных газов.

За основу набора физических величин, используемого в качестве параметров спектральной линии, нами взят набор из банка данных HITRAN [2]. Мы расширили его, дополнив столкновительными параметрами спектральных линий, обусловленными столкновениями с рядом молекул (Ar, Ne, H2O и т. д.), а также ввели ряд атрибутов у таких величин, как центр линии, интенсивность и полуширина. К числу этих атрибутов относятся способ получения физической величины (экспериментальный, расчётный или синтетический), её диапазон значений (абсолютный или относительный) и величина ошибки (абсолютная или относительная). Подход, используемый в банке данных HITRAN, не предусматривает явного задания этих атрибутов, но, например, неявно информацию о способе получения физической величины можно извлечь из библиографии, размещенной в нем.

Полный список параметров спектральных линий и их атрибутов представлен ниже.

Параметры спектральной линии изолированной молекулы:
- центр линии: экспериментальный, расчётный или синтетический;
- интенсивность:
а) экспериментальная, расчётная или синтетическая;
б) абсолютная или относительная;
- энергия нижнего уровня;
- статистический вес нижнего уровня;
- идентификация.
Параметры спектральной линии неизолированной молекулы (газ):
- сдвиг давлением;
- показатель температурной зависимости полуширины;
- коэффициенты самоуширения и уширения другими веществами или их смесями (экспериментальный, расчётный или синтетический).
Сопутствующие данные:
- библиографическая ссылка для каждой линии;
- точность (класс ошибки или абсолютная ее величина) для центра линии, интенсивности и уширения.

Отдельно следует выделить идентификацию спектральной линии. Этот параметр представляет собой набор квантовых чисел, уникально идентифицирующих каждую спектральную линию данной молекулы или изотополога. По своему происхождению спектральная линия связана с переходом молекулы из одного состояния в другое. Состояние молекулы характеризуется уровнем энергии, который, в свою очередь, можно связать с колебательными и колебательно-вращательными движениями атомов в молекуле (не рассматриваются электронные колебания). Каждый уровень энергии идентифицируется двумя наборами символов, один из которых определяет тип колебаний атомов в молекуле, а другой – тип вращательного движения атомов в молекуле. В силу того, что спектральная линия связана с двумя состояниями молекулы, для ее идентификации используются четыре группы квантовых чисел: колебательные квантовые числа верхнего и нижнего состояния и вращательные квантовые числа верхнего и нижнего состояния.

Число квантовых чисел, необходимое для идентификации колебательного и вращательного состояния, зависит от группы симметрии молекулы. Более подробно квантовые числа описаны в последующих частях статьи.

Разные группы спектроскопистов имеют свои банки данных [72]: HITRAN, GEISA, VALD, CHIANTI, CDMS, BASECOL, SISP, UMISI, KIDA, PAH, LASP, BELDATA, Spectr-W3 и т. д. и занимаются их публикацией.

На сегодняшний день назрела необходимость создания информационных ресурсов, содержащих не только параметры спектральных линий, но и ряд других данных, связанных с молекулярной спектроскопией. Кроме этого, требуется расширение набора метаданных, используемых в банках данных HITRAN и GEISA. Сейчас очевидно, что для коллективной работы с данными в информационной вычислительной системе необходимо предоставить пользователю возможность самостоятельного формирования структуры массивов спектральных данных и их наполнения конкретными данными, проведения на их основе расчетов и сравнения результатов с наборами экспериментальных данных.

Как и в иных предметных областях, метаданные в молекулярной спектроскопии облегчают решение задач классификации, интеграции, поиска и сравнения информационных ресурсов. В настоящее время схемы метаданных информационных ресурсов по спектроскопии молекул только начинают разрабатываться. В первую очередь стоит отметить появление схемы XSAMS [73, 74], описывающей структурные метаданные (интенсионал) в атомной и молекулярной спектроскопии.

Заключение

Библиотеки на всех своих стадиях существования выполняли некоторые функции обеспечения двух этапов цикла знаний: хранение и извлечение знаний. Со временем библиотечное дело стало создаваться на основе научного подхода и библиотековедение выделилось в самостоятельную логическую теорию. С появлением современного оборудования и информационных технологий горизонты библиотечного дела существенно раздвинулись. Это ясно из того, что электронные библиотеки предоставляют читателям не только единицы хранения (книги, журналы, …), но и их части (главы, параграфы, статьи, …), дополненные всеми преимуществами, обеспечиваемыми сетью интернет. Создание, практические повсеместно, электронных каталогов в обычных библиотеках и объединение их с каталогами электронных библиотек существенно облегчило пользователям доступ и расширило выбор доступных информационных ресурсов.

Появившиеся стандарты для описания информационных ресурсов в сети интернет [16, 55, 56, 59, 63] со временем должны существенно изменить электронные библиотеки. Одной из задач, которую можно решить с их помощью является задача описания экземпляров хранения и их частей таким образом, чтобы можно было автоматически формировать системы библиотечных электронных каталогов с той степенью детализация, которая требуется потребителям (читаталям и программным агентам).

Электронные библиотеки во многом подобны информационным системам с трехслойной архитектурой. В слое данных библиотек находятся слабоструктурированные или неструктурированные данные и связанные с ними приложения, обеспечивающие доставку и представление данных. Этот слой тесно связан с информационным слоем, в который входят ресурсы, характеризующие свойства, определяемыми стандартами (RUSMark, USMark и т.д.). Наконец, библиотечные каталоги, обеспечивающие поиск ресурсов, представляют собой таксономии: структуры, используемые в базах знаний.

В библиотечном деле задача автоматического формирования системы каталогов во многом связана со стандартами, которые существенно ограничивают описание содержания ресурса и препятствуют автоматизации построения каталогов с требуемой пользователю детализацией. В абстрактной постановке эта задача (для информационных ресурсов, содержащих информацию из произвольных предметных областей) вряд ли будет решена.

При создании нами информационной системы по количественной спектроскопии первый этап состоял в сборе научных статей, относящихся к предметной области и с учетом ограничений, следующих из описательной и формальной информационной модели предметной области. Он закончился созданием электронной библиотеки опубликованных статей. На втором этапе в рамках выбранных моделей предметной области из статей были извлечены факты, связанные концептами, отношениями и ограничениями с количественной спектроскопией. Созданные модели позволили, с одной стороны, детализовать значения некоторых свойств библиотечных стандартов, а с другой стороны, ввести свойства, относящиеся к конкретной предметной области. В результате с каждой статьей нашей библиотеки связан источник информации, содержащий детальный набор свойств ресурса в части описания предметной области. Формирование источника информации в рамках онтологического подхода позволило создать программное обеспечение для автоматического построения таксономии классов, содержащих те или иные ресурсы, и, в зависимости от значений их свойства, попадающих в те или иные классы (каталоги).

Статья посвящена описанию основных понятий, применяемых авторами при создании базы знаний об информационных ресурсах молекулярной спектроскопии. В данной работе даны определения понятий, относящихся к описанию научной информационно-вычислительной системы, информационных ресурсов и онтологиям Гуарино. Приведен краткий обзор существующих информационных систем по молекулярной спектроскопии.

Литература

1. Hill C. The `Case-By-Case' schema for molecular states in XSAMS – v0.2. / Hill C., Tennyson J., Duberne M.-L., Roueff E. [Электронный ресурс] – Режим доступа: http://www.vamdc.org/documents/cbc_v0.2.pdf.

2. Rothman L.S. The HITRAN 2008 molecular spectroscopic database/ Rothman L.S., Gordon I.E., Barbe A. et al. // J. Quant. Spectrosc. Radiat. Transfer. 2009. V. 110. No 9. P. 533-572.

3. Jacquinet-Husson N. The GEISA spectroscopic database: Current and future archive for Earth and planetary atmosphere studies / Jacquinet-Husson N., Scott N.A., Chedin A. et al. // J. Quant. Spectrosc. Radiat. Transfer. 2008. V. 109. No 6. P. 1043-1059.

4. Войцеховская О.К. Информационная система по спектроскопии высокого разрешения / Войцеховская О.К., Розина А.В., Трифонова Н.Н. – Новосибирск: Наука, 1988. –150 c.

5. Alesso H.P. Thinking on the Web: Berners-Lee, Godel, and Turing / Alesso H.P., Smith C.F. – Hoboken: John Wiley & Sons, 2006. – 261 p.

6. Бабиков Ю.Л. Интернет коллекция по молекулярной спектроскопии / Бабиков Ю.Л., Barb A., Головко А.Ф., Михайленко С.М., Тютерев В.Г. // Труды 3-ей Всерос. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». 11 – 13 сентября 2001. Петрозаводск: Изд-во КарНЦ РАН, 2001. С. 183-187.

7. De Roure D. Research agenda for the Semantic Grid: A future e-Science infrastructure / De Roure D., Jennings N., Shadbolt N. // Technical report UKeS-2002-02, UK e-Science Technical Report Series, National e-Science Centre, Edinburgh, UK. [Электронный ресурс] – Режим доступа: http://www.semanticgrid.org/v1.9/semgrid.pdf. – 78 p.

8. Fazliev A. Computed knowledge base for description of information resources of water spectroscopy / Fazliev A., Privezentsev A., Tsarkov D., Tennyson J. // Proc. of the 7th Int. Workshop on OWL: Experiences and Directions (OWLED 2010), San Francisco, California, USA, June 21 – 22, 2010. Edited by Evren Sirin, Kendall Clark, CEUR-WS Proc. Vol-614 [Электронный ресурс]. – Режим доступа: http://www.webont.org/owled/2010/.

9. Berners-Lee T. The Semantic Web / Berners-Lee T., Hendler J., Lassila O. // Scientific American. 2001. No 284. P. 34-43.

0. Walton C. Agency and the Semantic Web / Walton C. – New York: Oxford University Press, 2007. – 249 p.

11. Rodriguez M.A. Using RDF to model the structure and process of systems / Rodriguez M.A., Watkins J.H., Bollen J., Gershenson C.О. // Int. Conf. on Complex Systems. Boston, October 2007. LA-UR-07-5720. 8 p.

12. Semantic web activity. – Home Page, World Wide Web Consortium. 2001 (Eng). – URL: http://www.w3.org/2001/sw/.

13. XML activity. – Home Page. World Wide Web Consortium. 1996 [Электронный ресурс] – Режим доступа: http://www.w3.org/XML/.

14. Passin T.B. Explorer’s Guide to the Semantic Web / Passin T.B. – Greenwich: Manning, 2004. 281 p.

15. Resource Description Framework (RDF): Concepts and Abstract Syntax // W3C Recommendation, edited by G. Klyne, <

J. Carroll. 2004 [Электронный ресурс] – Режим доступа: http://www.w3.org/TR/rdf-concepts/.

16. OWL Web Ontology Language Overview // W3C Recommendation, edited by D.L. McGuinness, F. van Harmelen. 2004 [Электронный ресурс] – Режим доступа: http://www.w3.org/TR/owl-features/.W3C Recommendation.

17. Masolo C. WonderWeb Deliverable D18. Ontology Library (final). 2003 / Masolo C., Borgo S., Gangemi A., Guarino N., Oltramari A. // IST Project 2001-33052 WonderWeb: Ontology Infrastructure for the Semantic Web [Электронный ресурс] – Режим доступа: http://wonderweb.semanticweb.org/deliverables/ documents/D18.pdf. – 349 p.

18. Артемьева И.Л. Концепция оболочки для разработки решателей задач на основе моделей онтологий / Артемьева И. Л., Крылов Д.А. // Искусственный интеллект. 2005. № 3. С. 109-116.

19. Артемьева И.Л. Спецификации задач в терминах онтологии химии и методы их решения / Артемьева И.Л., Рештаненко Н.В. – Владивосток: ИАПУ ДВО РАН, 2006. 36 с.

20. Родимова О.Б. Онтология по молекулярной спектроскопии атмосферных газов / Родимова О.Б., Творогов С.Д., Фазлиев А.З. // Труды 5-ой Всерос. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL’2003). СПб, 29 – 31 октября 2003. СПб: Изд-во СПбГУ, 2003. С. 211-215.

21. Oberle D. Semantic management of middleware – Berlin: Springer, 2006. 268 p.

22. Загорулько Ю.А. Технология построения онтологий для порталов знаний по гуманитарным наукам / Загорулько Ю.А., Боровикова О.И. // Труды Всерос. конф. с международным участием «Знания – Онтологии – Теория». Новосибирск, 14 – 16 сентября 2007. Т. 1. Новосибирск: Омега Принт, 2007. С. 191-200.

23. Пальчунов Д.E. Виртуальный каталог / Пальчунов Д.E., Сидорова E.С. // Труды Всерос. конф. с международным участием «Знания – Онтологии – Теория». Новосибирск, 14 – 16 сентября 2007. Т. 1. Новосибирск: Омега Принт, 2007. С. 166-175.

24. Handbook on Ontologies, 2nd ed., edited by S. Staab, R. Studer. – Springer, 2009. 811 p.

25. Mikhailenko S.M. The dataBank of ozone spectroscopy on WEB (S&MPO) / Mikhailenko S.M., Babikov B.L., Tyuterev V.G., Barbe A. // Computational Technologies. 2002. V. 7. P. 64-70.

26. Sowa J.F. Knowledge representation: logical, philosophical and computational foundations / Sowa J.F. – Pacific Grove, CA: Brooks Cole, 2000. 594 p.

27. Ontologies for software engineering and software technology, edited by C. Calero, F. Ruiz, M. Piattini. – Berlin: Springer-Verlag, 2006. 339 p.

28. Borst W.N. Construction of engineering ontologies for knowledge sharing and reuse / Borst W.N. // CTIT Ph. D. Thesis Series No 97-14, Universiteit Twente. Enschede, 1997. 243 p.

29. Chandrasekaran B. What are ontologies, and why do we need them? / Chandrasekaran B., Josephson J.R., Benjamins V.R. // IEEE Intelligent Systems. 1999. V. 14. No 1. P. 20-26.

30. Devedzic V. Semantic Web and education. – New York: Springer, 2006. 353 p. 31. Gruber T.R. Toward principles for the design of ontologies used for knowledge sharing / Gruber T.R. // Human-Computer Studies. 1993. No 43. P. 907-928.

32. Guarino N. Formal ontology in information systems / Guarino N. // Proc. of Conf. on Formal Ontology in Information Systems (FOIS'98). –Trento, 6 – 8 June 1998. Amsterdam: IOS Press, 1998. P. 3-15.

33. Guarino N. Ontologies and knowledge bases: towards a terminological clarification. Towards very large knowledge bases / Guarino N., Giaretta P. // Knowledge Building and Knowledge Sharing, edited by N. Mars. Amsterdam: IOS Press, 1995. P. 25-32.

34. McGuinness D.L. Ontologies come of age. Spinning the Semantic Web / McGuinness D.L. // Bringing the World Wide Web to Its Full Potential, edited by D. Fensel, J. Hendler, H. Lieberman, W. Wahlster. – Boston: MIT Press, 2002. P. 171-194.

35. Тузовский А.Ф. Онтолого-семантические модели в корпоративных системах управления знаниями: дис. ... докт. техн. наук. Томск, 2007. 376 с.

36. Studer R. Knowledge engineering: principles and methods / Studer R., Benjamins R., Fensel D. // Data and Knowledge Engineering. 1998. V. 25. No 1-2. P. 161-197.

37. Uschold M. Ontologies: principles, methods and applications / Uschold M., Gruninger M. // Knowledge Engineering Review. 1996. V. 11. No 2. P. 93-113.

38. Гаврилова Т.А. Базы знаний логических систем / Гаврилова Т.А., Хорошевский В.Ф. – СПб.: Питер, 2000. 384 с.

39. Genesereth M.R. Logical foundation of artificial intelligence / Genesereth M.R., Nilsson N.J. – San Francisco: Morgan Kaufmann, 1987. 405 p.

40. Гаврилова Т.А. Формирование прикладных онтологий / Гаврилова Т.А. // Десятая национальная конф. по искусственному интеллекту с международным участием КИИ-2006: Труды конференции. – Обнинск, 25 – 28 сентября 2006. Т. 1. М.: Физматлит, 2006. 7 с.

41. Cycorp Inc. – Home Page, 2007 [Электронный ресурс]. – Режим доступа: http://www.cyc.com/.

42. Descriptive ontology for linguistic and cognitive engineering (DOLCE). – Laboratory for Applied Ontology. 2007 [Электронный ресурс]. – Режим доступа: http://www.loa-cnr.it/DOLCE.html.

43. Standard Upper Ontology Working Group (SUO WG). – Home Page, 2007 [Электронный ресурс]. – Режим доступа: http://suo.ieee.org/.

44. Suggested Upper Merged Ontology (SUMO). – IEEE Systems GmbH & Co. KG. 2007 [Электронный ресурс]. – Режим доступа: http://www.ontologyportal.org/.

45. Gomez-Perez A. Ontological engineering with examples from the areas of knowledge management / Gomez-Perez A., Fernandez-Lopez M., Corcho O. // e-Commerce and the Semantic Web. – London: Springer-Verlag, 2004. 403 p.

46. Mizogushi R. Ontological engineering: foundation of the next generation knowledge processing / Mizogushi R. // Proc. of First Asia Pacific Conf. Web Intelligence Research and Development (WI2001). Lecture Notes in Artificial Intelligence (LNAI2198). – Berlin: Springer-Verlag, 2001. P. 44-57.

47. Ontologies for software engineering and software technology, edited by Calero C., Ruiz F., Piattini M. – Berlin: Springer-Verlag, 2006. 339 p.

48. Davies J. Semantic Web technologies trends and research in ontology-based systems / Davies J., Studer R., Warren P. – Chichester: John Wiley & Sons, 2006. 312 p.

49. Su X. Using a semiotic framework for a comparative study of ontology languages and tools / Su X., Ilebrekke L. // Information Modeling Methods and Methodologies, edited by Krogstie J., Halpin T., Siau K. – Hershey: Idea Group, 2005. P. 278-299.

50. Lenat D.B. Building large knowledge-based systems: representation and inference in the Cyc project / Lenat D.B., Guha R.V. – Boston: Addison-Wesley, 1989. – 372 p.

51. Genesereth M.R. Knowledge Interchange Format, Version 3.0 Reference Manual 1992 / Genesereth M.R., Fikes R.E. // Technical report Logic-92-1, Computer Science Department, Stanford University [Электронный ресурс]. – Режим доступа: http://www-ksl.stanford.edu/knowledge-sharing/papers/kif.tex.

52. Gruber T.R. A translation approach to portable ontology specifications / Gruber T.R. // Knowledge Acquisition. 1993. V. 5. No 2. P. 199-220.

53. MacGregor R. Inside the LOOM classifier / MacGregor R. // ACM SIGART Bulletin. 1991. V. 2. No 3. P. 88-92.

54. Luke S. Web agents that work / Luke S., Hendler J. // IEEE MultiMedia. 1997. V. 4. No 3. P. 76-80.

55. Resource Description Framework (RDF) Model and Syntax Specification // W3C Recommendation, edited by Lassila O., Swick R.R., 1999 [Электронный ресурс]. – Режим доступа: http://www.w3.org/TR/1999/REC-rdf-syntax-19990222/.

56. RDF Vocabulary Description Language 1.0: RDF Schema // W3C Recommendation, edited by Brickley D., Guha R.V. [Электронный ресурс] – Режим доступа: http://www.w3.org/TR/rdf-schema/.

57. Horrocks I. A denotational semantics for OIL-Lite and standard 2000 / Horrocks I. // Technical Report. Department of Computer Science. University of Manchester, UK [Электронный ресурс]. – Режим доступа: http://www.cs.man.ac.uk/~horrocks/OIL/Semantics/.

58. Harmelen F. van. Reference description of the DAML+OIL (March 2001) Ontology Markup Language 2001 / Harmelen F. van, Patel-Schneider P. F., Horrocks I. // Technical Report. Defense Advanced Research Projects Agency (DARPA) [Электронный ресурс] – Режим доступа: http://www.daml.org/2001/03/reference.html.

59. OWL 2 Web Ontology Language Direct Semantics // W3C Recommendation 27 October 2009 [Электронный ресурс]. – Режим доступа: http://www.w3.org/TR/2009/REC-owl2-direct-semantics-20091027.

60. Gregor Sh. The struggle towards an understanding of theory in information systems / Gregor Sh. // Information systems foundations: constructing and criticising, edited by Hart D., Gregor Sh. – Canberra: ANUE Press, 2005. P. 3-11.

61. Information systems: the state of the field, edited by King J.L., Lyytinen K. – Chichester: John Wiley & Sons, 2006. 362 p.

62. Васильев И.А. Методы и инструментальные средства построения семантических Web-порталов: дис. ... канд. техн. наук, Томск, 2005. 190 с.

63. Resource Description Framework (RDF) Model and Syntax Specification // W3C Recommendation, edited by Lassila O., Swick R.R., 1999 [Электронный ресурс] – Режим доступа: http://www.w3.org/TR/1999/REC-rdf-syntax-19990222/.

64. Когаловский М. Р. Перспективные технологии информационных систем / Когаловский М. Р. – М.: ДМК Пресс; М.: Компания АйТи, 2003. 288 с.

65. Stuckenschmidt H. Information sharing on the Semantic Web / Stuckenschmidt H., Harmelen F. van. – Berlin: Springer, 2005. 276 p.

66. Kashyap V. Semantic heterogeneity in global information systems: The role of metadata, context and ontologies / Kashyap V., Sheth A. // Cooperative Information Systems, edited by Papazoglou M.P, Schlageter G. – San Diego: Academic Press, 1997. P. 139-178.

67. Dublin Core Metadata Initiative (DCMI). – Home Page. Dublin Core Metadata Initiative, 1995 [Электронный ресурс] – Режим доступа: http://www.dublincore.org/.

68. Хохлов Ю.Е. Обзор форматов метаданных / Хохлов Ю.Е., Арнаутов С.А. // Электронные библиотеки. – М.: Институт развития информационного общества, 2003. [Электронный ресурс]. – Режим доступа: http://www.elbib.ru/.

69. Фазлиев А.З. Развитие информационных систем в ИОА СО РАН / Фазлиев А.З. // Оптика атмосферы и океана. 2009. Т. 22, № 10ю С. 988-992.

70. Тютерев В.Г. Глобальные вариационные и эффективные методы расчетов положений и интенсивностей спектральных линий трехатомных молекул: некоторые тенденции и особенности нового поколения спектроскопических информационных систем / Тютерев В.Г. // Оптика атмосф. и океана. 2003. Т. 16. № 3. С. 245-255.

71. Bykov A.D. Distributed information system on molecular spectroscopy / Bykov A.D., Fazliev A.Z., Kozodoev A.V. et al. // Proc. of SPIE, 15th Symposium on High-Resolution Molecular Spectroscopy. 2006. V. 6580. P. 65800W. 12 p.

72. Dubernet M.L. Virtual atomic and molecular data centre / Dubernet M.L., Boudon V., Culhane J.L. et al. // J. Quant. Spectros. Rad. Transfer. 2010. V. 111. P. 2151-2159.

73. XSAMS: XML Schema for Atomic, Molecular and Solid Data. Version 0.1, editors Dubernet M.L., Humbert D., Ralchenko Yu., September 4, 2009 [Электронный ресурс]. – Режим доступа: http://www-amdis.iaea.org/xsams/docu/v0.1.pdf.

74. VAMDC-XSAMS Reference Guide, editors Doronin M., Dubernet M.L., 2011 [Электронный ресурс]. – Режим доступа: http://www.vamdc.org/documents/vamdc-xsams-guide_v0.2.pdf.

75. Зиновьев А.А. Основы логической теории знаний. – М.: Наука, 1967. 260 с.

Об авторах

Привезенцев Алексей Иванович - к.т.н., научный сотрудник Центра интегрированных информационных систем Института оптики атмосферы им. В.Зуева СО РАН, E-mail: remake@iao.ru;

remake@iao.ru

Фазлиев Александр Зарипович - к.ф.-м.н., заведующий Центром интегрированных информационных систем Института оптики атмосферы им. В.Зуева СО РАН

faz@iao.ru


Последнее обновление страницы было произведено: 2012-02-16

Все предложения и пожелания по содержанию и структуре портала направляйте по адресу rdlp@iis.ru