РОССИЙСКИЙ НАУЧНЫЙ ЭЛЕКТРОННЫЙ ЖУРНАЛ Электронные библиотеки
2005 - Том 8 - Выпуск 2

Метаданные описания коллекции периодической печати

А.Г. Абросимов
Научная библиотека им. Н.И. Лобачевского Казанского государственного университета


Статья посвящена проблеме формирования метаданных коллекции периодической печати 19 – начала 20 веков, создаваемой в Научной библиотеке Казанского государственного университета (НБ КГУ) при поддержке Российского гуманитарного научного фонда (проект № 04-01-12032в).

Собрание местной периодической печати НБ КГУ является одним из самых полных, в нее входят практически все газеты, издававшиеся в Казани в 19 веке, цензорские экземпляры газет, в которых сохранились первые редактуры произведений А.М. Горького, В.Г. Короленко, Н.Г. Гарина-Михайловского и других. Собрание периодической печати активно используются при научных изысканиях. При таком интенсивном использовании часть коллекции пришла в негодность и не выдается читателям. Кроме того, сказывается естественное старение и разрушение бумаги. Таким образом, существует реальная угроза потери части коллекции, которая, как исторический источник, имеет не только национальное, но и международное значение.

В связи с вышеизложенным, приоритетным направлением в создании электронной библиотеки КГУ (ЭБ КГУ) является создание коллекции электронных документов на основе собрания местной периодической печати конца XIX – начала XX вв.


Коллекции являются наиболее распространенной формой организации информационных ресурсов в электронной библиотеке (ЭБ). В общем случае, коллекция представляет собой систематизированную совокупность электронных документов (ЭД), объединенных по какому-либо критерию принадлежности, например, по общности содержания, источников, назначения, по кругу пользователей, способу доступа и т.д. [1], и имеет следующую структуру:

  • Разделы коллекции;
  • Электронные документы.

Разделы коллекции в общем случае не обязательно должны быть явно выражены. Например, если при создании коллекции научных изданий используется один из классификационных языков (ББК или УДК), логическим разделом коллекции будет являться группа ЭД, объединенная единым классификационным шифром. Описание раздела коллекции не требуется, так как оно заложено в классификационном языке.

При создании коллекции периодической печати, помимо формирования логических разделов, естественным является введение явных разделов – групп ЭД отдельного издания.

С функциональной точки зрения информационные ресурсы коллекции подразделяются на данные (электронные документы) и метаданные. Метаданные – это специально подготовленные, машиночитаемые, структурированные сведения о ресурсе, представляющие свойства, которые имеет ресурс, услуги, которые предоставляет ресурс [1]

Метаданные можно рассматривать как набор утверждений о свойствах характеризуемого ресурса, представляющих собой тройку: ресурс, именованное свойство и его значение. Под свойством следует понимать некий аспект, характеристику, атрибут или отношение, используемое для описания ресурса. Каждое свойство имеет свой специфический смысл, допустимые значения, тип ресурсов, к которым оно может быть применено, а также отношения с другими свойствами.

Система метаданных является центральным логическим компонентом любой коллекции ЭД. Подобно традиционному библиотечному каталогу она организует совокупность электронных информационных ресурсов коллекции.

Метаданные коллекции описывают свойства ЭД, разделов и самой коллекции в целом. Метаданные должны описывать структуру коллекции, определять состав коллекции, обеспечивать корректную интерпретацию и обработку представленных в ней электронных документов.

Соответственно на основе системы метаданных строятся основные технологические процессы, а именно:

  • поиск и навигация в информационном пространстве коллекции;
  • ввод и изъятие ЭД, организация их хранения;
  • управление правами доступа к ЭД, включая защиту авторских прав и т.д.

Метаданные коллекции также должны описывать структурные свойства ЭД (типы, связи), форматы их представления, место размещения, управление доступом и т.п. Вместе с тем метаданные должны описывать и семантические свойства ЭД – содержание ресурсов, сведения об авторах, о классификационной системе коллекции и т.п.

В соответствии с этим мы считаем возможным выделить следующие группы метаданных:

  1. метаданные структуры коллекции;
  2. метаданные общего описания коллекции, разделов и ЭД;
  3. метаданные для организации поиска.

Группы пересекающиеся, так как одна и та же информация может, например, использоваться и для описания структуры и использоваться для поиска ЭД.

Метаданные структуры коллекции указывают, какие издания входят в коллекцию, описывают связи между разделами и собственно ЭД, связи между ЭД и т.д.

Метаданные общего описания коллекции, разделов и ЭД содержат данные информативного характера, вероятность использования которых для организации поиска мала. Их цель – дать подробную информацию об издании, например, о его истории, лицах с ним связанных и т.д.

Метаданные для организации поиска должны обеспечивать удобные для пользователя средства доступа к ЭД с использованием вербальных и классификационных языковых средств.

Структура метаданных описания коллекции периодической печати 19 – начала 20 веков, создаваемой в НБ КГУ, следующая:

  • Метаданные описания коллекции;
  • Метаданные описания явного раздела – конкретного издания;
  • Метаданные описания ЭД – отдельной статьи, газетной рубрики.

1. Описание коллекции содержит:

  • описание структуры коллекции (в том числе ссылки на разделы коллекции);
  • количественные характеристики (количество разделов, номеров изданий и т.д.);
  • общая информация о коллекции;
  • подборка статей о коллекции.

2. Описание раздела содержит информацию о конкретном издании:

  • количественные характеристики – количество номеров, статей, временной охват;
  • общая информация об издании – блок интеллектуальной ответственности (издатель, редактор и т.д.), блок выпускных данных (издательство, типография и т.д.), история издания и т.д.;
  • характеристики издания – тип, формат, количество страниц, тираж и т.д.;
  • структура издания;
  • подборка статей об издании.

3. Описание электронного документа.

Для коллекции периодических изданий минимальной единицей является статья или газетная рубрика, в случае, когда раздел газеты не имеет названия или слишком мелкий для описания. Таким образом, описание ЭД – статьи или газетной рубрики – содержит следующие сведения:

  • автор, название;
  • описание рубрики;
  • идентификатор ЭД – URL ЭД;
  • характеристики ЭД – тип, формат, язык и т.д.

Моделью описания метаданных является система RDF (Resource Description Framework), созданная международной организацией W3C (World Wide Web Consortium). Смысл RDF заключается в том, чтобы предложить простую и универсальную модель для выражения синтаксиса метаданных [4].

Метаданные могут быть встроены в электронный документ или могут храниться и обновляться независимо от него. Второй подход более универсален, потому что в этом случае метаданные могут быть созданы для любого ресурса. В нашей ситуации такой подход является единственно возможным. Метаданных хранятся отдельно от ресурса в XML-документе, что позволяет максимально использовать возможности модели RDF и обеспечивается свободный обмен информацией.

Для того чтобы придать смысл модели данных, необходимо воспользоваться словарями, которые задаются при помощи дополнительной технологии – RDF Schema [3]. Под словарем следует понимать совокупность ресурсов, использующихся для описания свойств других ресурсов и ограничений, налагаемых на их значения или наборы допустимых значений.

При разработке RDF Schema для описания коллекции, разделов коллекции и ЭД, были определены допустимые наборы типов изданий, газетных рубрик и других параметров, смысл которых можно выявить при анализе изданий.

В настоящий момент наиболее распространенными форматами метаданных являются форматы семейства MARC и Dublin Core, причем можно констатировать следующее: в сентябре 2001 г. набор метаданных Dublin Core утвержден в США Американским институтом национальных стандартов как стандарт Z39.85. В том же году формат Dublin Core рекомендован и принят как государственный стандарт для онлайн - ресурсов в Австралии, Канаде, Дании, Финляндии, Ирландии и Великобритании [2]. К сожалению, для описания коллекции периодической печати ни один из перечисленных форматов полностью не подходит.

Форматы семейства MARC, более конкретно формат RUSMARC, предназначены в первую очередь для создания традиционного библиографического описания, в нем сложно описывать, например, историю конкретной газеты, список ее издателей, типографий, где она издавалась, и т.д.

Формат Dublin Core предназначен для описания ЭД и, что не мало важно, очень прост в использовании. Его основные преимущества для описания ЭД, по сравнению с форматами семейства MARC [5]:

  • набор основных семантических элементов компактен и в то же время позволяет задавать практически все требуемые атрибуты;
  • семантика каждого элемента может быть уточнена с помощью квалификаторов, как стандартных, известных и понятных всем, так и специально разработанных для точной спецификации семантического смысла определенного атрибута;
  • в стандарте заложена возможность использования различных семантических схем, словарей и т. п.
  • определен механизм, позволяющий извлечь информацию из описания, использующего нестандартные расширения пространства имен.

Но описание самой коллекции и ее разделов, не являющимися электронными документами, в Dublin Core не реально.

Тим Бернерс-Ли отмечает [6]: «метаданные — это машиночитаемая информация относительно ресурсов web в Интернете. Слово машиночитаемая является ключевым. Разработчики программного обеспечения могут использовать эту информацию и сделать нашу жизнь легче...». Это определение указывает на одно из важнейших свойств метаданных – использование их в качестве для программ поиска ЭД, что составляет одну из важнейших задач, решаемых при создании коллекции.

В связи с вышеизложенным было принято решение разрабатывать свой формат метаданных, используя при описании конкретных ЭД формат Dublin Core. Так, в описании коллекции и разделов коллекции формат Dublin Core используется при описании статей о коллекции и конкретных изданий, которые представлены в виде ЭД.

При формировании описания ЭД – статьи или газетной рубрики – также использовался формат Dublin Core с уточняющими квалификаторами. Так, например, источник – поле Source – содержит номер газеты, дату выхода номера и номер страницы, на которой расположена статья. Для организации поиска по этим элементам удобнее ввести соответствующие подполя в поле Source. Аналогично, поле Subject может содержать неформальный список ключевых слов и обязательно содержит описание рубрики, которое естественно выделить в отдельное подполе.

Пример описания статьи

    
                    <?xml version="1.0" encoding="UTF– 8"?>
    		<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22– rdf– syntax– ns#"
    		         xmlns:dc="http://purl.org/dc/elements/1.1/"
    		         xmlns:lsl="http://lsl.ksu.ru/meta/">
    		    <rdf:Description>
    		        <dc:Source>
    		            <lsl:Issue>7</lsl:Issue>
    		            <lsl:Date>22– 01– 1819</lsl:Date>
    		            <lsl:Page>25</lsl:Page>
    		        </dc:Source>
    		        <dc:Creator></dc:Creator>
    		        <dc:Title>Описание торжественного открытия в Цивильске уездного и 
    		приходского училища.</dc:Title>
    		        <dc:Subject>
    		            <lsl:Rubric>Общественная жизнь</lsl:Rubric>
    		            <lsl:subRubric>Гимназии и училища</lsl:subRubric>
    		        </dc:Subject>
    		        <dc:Language>
    		            <lsl:Language>rus</lsl:Language>
    		            <lsl:Grafic>old</lsl:Grafic>
    		        </dc:Language>
    		        <dc:Type>Image</dc:Type>
    		        <dc:Format>Gif</dc:Format>
    		        <dc:Publisher>Научная библиотека КГУ</dc:Publisher>
    		        <dc:Contributor>Лазарева Ю.</dc:Contributor>
    		        <dc:Identifier>\1818\001\001.GIF</dc:Identifier>
    		    </rdf:Description>
    		</rdf:RDF>
    

Заключение

Таким образом, предлагаемая структура коллекции периодической печати 19 – начала 20 веков и система метаданных позволила достаточно полно описать и саму коллекцию, и составляющие ее электронные документы, организовать простую систему поиска документов в условиях, когда сами электронные документы представляют собой только образы исходных изданий.

В настоящий момент рассматривается только часть собрания периодической печати Научной библиотеки КГУ – издания на русском языке. В дальнейшем предполагается распространить предлагаемую методику и на вторую часть собрания – арабографические издания.

Литература

  1. Когаловский М.Р. Научные коллекции информационных ресурсов в электронных библиотеках // Первая Всероссийская научная конференция “Электронные библиотеки: перспективные методы и технологии, электронные коллекции”. Санкт-Петербург, 19-21 октября 1999 г.
  2. Волохин О.М. Технологическая модель построения информационного портала библиотеки с использованием метаданных Dublin Core // Десятая юбилейная Международная конференция «Крым–2003» – «Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества», 2003 г.
  3. Andy Powell: RDF and the Dublin Core. UKOLUG, Manchester Conference Centre, July 1998. http://www.unkoln.ac.uk/metadata/presentations/ukolug98/
  4. GILS — Frequently Asked Questions. http://geolibr.uiggm.nsc.ru/docs/z39.50/gils/gils_faq.htm
  5. А. Н. Бездушный, А. М. Серебряков, А. А.Филиппова, С. Лопатенко Метаданные ИСИР: определение и использование // «Электронные библиотеки», Том 4 - Выпуск 4, 2001 г.
  6. Berners-Lee, Tim. Metadata Architecture. 1998. W3.org./DesignIssues/Metadata

Об авторах

Абросимов Андрей Георгиевич - заместитель директора по информатизации Научной библиотеки им. Н.И. Лобачевского Казанского государственного университета.
E-mail: aga@ksu.ru


©  А.Г. Абросимов, 2005
Последнее обновление страницы было произведено: 2005-09-09

Все предложения и пожелания по содержанию и структуре портала направляйте по адресу rdlp@iis.ru