РОССИЙСКИЙ НАУЧНЫЙ ЭЛЕКТРОННЫЙ ЖУРНАЛ Электронные библиотеки
2009 - Том 12 - Выпуск 2

О практическом опыте использования лингвистического обеспечения в корпоративных проектах

Н.В. Соколова

 

Процесс гармонизации и согласованного использования ЛО различными библиотеками получил новый виток развития в конце 90-х годов, в пору формирования региональных библиотечных консорциумов. Важнейшими условиями объединения библиотечных ресурсов в едином информационном пространстве стали принципы открытости и распределенности:

  • ресурсы не копируются в единое хранилище, а могут размещаться в электронных каталогах на серверах различных библиотек
  • взаимодействие между различными серверами происходит на основе открытых стандартов (форматов и протоколов)
  • библиотека может использовать любую автоматизированную систему, однако АБИС, возможно, совместно с дополнительными программными компонентами должна обеспечить взаимодействие в соответствии с выбранными стандартами.

Приоритетом на первых шагах становления консорциумов стала разработка методики формирования корпоративного каталога. Впервые в России был применен международный стандарт – протокол Z39.50 для обеспечения функций по ведению корпоративного каталога. В то время протокол, являющийся стандартом de facto для корпоративных библиотечных проектов многих стран мира, в России был практически не известен в библиотечных кругах. В качестве формата был выбран формат RUSMARC, в те годы тоже только создаваемый.

В рамках разработки технологии формирования корпоративного каталога одним из приоритетных моментов стало определение обязательных полей, присутствующих в библиографических записях всех электронных каталогов библиотек, входящих в консорциум. Это необходимо для повышения качества поиска в распределенном информационном массиве. Именно на этом этапе впервые остро встал вопрос о гармонизации ЛО для консорциума.

Рассмотрим этот вопрос на опыте консорциума RUSLANet, который был организован в 1996 году и объединял на первых порах 4 вузовских библиотек Санкт-Петербурга. В консорциуме было реализовано оригинальное программно-техническое решение по созданию корпоративного каталога. Для деятельности по проекту были созданы несколько рабочих групп, одной из них стала рабочая группа по каталогизации. Изначально поставив перед собой задачу гармонизации правил создания библиографических записей для получения консолидированной записи, через некоторое время группа пришла к решению, что внедрить согласованные правила в различных по целевой аудитории библиотеках в течение короткого времени не представляется возможным. Основными причинами были признаны следующие:

  • различные традиции/привычки в каталогизации каждой библиотеки
  • ограничения, накладываемые используемой АБИС.

После констатации этого факта координационный совет консорциума начал поиск других путей решения по гармонизации ЛО. Одним из апробированных вариантов стал механизм автоматизированного слияния записей в сводном каталоге. При этом сведения из полей, касающихся ЛО, объединялись в консолидированной записи по согласованному алгоритму. Подробная информация о предложенном решении были представлена на конференции «Крым-2000», а также семинаре по проекту Copeter в 2002 году (http://copeter.ruslan.ru/rus/doc.php). Был разработан оригинальный механизм формирования ключей дублетности для выявления схожих записей, созданных в среде различных АБИС. Также было разработано ПО для слияния «на лету» записей и представления их через интернет в корпоративном электронном каталоге. Однако после более продолжительного испытания данного механизма он был отвергнут, поскольку не удавались преодолеть уровня погрешности в 3-4%, связанного с орфографическими ошибками, допускаемыми каталогизаторами и библиографами. На больших информационных массивах количество некорректных записей становилось недопустимым.

Тогда было применено другое решение, переносящее нагрузку на ПО, выполняющее поиск по электронным каталогам. Была создана единая поисковая точка «Тематика», через которую могли использоваться индексы, связанные с ключевыми словами, предметными рубриками и пр. При этом библиотека могла не менять своих традиций в каталогизации. Это решение показало свою жизнеспособность, поскольку устраивало все библиотеки-участницы, особенно на первых этапах объединения. Конечно, при таком подходе уровень шума при поиске будет выше, чем при единых правилах использования лингвистического аппарата. Однако на том этапе развития, видимо, это был единственный практически реализуемый вариант.

Этот же опыт был использован и при формировании портала АРБИКОН (http://www.arbicon.ru). Напомним, что все электронные каталоги библиотек должны соответствовать единому корпоративному профилю АРБИКОН. В начале 2000-х АРБИКОНом была организована Рабочая группа по ЛО, в которую вошли самые представительные научные школы, самые известные специалисты в данной области (РГБ, РНБ, РКП, ГПНТБ России и т.д.). Результирующий отчет содержал скорее общенаучные, чем практические рекомендации. Стало ясно, что решение требует времени, а также консолидации усилий всех заинтересованных сторон. Положительным моментом обсуждения стало выявление того факта, что многие библиотеки, получившие опыт корпоративного сотрудничества, стали осознавать необходимость использования единого ЛО, выражали готовность выполнения дополнительной работы для заполнения дополнительных, общих для всех полей по единой методике. Это существенно отличалось от ситуации нескольких лет давности, когда библиотеки в основном доказывали, чье же ЛО совершеннее…

Соответственно, не отказываясь от задачи гармонизации ЛО в качестве перспективной, АРБИКОН стал накапливать опыт создания и применения единого ЛО на кластеризованных ресурсах. Важным примером стало создание горизонтальных порталов. Примечателен в этом плане медицинский портал, в котором объединены ресурсы только медицинских библиотек, использующих общий тезаурус Mesh. На портале возможен не только поиск ресурсов, но и, например, расширение поискового запроса за счет перехода на более высокий уровень в иерархической структуре тезауруса.

Другим примером является Сводный каталог периодики библиотек России, поддержанный Министерством культуры РФ. В его состав входит база данных аналитических записей журнальных статей из примерно 1300 российских журналов. С 2008 года записи формируются в формате RUSMARC. Разработано мощное методическое обеспечение, включающее методику формирования и правила использования единого ЛО. В проекте используется собственная методика индексирования ключевыми словами. В проекте используется собственный рубрикатор, ориентированный на раскрытие содержания журнальных статей.

На наш взгляд, исходя из накопленного опыта по разработке и применению корпоративного ЛО, общее решение должно включать следующие необходимые моменты.

Должны формироваться единые источники национального уровня для использования их в библиотеках для обеспечения «видимости» их ресурсов в едином информационном пространстве страны. Желательно придание этим источниками статуса государственного публичного ресурса, что сделает их доступным для библиотек различных отраслей и различных регионов. Источники должны быть представлены в национальном формате. Должна быть обеспечена доступность вариативного использования этих источников по наиболее распространенным в стране протоколам для библиотечных систем, в режимах он-лайн и офф-лайн.

Целесообразна адаптация авторитетных источников ЛО для обеспечения их массового применения в библиотеках различного масштаба.

Результирующая структура применяемого ЛО должна быть иерархической. Обязательный (верхний) уровень иерархии гарантирует «видимость» ресурса по согласованным правилам единого (возможно, не очень сложного) ЛО. На следующем уровне размещаются более сложные специализированные источники ЛО. Библиотека может применять произвольное их количество в зависимости от того, в каком количестве тематических информационных пространств она хочет эффективно представлять свои ресурсы. На следующем уровне библиотека может еще дополнительно использовать свое собственное ЛО, привычное именно ее пользователям.

Естественно. что предлагаемое решение может осуществляться поэтапно. Данный подход дает гибкость для вхождения библиотеки любого региона и любой ведомственной подчиненности. Этот же подход может быть применен при объединении информационных массивов различных учреждений культуры. Принципиальная его применимость была продемонстрирована при объединении ресурсов ВИНИТИ, учреждений Академии наук России, отчетов по НИР ряда министерств, библиотечных электронных каталогов, музейных каталогов, полнотекстовых электронных коллекций в едином информационном пространстве, имеющим единый поисковый интерфейс.

Об авторах

Соколова Наталия Викторовна - директор Института корпоративных библиотечно-информационных систем Санкт-Петербургского государственного политехнического университета


Последнее обновление страницы было произведено: 2011-03-29

Все предложения и пожелания по содержанию и структуре портала направляйте по адресу rdlp@iis.ru