Настоящий номер журнала «Электронные библиотеки» является второй частью тематического выпуска и включает статьи, подготовленные их авторами на основе материалов, представленных ими в 2020 году на XXII Всероссийской научной конференции «Научный сервис в сети Интернет».

 

Эта конференция была проведена с 21 по 25 сентября 2020 года и традиционно была посвящена направлениям и тенденциям использования интернет-технологий в современных научных исследованиях. Основная цель конференции — предоставить возможность для обсуждения, апробации и обмена мнениями о наиболее значимых результатах, полученных ведущими российскими учеными за последнее время в данной области деятельности. Организатором конференции был Институт прикладной математики им. М.В. Келдыша Российской академии наук. В связи со сложившейся эпидемической обстановкой конференция была проведена в режиме онлайн.

 

Первая часть тематического выпуска размещена в №1 журнала «Электронные библиотеки» за 2021 год, вторая часть – в настоящем номере.

 

М. М. Горбунов-Посадов, А. М. Елизаров

Опубликован: 28.04.2021

Идентификация авторов в рамках предметной области в семантической библиотеке

Ольга Муратовна Атаева, Владимир Алексеевич Серебряков, Наталия Павловна Тучкова
198-217
Аннотация:

Рассмотрены особенности задачи идентификации авторов и определения авторского вклада в публикации в цифровых библиографических коллекциях. Особенности проблемы недостаточной идентификации проявляются в повторах информации, двойниковании, наличии авторов с полностью совпадающими именами, самоцитировании, автоплагиате и собственно плагиате. Предлагается использовать информацию о публикациях, которая уже накоплена в цифровой библиотеке в виде связанных данных предметной области и множества данных тезауруса адресата, как автора и пользователя библиотеки. Эта информация содержит связи, благодаря которым для идентификации авторства можно использовать контексты ключевых слов, множества соавторов и ассоциативные связи терминов в словарях и тезаурусах. Важно, что рассматривается массив научных публикаций, поскольку они имеют сложившуюся традиционную структуру, что позволяет сравнивать фиксированные элементы текста (аннотации, ключевые слова, коды классификаторов и т. д.). Таким образом, даже при полном совпадении имен в публикациях можно ставить вопрос об авторстве, если в цифровой библиотеке публикации соответствуют различным предметным областям. Разрешение таких противоречий осуществляется путем оценки множества связей всех элементов вторичной информации о публикации. Результатом сравнения может быть добавление автора в некоторую предметную область, т. е. расширение тезауруса адресата и персонального тезауруса автора, или появление в библиотеке полных тезок, но из разных областей знаний. Показано, что современные средства анализа данных позволяют оценить вклад автора в публикацию, несмотря на то, что конечно, реальный вклад в научное исследование может оценить только научное сообщество.

Информационная система регистрации результатов интеллектуальной деятельности сотрудников научного учреждения

Светлана Александровна Власова, Николай Евгеньевич Калёнов
218-237
Аннотация:

Представлена разработанная авторами объектно-ориентированная веб-система, предназначенная для формирования метаданных, описывающих результаты научной деятельности сотрудников учреждения (группы учреждений), и предоставления различных справочно-статистических данных о публикациях и докладах, сделанных ими на научных конференциях, симпозиумах, семинарах. Система ориентирована на работу с объектами таких связанных между собой классов, как «автор», «организация», «публикация», «доклад», «мероприятие». Профиль метаданных объектов каждого класса включает атрибуты, необходимые для получение развернутой информации как об отдельном объекте данного класса, так и о группе объектов, связанных заданными значениями атрибутов объектов других классов (например, перечень статей сотрудников заданного подразделения данной организации, опубликованных в заданном журнале за заданный промежуток времени). Отличительной особенностью системы является введенное понятие «эквивалентных» объектов. Эквивалентными считаются объекты, представленные в системе различными метаданными, но относящимися к одной физической сущности. Такими объектами являются «персоны», соответствующие одному автору с различными написаниями фамилии в библиографических описаниях публикаций; организации, имеющие различные варианты названий; статьи, опубликованные без изменений на различных языках. Подробно охарактеризованы возможности системы, ее пользовательский интерфейс, приведены примеры выполнения конкретных запросов.

Алгоритмы формирования метаданных математических ретро-коллекций на основе анализа структурных особенностей документов

Полина Олеговна Гафурова, Александр Михайлович Елизаров, Евгений Константинович Липачёв
238-271
Аннотация:

Представлены решения основных задач, связанных с формированием цифровых математических коллекций из документов, изданных в доцифровой период, – такие коллекции обозначены в работе как ретро-коллекции. Приведены алгоритмы создания метаописания ретро-коллекций, основанные на анализе структуры математических документов и применении программных инструментов выделения метаданных. Дано описание ретро-коллекций, сформированных с помощью разработанных алгоритмов и включенных в состав фабрики метаданных цифровой математической библиотеки Lobachevskii-DML. Указаны схемы формирования метаданных и методы нормализации извлеченных метаданных в соответствии со схемами и требованиями интегрирующих математических библиотек.

Применение машинного обучения к задаче генерации поисковых запросов

Александр Михайлович Гусенков, Алина Рафисовна Ситтикова
272-293
Аннотация:

Исследованы две модификации рекуррентных нейронных сетей: сети с долгой краткосрочной памятью и сети с управляемым рекуррентным блоком с добавлением механизма внимания к обеим сетям, а также модель Transformer в задаче генерации запросов к поисковым системам. В качестве модели Transformer использована модель GPT-2 от OpenAI, которая обучалась на запросах пользователей. Проведен латентно-семантический анализ для определения семантических сходств между корпусом пользовательских запросов и запросов, генерируемых нейронными сетями. Для проведения анализа корпус был переведен в формат bag of words, к нему применена модель TFIDF, проведено сингулярное разложение. Семантическое сходство вычислялось на основе косинусной меры. Также для более полной оценки применимости моделей к задаче был проведен экспертный анализ для оценки связности слов в искусственно созданных запросах.

Принципы формирования и представления междисциплинарных коллекций в цифровом пространстве научных знаний

Сергей Александрович Кириллов, Ирина Николаевна Соболевская, Александр Николаевич Сотников
294-314
Аннотация:

Исследованы вопросы формирования междисциплинарных тематических коллекций в цифровом пространстве научных знаний. Рассмотрены содержание работ по формированию и представлению междисциплинарной коллекции, правила организации и представления междисциплинарных цифровых коллекций в информационной среде электронной библиотеки «Научное наследие России». Отмечено, что организация работ по формированию междисциплинарной коллекции в цифровом пространстве знаний предполагает следующие этапы: определение тематики междисциплинарной коллекции, определение структуры разделов междисциплинарной коллекции, определение источников для представления в междисциплинарной коллекции, диспетчеризацию работ с источниками, формирование метаданных, формирование цифровых копий объектов (включая оцифровку и верстку электронного объекта), размещение созданных цифровых копий на специализированной странице междисциплинарной коллекции. Показаны типы и виды междисциплинарных коллекций. Разработаны основные типы разделов, присутствующих в большинстве междисциплинарных проектов. Отмечено, что информация, представляемая в междисциплинарной коллекции, включает две составляющие – метаданные, описывающие характеристики ресурсов, и собственно цифровые информационные ресурсы, а именно, представленные в цифровой форме объекты библиотечного, музейного и архивного хранения – это печатные и рукописные издания, графика, фото-, аудио-, видео-материалы, музейные предметы. Предложена методика отбора материалов для формирования междисциплинарной коллекции на примере создания коллекции, посвященной нобелевским лауреатам, гражданам России и СССР, а также родившимся на территории России и СССР.

Использование методов тематического анализа в наукометрических системах

Александр Сергеевич Козицын, Сергей Александрович Афонин, Дмитрий Алексеевич Шачнев
315-338
Аннотация:

Во многих современных наукометрических системах и системах цитирования представлены различные механизмы тематического поиска и тематической фильтрации информации. В большинстве случаев для тематического анализа статей и журналов используется полнотекстовый подход, который имеет ряд ограничений. Использование алгоритмов, основанных на анализе графов как автономно, так и совместно с полнотекстовыми алгоритмами, позволяет устранить эти ограничения и улучшить полноту и точность тематического поиска. Алгоритм, разработанный авторами и представленный в этой работе, использует для анализа тематической близости журналов граф соавторства. Алгоритм нечувствителен к языку журнала и подбирает похожие журналы на разных языках, что сложно реализуемо для алгоритмов, основанных на анализе полнотекстовой информации. Апробация алгоритма проводилась в наукометрической системе ИАС ИСТИНА. В интерфейсе, разработанном для этих целей, пользователь может выбрать один близкий ему по тематике журнал, и система автоматически сформирует подборку журналов, которые могут представлять интерес для пользователя как с точки зрения изучения имеющихся в них материалов, так и с точки зрения публикации собственных статей. В перспективе разработанный алгоритм можно адаптировать для поиска похожих по тематике конференций, сборников публикаций и научных проектов. Наличие такого инструмента увеличит публикационную активность молодых сотрудников, повысит цитируемость статей и цитируемость между журналами. Результаты работы алгоритма определения тематической близости между журналами, сборниками, конференциями и научными проектами также могут использоваться для построения правил в моделях разграничения доступа к данным на основе онтологий предметной области.

Исследование контекстов экосистемы «Цифрового туризма»

Ольга Витальевна Кононова, Дмитрий Евгеньевич Прокудин, Елена Николаевна Тупикина
339-370
Аннотация:

Современные информационно-коммуникационные технологии, элементы цифровизации постоянно и стремительно развиваются, что, в свою очередь, оказывает непосредственное влияние на все сферы человеческой деятельности. В свете последних событий, связанных с коллапсом туристического бизнеса из-за COVID-19, большой научный интерес проявляется к сфере услуг, а именно, к сфере «цифрового туризма». Цифровой туризм опирается на широкое внедрение новых технологий, таких как социальные сети и мобильные технологии, умные устройства и датчики для сбора и использования огромного количества данных для создания новых ценностных предложений. В связи с этим авторами поставлена цель – представить обзор литературы по «цифровому туризму» с позиций научного и медиа дискурса. Авторами представлен комплексный науковедческий подход, включающий последовательное выполнение всех этапов обзора от определения терминологического ядра междисциплинарного направления, формирования поисковых запросов, каскадного поиска, подбора и контент-анализа материалов до выявления и экспликация контекстов. Источниками информации для подготовки обзора выступили публикации из академических баз данных: Web of Science, Science-Direct, Scopus, GoogleScholar, eLibrary, Киберленинка, а также материалы и публикации в русскоязычных СМИ – Интегрум.


Полученные результаты будут полезны ученым при определении перспективных направлений исследований в области «цифрового туризма», а также позволят углубить знания о механизмах поиска, сбора и анализа данных и интегрированных и аналитических средах.

Опровержение слуха средствами массовой информации: Математическая модель и численные эксперименты

Александр Петрович Михайлов, Александр Пхоун Чжо Петров
371-386
Аннотация:

Рассмотрен процесс, при котором в социуме распространяется недостоверный слух, которому противодействует вещание средств массовой информации. Недостоверность слуха в данном случае понимается так, что информация СМИ содержит опровержение и тем самым инокулирует индивидов, то есть делает их невосприимчивыми к слуху. В то же время индивиды, успевшие принять слух, перестают доверять средствам массовой информации и тем самым становятся недоступными для переубеждения. Для данного процесса предложена математическая модель в двух вариантах. Вариант с непрерывным временем позволяет выявить некоторые математические свойства модели. Вариант с дискретным временем более удобен для анализа реальных процессов, так как позволяет оценить параметры модели. Для оценки этих параметров использованы данные о рейтингах основных социально-политических программ российских телеканалов. Приведено несколько сценарных расчетов модели с этими параметрами. Основной вывод состоит в том, что если информация, распространяемая средствами массовой информации, не является вирусной, то есть не пересказывается зрителями своим соседям по социуму, то СМИ оказываются не в состоянии противостоять слухам.

Препринт как материал для оверлейного журнала

Татьяна Алексеевна Полилова
387-407
Аннотация:

Движение Открытого доступа имеет давнюю историю. В 2002 г. впервые была озвучена Будапештская инициатива Открытого доступа. Однако до сих пор проблема Открытого доступа к научным публикациям не получила своего полного и окончательного решения. В 2018 г. в Европейском союзе был принят План S, который предписывает к 2020 г. сделать открытый доступ реальностью. План S подчеркивает важность самоархивирования статей и роль архивов (серверов) препринтов для размещения научных результатов. Отмечается, что архивы препринтов обладают большим потенциалом для редакционно-издательских инноваций. Научные журналы ограниченного для читателя доступа, функционирующие на коммерческой основе, не сдают своих позиций. Но и здесь мы видим определенные подвижки. Журналы стали менее жестко формулировать свою политику по отношению к препринтам и постпринтам статей.


Все больше зарубежных ученых становятся приверженцами движения «Справедливый открытый доступ», которое предлагает новое организационное решение. Журнал должен иметь учредителя в лице научной организации или некоммерческого фонда, которые нанимают группу исполнителей на оказание редакционно-издательских услуг. Редакторы и издатели не должны иметь своих коммерческих интересов. Финансирование научного журнала должно осуществляться за счет общего вклада организаций.


В статье рассматривается современный тип онлайнового научного журнала – оверлейный журнал. Себестоимость выпуска оверлейного журнала настолько низкая, что журнал легко может реализовать схему «бесплатно для автора, бесплатно для читателя». Оверлейный журнал опирается на общедоступные архивы (серверы) препринтов. Оверлейный онлайновый журнал проводит рецензирование статьи, поступившей из архива, в случае принятия статьи к публикации размещает на своем сайте ее метаданные, а сама скорректированная статья (ее полный текст) вновь размещается в архиве. Такая схема работы не перегружает функциональность архива, но при этом позволяет снизить финансовую нагрузку на оверлейный журнал.

Раскадровка как одно из представлений сценарного прототипа компьютерных игр

Влада Владимировна Кугуракова, Гульнара Фаритовна Сахибгареева, Олег Александрович Бедрин
408-444
Аннотация:

Работа посвящена изучению и усовершенствованию процесса проектирования, разработки и тестирования повествования видеоигр. Изучены существующие практики написания и поддержки в актуальном состоянии сценария интерактивных произведений. Сформулированы определение сценарного прототипа, а также требования к его форме. Выдвинута идея об эффективности автоматизации создания сценарного прототипа в виде инструмента-генератора. Составлено видение такого инструмента. Представлено влияние такого инструмента на порядок разработки. Реализован компонент инструмента и проведен эксперимент, который доказывает эффективность на таком примере, как генерация раскадровки из текста. Сформулированы планы на будущую разработку.