РОССИЙСКИЙ НАУЧНЫЙ ЭЛЕКТРОННЫЙ ЖУРНАЛ Электронные библиотеки
2009 - Том 12 - Выпуск 4

Современные информационные технологии и письменное наследие

В.А. Баранов, И.С. Маргулис

Аннотация

В статье излагаются результаты исследований групп специалистов, включающих авторов, целью которых является изучение и сохранение письменного наследия. Выявляются проблемы, касающиеся согласования форматов (в частности, кодировок), и предлагаются пути решения, требующие консолидированного подхода специалистов. Статья обобщает предварительные результаты работы созданного с данной целью сообщества и организованного им цикла конференций.

Ключевые слова: сохранение письменного наследия, согласование форматов, электронное хранение текстов, электронное представление текстов, лингвистические исследования, применение информационных технологий.

1. Текущие цели и задачи направления

Целями направления в настоящее время является:

  • консолидация исследователей письменного наследия и специалистов по информационным технологиям,
  • обмен информацией об использующихся методиках и имеющихся разработках в области электронного хранения, обработки и исследования письменных источников донационального периода,
  • согласование технологий и стандартов для обеспечения миграции электронных ресурсов,
  • демонстрация наиболее перспективных программных, программно-инструментальных средств и информационно-поисковых систем обработки древних текстов.

Основной, наиболее актуальной научной задачей для направления являлась выработка единых подходов к вопросу о согласовании форматов электронного хранения и представления текстов, имеющих нестандартную графику, орфографию, состав и структуру. При этом основной организационной задачей для заинтересованных специалистов являлось создание ассоциации «Письменное наследие».

С данной целью к участию в работе и в конференциях были приглашены специалисты по созданию электронных библиотек и коллекций, специалисты по оцифровке, распознаванию, разметке, форматам и кодировкам, создатели полнотекстовых лингвистических ресурсов, разработчики программного обеспечения и баз данных в области языка и истории, сотрудники ведущих библиотек и исследователи средневекового письменного наследия.

2. Работа цикла конференций

В августе 2008 года Казанским государственным университетом совместно с Ижевским и Удмуртским государственными университетами и Институтом проблем информатики Академии наук Республики Татарстан была проведена междисциплинарная конференция «Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам» (El'Manuscript-2008), второй раз объединившая лингвистов, историков и специалистов по информационным технологиям в области создания электронных библиотек, полнотекстовых баз данных и средств обработки лингвистического материала. Следующая конференция будет проведена в У ф е, 25 - 28  о к т я б р я,  2 0 1 0  г о д а. Каждая конференция включает в себя школы, которые проводятся также и отдельно, чаще конференций, и позволяют приобрести навыки использования созданного программного обеспечения, что особенно актуально для молодых исследователей, ознакомиться с форматами данных и обменяться опытом между разработчиками.

Конференцию El'Manuscript-2008 открыл доклад профессора университета Стратклайда (Шотландия) и Института математики и информатики Болгарской АН Милены Д о б р е в о й, в котором на примерах европейских проектов CASPAR [1], DigitalPreservationEurope [2], Planets [3] и SHAMAN [4] был представлен обзор основных направлений работ в области долгосрочного хранения научных и культурных ценностей в виде электронных ресурсов.

В совместном докладе профессора Института Славистики Венского университета Хайнца  М и к л а с а  и сотрудника того же университета Мелани Г а у показана методика расширения и улучшения использования не разрушающих объекты технических средств, предназначенных для изучения поврежденных письменных памятников [5]. Чтобы получить максимально качественную основу для компьютерной обработки материала, венский коллектив пользуется не только цифровой съемкой с высоким разрешением, но и мультиспектральной съемкой в нормальном освещении и в ультрафиолетовом излучении. С помощью разработанных алгоритмов полученные изображения регистрируются и накладываются одно на другое; затем трудно доступные для расшифровки изображения выявляются фальшивыми красками и весь материал сегментируется в строки и буквы для анализа почерков, компоновки и других операций. Метод рентгено-флуоресценции используется для исследования письменного материала и, в первую очередь, для определения чернил и пигментов красок.

Доклад старшего научного сотрудника отдела корпусной лингвистики и лингвистической поэтики Института русского языка им. В.В. Виноградова РАН С.О. С а в ч у к  был посвящён создающемуся совместно с казанским коллективом корпусу русскоязычных текстов XVIII века [6], известного в истории русского литературного языка как век «словесного эксперимента». Работа с корпусом подтверждает имевшееся ранее у ряда лингвистов предположение, что в русской литературе XVIII века имеет место существенное отличие текстов различных третей столетия, и каждая треть XVIII века обладает особой спецификой в русской литературе. Секционные доклады В.Д. С о л о в ь ё в а, Г.А. и  Н.Г. Н и к о л а е в ы х  (КазГУ) также были посвящены компьютерной интерпретации русского словообразования XVIII века и другим аспектам применения информационных технологий в данных исследованиях [7].

Доклад директора Славянской библиотеки Иллинойского университета профессора Миранды Р е м н е к  (США) был посвящён Исторической географической информационной системе (Historical GIS) [8], предназначенной для исторических и лингвистических исследований, в том числе для изучения славянских языков. Эта тема была продолжена в рамках секционных заседаний. На них было представлено несколько разработок в данной области: продемонстрирован инструмент для фундаментальных исследований – лингвогеографическая информационная система «Диалект» (Ижевск) [9,10]; описан способ электронных публикаций комплексов исторических документов со средствами палеографического, текстологического и дипломатического анализа (совместная разработка российских и латвийских специалистов); представлена модель обмена знаниями в системах гуманитарных исследований (Петрозаводск) [11,12].

В рамках рабочих секций читались и активно обсуждались доклады о лингвистических исследованиях с применением информационных технологий по различным вопросам изучения древнейшей и средневековой книжности и письменности, по проблемам исторической грамматики и лексикологии, по вопросам моделирования семантики древнерусского языка, по направлениям прикладных аспектов проблемы омонимии и многозначности, по технологиям поиска в системах описания рукописных материалов, по вопросам структуры и состава метаданных, различных уровней представления данных, создания транскрипций средневековых рукописей и по проблемам согласования различных информационно-поисковых систем. Всего в рамках конференции состоялось девять секционных заседаний: «Гуманитарные исследования как информационная база электронных ресурсов», «Технологии создания электронных полнотекстовых коллекций и библиотек», «Визуализация электронных ресурсов», «Электронные ресурсы как база гуманитарных исследований», «Технологии распознавания текстов и форматы хранения электронных библиотек и полнотекстовых коллекций», «Методы и инструменты для использования электронных коллекций, библиотек, описаний, каталогов и баз данных в учебной, научной и популяризаторской деятельности», «Виды, способы и инструменты разметки. Технологии миграции электронных библиотек и полнотекстовых коллекций», «Электронная лингвография», «Библиотечные и архивные электронные коллекции, базы данных, электронные описания и каталоги».

Секция «Технологии распознавания текстов и форматы хранения электронных библиотек и полнотекстовых коллекций» оказалась наиболее богатой на интересные научно-технические решения, почти каждый доклад привлекал внимание и вызывал активные дискуссии. Возможно, самая оригинальная инновация в области распознавания рукописных средневековых текстов имела место в работе А.В. К у ч у г а н о в а  и П.П. О с к о л к о в а  (Ижевск) «Распознавание старославянских текстов методами, основанными на биоалгоритмах анализа изображений» [13,14]. Ими разработан трёхуровневый анализатор, который успешно протестирован на примере обработки изображений древнерусских уставных и полууставных текстов.

В докладе И.С. М а р г у л и с а  (Казань), посвящённом классификации ошибок распознавания печатных символов русского языка XVIII века [15], было отмечено: основной причиной некорректного распознавания является то, что в отличие от естественного распознавания человеком, известные программные продукты придают равные веса для фрагментов графического объекта, в большей или меньшей степени соответствующих его шаблону. В связи с этим пятно или неровность, часто имеющие место в старинных документах, и покрывающие, как правило, часть символа, оказываются значимым фрагментами, влияющими на распознавание символа. Для ликвидации данного недостатка графические объекты необходимо идентифицировать на основе высокой точности совпадения с шаблоном пусть даже малого фрагмента символа, не учитывая другие фрагменты. Выражаясь в терминологии нейроподобных вычислений, необходимо придавать нулевые весовые коэффициенты для групп пикселей, плохо подходящих для соответствующих фрагментов шаблонов. Данные выводы нашли подтверждение в опыте профессора венского университета Хайнца М и к л а с а. Была отмечена взаимоважность исследований, осуществляемых в рамках данной области, и потребность во взаимной информированности.

На секции «Виды, способы и инструменты разметки. Технологии миграции электронных библиотек и полнотекстовых коллекций» участники обменялись опытом создания средств хранения, обработки и использования электронных библиотек. Сотрудники отдела лингвистического источниковедения ИРЯ РАН описали принципы разработанной ими системы разметки текстов ObjectATE [16,17], использующей объектно-ориентированный подход (реализованную на платформе MS .NET Framework 2.0). А.В. К о в а л е н и н ы м  была представлена Технология смешанного набора [18], применяющаяся в Фонде знаменных песнопений [19] (Новосибирск). Сотрудники ИжГТУ и УдГУ привели примеры использования [20] формата mnsXML для обработки и обмена электронными текстами.

Наиболее активные дискуссии в рамках секции «Технологии распознавания текстов и форматы хранения электронных библиотек и полнотекстовых коллекций» развернулись вокруг обсуждения планов совершенствования славянских диапазонов кодировки Unicode [21] и использования новых технологий в случаях, когда проблемы представления и изучения древнейших и средневековых славянских текстов невозможно решить при помощи данной кодировки. Этому обсуждению способствовали доклады Зорана Костича (Белград), Т.В. Кокориной (ИжГТУ) и А.В. К о в а л е н и н а  (Институт систем информатики СО РАН). Зоран К о с т и ч  представил предложение по стандарту старославянского кириллического письма [22,23,24], а Т.В. К о к о р и н а рассказала о способе кодирования [25,26] (на базе кодово-шрифтовой системы «Манускрипт») одного из славянских алфавитов – глаголицы.

Однако в рамках дискуссии было определено, что предложенное расширение кириллицы, скорее всего, никогда не будет принято консорциумом Unicode полностью: у многих символов недостаточно отчетливо определена особая функциональная нагрузка в графической системе. Другой пример исключения – ситуация с глаголицей. С одной стороны, глаголицу можно считать одной из традиций кириллического письма, поскольку в её составе нет символов, не имеющих простых или комбинированных соответствий в кирилловском алфавите. С другой стороны, между глаголицей и кириллицей больше отличий в стиле и в истории, чем между вариантами других алфавитов. Несмотря на достаточную неопределенность оснований для того, чтобы в рамках прикладных задач считать глаголицу особой графической системой, в кодовой таблице Unicode ей отведен отдельный диапазон. Все это говорит о том, что, несмотря на то, что принципы Unicode, на самом деле, весьма размыты, вероятность того, что предложенные в докладе Зорана К о с т и ч а  дополнения будут приняты консорциумом, мала. В то же время в процессе обсуждения были высказаны предложения о необходимости для обработки электронных транскрипций и визуализации вариативных начертаний согласованно использовать определённую систему меток, а для отображения лигатур – шрифты формата OpenType [27], в которых применяется метод лигатурной подстановки и т.д. Однако этот путь является весьма сложным, ведь даже формат OpenType, существующий более 10 лет, до сих пор не имеет качественной и полной поддержки в распространённых текстовых процессорах. Обсуждение вопросов, поднятых на секции, продолжилось в рамках круглого стола.

Сложившуюся ситуацию и стратегию выхода из этого кризиса лаконично описал А.В. К о в а л е н и н:  ИТ-специалисты, наблюдая неопределенность задачи, не берутся решать ее без необходимой информации от филологов, но сами не решаются ставить задачу филологам на их языке – в терминах фонологии, исторической и сравнительной лингвистики. Специалисты, идущие по пути продвижения отдельных дополнений, не всегда видят проблему в целом и слабо представляют возможные варианты технических решений, как в отношении платформ, на которых строятся корпуса, так и в отношении кодовых решений для конкретной платформы. В результате общая проблема об объединяющей системе представления письменностей (СПП) подменяется частной проблемой создания универсальной шрифтовой кодировки в рамках стандарта Unicode. Такое решение становится не только мало полезным для корпусов на целом ряде платформ, но и несвободным от ранее принятых решений этой частной задачи. Решение проблемы должно идти по пути совместного ее обсуждения лингвистами и программистами.

Результатом междисциплинарного обсуждения должна стать корректная постановка задачи о различении символов при их хранении в корпусе, на решение которой могли бы опираться все технологические платформы.

По завершению конференции представители сообщества (В.А. Б а р а н о в  и Хайнц М и к л а с)  приняли участие в работе съезда славистов в Охриде (10-16 сентября 2008), на котором были представлены несколько предложений по совершенствованию Unicode версии 5.1[28,29]. В результате совещания достигнута договорённость: 1) о совместном тщательном пересмотре инвентаря знаков кириллической части Unicode 5.1 с целью обоснованного добавления необходимых символов; 2) о необходимости обсуждения – уже в рамках комиссии при Международном комитете славистов – перечня знаков, которые требуется ввести в состав кодируемых; 3) о помещении символов, не входящих в стандартные диапазоны Unicode, в зону Private Use Area (PUA), что также ранее предлагалось членами сообщества [30: 3–4]; о размещении этих знаков в таком поддиапазоне PUA, который еще не занят группами, работающими в PUA с другими языками, и предложить всем, кто занимается славянскими текстами использовать эту часть таблицы согласованно. Таким образом планируется рекурсивно решать три различные задачи: 1) и н в е н т а р и з а ц и я  н е о б х о д и м ы х  с у щ н о с т е й; 2) с п о с о б ы  и х  ф и к с а ц и и  в э л е к т р о н н о м  в и д е;  3) с п о с о б ы  и х  о т о б р а ж е н и я,  в  ч а с т н о с т и  –   п р и б л и ж е н н о г о  к  о р и г и н а л у.  Приоритет этих проблем соответствует порядку, в котором они перечислены.

В рамках других секций было продемонстрировано большое количество программно-инструментальных и информационных разработок в гуманитарной области, в частности, представлена электронная библиотека для исследований в области русской лексикологии и лексикографии «Библиотека лексикографа», авторские языковые справочники, приведены результаты исследований различных электронных коллекций, например, коллекции личных дел студентов Казанского университета 1917-1925 гг. Обсуждалось проектирование электронных каталогов, подходы к извлечению статистических данных из электронных библиотек, создание словарных фондов и параллельных корпусов; возможности поисковых машин и результаты и перспективы разработки средств поиска и визуализации данных; возможности использования интернет-ресурсов для создания традиционных учебников; особенности критических изданий средневековых текстов в семантическом и инструментальном аспектах. Несомненно, интересной была тема интернет-музеев и археографического описания рукописей в машиночитаемом формате.

В рамках конференции была проведена демонстрационная сессия, на которой было представлено 9 программных разработок участников конференции. Среди них наибольшее внимание привлекла информационно-аналитическая система (ИАС) «Манускрипт» (manuscripts.ru), созданная ИжГТУ и УдГУ под руководством профессора В.А. Б а р а н о в а). Система содержит коллекции древнейших и средневековых славянских текстов в оригинальной орфографии. Ее отличительной особенностью является наличие многофункциональных запросных форм, которые позволяют пользователю подготовить сложные запросы на основе текстологических, лингвистических и словарных единиц базы данных и получить выборку для последующего анализа. Система снабжена редакторами базы данных и словарей, морфологическим анализатором, предназначенным для анализа, синтеза словоформ и лемматизации текстов, загрузчиком и конвертером транскрипций из формата ASCII в специальный формат mnsXML, шрифтами и другими средствами поддержки и использования системы.

Программно-инструментальные средства, требующие освоения первоначальных навыков работы, были представлены на лекциях и на практических занятиях школы. Слушатели подробно ознакомились с форматом XML-TEI [31] (лектор Лу Бернард (Lou Burnard), ассистенты – Татьяна Т и м ч е н к о, Алексей Л а в р е н т ь е в), с возможностями Национального корпуса русского языка [32] (лекторы С.О. С а в ч у к,
Е.А. Г р и ш и н а) и альтернативными существующим сегодня стандартам системами кодировки, разметки (лектор А.В. Коваленин), обработки и визуализации текстовой информации (лектор В.А. Б а р а н о в, ассистенты – Р.А. А н и к и н а, Т.В. К о к о р и н а, А.А. С о к о л о в а). Всего было проведено 10 лекций и 5 практических занятий.

В течение конференции было проведено четыре круглых стола: Круглый стол «Проблемы открытого доступа к ресурсам Интернета» (ведущие Кевин Хокинс (Kevin Hawkins), И.Х. Галеев); «Качество электронных гуманитарных ресурсов: как совместить технологические ограничения с потребительскими требованиями» (ведущие Милена Д о б р е в а, Миранда Р е м н е к); «Создание электронного стандарта старославянского и глаголического письма: филологические и технические проблемы»
(ведущие Хайнц  М и к л а с, Зоран  К о с т и ч, А.В.  К о в а л е н и н); «Сообщество "Письменное наследие": цели, первоочередные задачи» (ведущие  В.А.  Б а р а н о в,  И.В.  К р а в ц о в,  А.Г.  В а р ф о л о м е е в). Помимо прочих проблем, особый интерес вызвало обсуждение вопроса об открытом доступе к ресурсам Интернета и политике библиотек – поиску компромиссов при контактах с древлехранилищами был посвящён один из круглых столов.

3. Организационная работа по консолидации специалистов

El'Manuscript-2008 явилась второй конференцией серии, начало которой было положено в 2006 году в Ижевске.

Проведению конференции предшествовала тщательная подготовка, включающая совещания в Казани основных организаторов. В организационный и программный комитеты вошли наиболее авторитетные специалисты по лингвистике, информационным технологиям, в области создания, обработки, публикации и использования в гуманитарных исследованиях текстовых электронных ресурсов.

Переговоры с представителями крупнейших библиотек страны, размещение объявлений о проведении конференции на большом количестве информационных веб-ресурсов соответствующей тематики, существенное расширение списка рассылки информационных писем позволили собрать большой круг специалистов, заинтересованных в обсуждении заявленных в программе конференции вопросов и проблем, в нахождении согласованных путей развития и совершенствования созданных и создаваемых электронных описаний и библиотек славянского письменного наследия.

Обсуждение научных проблем, стоящих перед участниками конференции, было начато до открытия мероприятия на сайте конференции и определило ключевые вопросы и направления работы секций, круглых столов, лекций и практических занятий школы. Экспертиза тезисов докладов была проведена рецензентами – членами программного и организационного комитетов. В общей сложности на конференцию было подано более 80 заявок. На их основе была сформирована программа, в которую было включено 70 докладов.

Программа конференции, включающая, помимо секционных и пленарного заседаний, несколько круглых столов и лекционные и практические занятия школы, была составлена таким образом, чтобы обеспечить желающим возможность принять участие во всех заседаниях по заявленным направлениям работы. Последнего удалось достичь за счет ежедневного параллельного проведения трёх разных по тематике секций и занятий трёх разных по направлению школ.

В сборник материалов конференции [33] вошли 66 работ участников (объём сборника – 276 стр.). Электронная версия материалов конференции размещена на сайте конференции [34] и доступна всем желающим. На сайте также размещены не вошедшие в печатный сборник материалы конференции и школы.

Многие исследования, результаты которых были представлены на конференции, поддержаны научными фондами: сборник содержит 37 ссылок и благодарностей, в том числе 3 на гранты Российского фонда фундаментальных исследований (РФФИ), 32 – Российского гуманитарного научного фонда (РГНФ), 1 – American Council of Learned Societies (ACLS) и 1 на грант Президента Российской Федерации. Примерно две трети представленных участниками конференции докладов были подготовлены по итогам работ в области теоретической и прикладной лингвистики (раздел 04 по индексам грантов: филология) и одна треть – в области истории (раздел 01: история). Причиной этого является междисциплинарность прошедшей конференции.

В рамках одного из грантов РГНФ, поддержавшего ряд представленных в сборнике разработок, некоторое количество экземпляров было разослано в крупнейшие библиотеки России и мира.

Поддержку в организации конференции оказали, помимо РФФИ, компания ICL-КПО ВС (корпорация Fujitsu Limited) и ООО «Логические системы» (Logic Systems), что является показателем интереса крупных ИТ-разработчиков к представленным на конференции новейшим российским и зарубежным лингвистическим технологиям.

В период подготовки к проведению конференции был создан портал сообщества «Письменное наследие» (http://textualheritage.org), с помощью которого в настоящее время происходит взаимодействие участников прошедшей конференции и членов сообщества. Организация конференции существенно активизировала развитие портала. В настоящее время он представляет собой живой проект, наиболее активным блоком которого является форум. На нём обсуждаются вопросы миграции лингвистических ресурсов, подготовленных на основе средневековых документов, выработаны формат и требования для электронного журнала сообщества, который открылся на портале, ведётся подготовка к следующей конференции и включённой в неё школе – El'Manuscript-2010.

Между данными мероприятиями, в 2009 году, была проведена отдельная школа для молодых научных сотрудников «Письменное наследие и современные информационные технологии» (El'Manuscript-09-WS), включающая конкурс работ, лучшие из которых были рекомендованы к публикации в ведущих журналах. Принятые 32 работы также доступны на сайте сообщества.

4. География сообщества

Исследование древних, средневековых и современных текстов с помощью компьютерных технологий, создание новых методик и программно-инструментальных средств в настоящее время активно ведётся как в России, так и в странах ближнего и дальнего зарубежья. Обмен имеющейся в коллективах информацией, методиками, технологиями является важным фактором успешного согласования работ, разработки стандартов обмена электронными ресурсами, более активного создания электронных ресурсов и их применения в гуманитарных исследованиях. Именно достижения отечественных специалистов обусловили возможность проведения конференций цикла El'Manuscript в России.

Организация второй конференции цикла El'Manuscript в Казани была закономерна по многим причинам: в стенах Казанского университета зародилась имеющая мировую известность Казанская лингвистическая школа [35], основанная выдающимся лингвистом Бодуэном дэ К у р т е н э; в университете работали те, кто продолжал и развивал идеи школы: В.А. Б о г о р о д и ц к и й, Н.В. К р у ш е в с к и й, В.М. М а р к о в и др.; Казань заслуженно называется центром самой дружелюбной и многонациональной республики.

В конференции приняли участие представители ведущих научных и научно-учебных учреждений России и зарубежных стран, всего более сорока учреждений, ведущих исследования и прикладные работы по тематике конференции. Сто двадцать пять участников конференции представляли девятнадцать городов России: Альметьевск, Воронеж, Екатеринбург, Железнодорожный, Ижевск, Казань, Москва, Мурманск, Набережные Челны, Новосибирск, Омск, Пермь, Петрозаводск, Саранск, Санкт-Петербург, Сыктывкар, Тверь, Улан-Удэ, Уфа – и четырнадцать зарубежных стран: Австрия, Англия, Армения, Белоруссия, Болгария, Казахстан, Латвия, Литва, Сербия, Словакия, США, Узбекистан, Франция, Чехия.

В ходе мероприятия было представлено большое количество проектов по созданию электронных корпусов русской, татарской, казахской, башкирской, бурятской, белорусской, болгарской, литовской, латвийской и европейской письменности, по двустороннему анализу русско-чешской археологической терминологии, русской и татарской паремиографии и др.

Рабочими языками конференции являются русский и английский.

На учредительном собрании сообщества «Письменное наследие» было принято решение проводить конференцию El'Manuscript раз в два года.

В рамках конференции прошло первое заседание сообщества «Письменное наследие». Определены цели и первоочередные задачи. Целями сообщества являются: 1)  поддержка, координация и организация теоретических и прикладных работ, направленных на создание электронных библиотек, коллекций, баз данных и баз знаний рукописных памятников и старопечатных книг; 2)  разработка методик использования информационных ресурсов в гуманитарных исследованиях и в учебном процессе; 3)  поддержка, координация и организация международного сотрудничества в области фундаментальных исследований и современных информационных технологий в гуманитарных областях. «Письменное наследие» создано как открытое междисциплинарное научное сообщество специалистов в области исследования, описания, сохранения, популяризации и публикации рукописных и старопечатных книг средневекового, древнейшего и преднационального периодов.

5. Перспективы и прагматика технологий изучения старинных текстов

В исследованиях, связанных со старинными текстами, можно выделить (не столько по актуальности и числу отдельных задач, сколько по направленности) следующие области:

  • Развитие инструментария
    • Стандартизация (кодировка, форматы)
    • Автоматическая отекстовка (распознавание)
    • Средства хранения, обработки и отображения материалов
    • Содержание электронных библиотек и баз данных
  • Исследование старинных текстов
    • Базовое историческое языкознание
    • Компаративистика
    • Психолингвистика и когнитивистика

Конъюнктура деятельности сообщества позволяет очертить оптимальные пути решения стоящих перед данными направлениями задач, чему посвящён текущий раздел.

Стандартизация и историческое языкознание.

Задачи изучения, непосредственно, старинного языка, в рамках задач, относящихся к общей лингвистике, подразумевающие его фонетико-графический и лексико-грамматический состав, в общем виде не отличаются от задач изучения языка современного. Данные исследования старинных текстов сопровождаются, и будут сопровождаться в дальнейшем, поступательным процессом расширения кодировки.

1) К о д и р о в к а. Задача индексирования, по представлению правления ассоциации, должна решаться путём выявления максимально полного перечня фонетически, фонологически, графически и орфографически значимых графем. Основную сложность для этого представляют непосредственно сбор/поиск редких графем и разделение значимых и незначимых вариантов. Критерии данного разделения вырабатываются совместно.

Полное решение данной задачи в результате обособленного этапа работы невозможно: за базовой частью должен следовать длительный процесс пополнения кодировки по мере обнаружения значимых графем в процессе изучения древнего языка.

2) Ф о р м а т ы. Развитие форматов представляется наиболее целесообразным на базе XML с дальнейшей интеграцией его расширений. При необходимости в них может быть также включено временное, не шрифтовое (то есть не на базе формата OpenType), решение проблемы отображения не индексированных в кодировке лигатур. Преимущества других форматов, таких как инвариантное представление HIP [36], в процессе развития технологий теряют свою актуальность. В настоящее время возможность читать HIP-текст без использования каких?либо специальных программ уже не является кардинальным преимуществом, а все HIP-коды конвертируемы в теги XML, который удобен для машинного использования и программирования, обладая более универсальной объектной моделью. Широкие возможности XML в сочетании с его распространённостью указывают и делают предсказуемым сценарий развития и интеграции форматов представления старинных текстов. Ряд специализированных форматов в дальнейшем должен быть поглощён расширениями (-ем) XML, включая, например, возможности записи старинных нот с подтекстовкой из песнопений. Ряд рекомендаций для создания расширений XML для старинных текстов уже выработан консорциумом TEI (Text Encoding Initiative).

Автоматичекая отекстовка.

Задача приведения старинных текстов из цифровых копий в графическом формате в текстовый формат включает этапы, аналогичные этапам распознавания современных текстов: чистка, оптическое распознавание и постраспознавание. Постраспознавание включает в себя, во-первых, словарное распознавание, то есть проверку отекстованных слов по словарю на базе словоизменительных парадигм и, в лучшем случае – с учётом словообразования (безусловно, с возможностью изменения и пополнения словаря и базы парадигм). Во-вторых, в отличие от известных современных систем отекстовки, посткоррекция должна осуществлять замену специфических последовательностей символов (например, «ійЪ»), имеющих место, например, среди ошибок распознавания старорусских текстов, которым соответствуют корректные последовательности (например, «тЪ»). Большое количество ошибок в распознанных словах (свойственное для отекстовки старинных текстов) затрудняет подбор корректного варианта по словарю (или вынуждено предлагать пользователю на выбор слишком большое количество вариантов) – помощь в таких случаях должна быть оказана заменой специфических последовательностей, которая сократит количество возможных вариантов. Поэтому словарную проверку нельзя считать достаточной, а замену специфических последовательностей – излишней. В-третьих, посткоррекция старинных текстов может осуществлять послоговую проверку (по списку слогов, поскольку он является для языков в достаточной мере ограниченным), которая поможет отличать ранее не встречавшиеся слова и неологизмы (временно отсутствующие в словаре) от ошибок распознавания, и предлагать пользователю, в первую очередь, внести их характеристики в базу.

Указанные этапы посткоррекции могут итеративно повторяться. Например, не опознанная по словоизменительным парадигмам и словообразовательным гипотезам словоформа проверяется, вместе с контекстом, на включение специфических последовательностей символов, которые заменяются корректными, после чего изменённые слова вновь проверяются на соответствие формам, порождаемым словарём. При этом неспецифические для старинного языка последовательности, для которых существует практически безысключительный корректный вариант, можно исправлять автоматически (с возможностью отменить исправление), а спорные варианты предлагать пользователю на выбор.

Все этапы отекстовки для старинного языка представляют собою аналогичные, но усложнённые по сравнению с отекстовкой для современного языка, этапы: чистка вынуждена справляться с большим числом пятен (сводимых к понятию изменения цвета – как правило, затемнений и осветлений различного происхождения, возможных также и в современных книгах), графический этап распознавания вынужден справляться с более сложными шрифтами и искривлениями изображений символов, а постраспознавание – с большим числом ошибок и временно не включённых в базу-словарь единиц. При этом алгоритмы дополнительной обработки, предлагаемые для старинных текстов, применимы также для современных, и наоборот, что соответствует положению, решения в котором вызваны количественным, а не качественным, отличием сложности распознавания. Аналогичные дефекты формы и цвета (пятна, потёртости, выцветание и размытости), сложные шрифты и вариативные творческие лексика и грамматика (схожесть частот последнего для современных и старинных текстов показали исследования С.О. С а в ч у к, Д.В.  С и ч и н а в ы  и  И.С. М а р г у л и с а) иногда имеют место и в современных текстах, за тем исключением, что обычно всё перечисленное не встречается в одном документе одновременно.

Кроме использования нейросетевой терминологии в алгоритмическом распознавании, применение непосредственно нейроалгоритмов представляется возможным лишь после достаточно широкого их внедрения в практику распознавания современных печатных текстов, также нуждающуюся в усовершенствовании. До достижения нейронным подходом достаточной конкурентоспособности на более простых (количественно) задачах, его применение на более сложных не представляется целесообразным, поскольку все причины дефектов отекстовки старинной графики имеют не качественные, а лишь количественные (по величинам выраженности и частоты) отличия от причин дефектов отекстовки современных документов. Таким образом, реализация средств отекстовки старинных документов на базе нейроподобных алгоритмов не представляется целесообразной до достаточного развития данных алгоритмов применительно к современным текстам. Старинные документы могут послужить для развития данных алгоритмов лишь в качестве тестового материала, однако относительно сложного тестового материала достаточно для разработок на допользовательском этапе и среди современных документов.

Средства хранения, обработки (в том числе непосредственно исследования) и отображения материалов.

Задача создания средств работы со старинными текстами по сравнению с остальными перечисленными задачами является технической, производной от задачи стандартизации (и, как все составляющие развития инструментария, является производной от исследовательских потребностей). В качестве состоятельного примера текущих решений данной задачи для старинных русскоязычных документов следует привести созданную коллективом В.А. Б а р а н о в а  информационно-аналитическую систему «Манускрипт» [37], уже обладающую весьма богатым инструментарием, дальнейшее наращивание которого не представляет больших технических проблем, за исключением уже имеющей место низкой скорости. Однако проблема скорости, тем или иным образом, разрешима в достаточно короткий срок – если не алгоритмически и не технически (за счёт программной среды – выбором подходящей СУБД или созданием локальной оффлайн-версии), то, с учётом интенсивности прогресса мощностей вычислительных машин, проблема будет вскоре исчерпана, без активного вмешательства, за счёт аппаратного обеспечения, либо уже может быть исчерпана, например, благодаря использованию в качестве серверов настольных суперкомпьютеров. Принятое системой «Манускрипт» расширение XML соответствует рекомендациям TEI и может, при необходимости, пополняться.

Л о к а л ь н ы е  и  н а с т о л ь н ы е  с р е д с т в а. Кроме удалённых систем на базе СУБД и электронных библиотек, потребность испытывается также в локальных и настольных приложениях для исследований старинных текстов. Их ниша должна быть поддержана, как минимум, соответственно тому, какую роль занимают стандартные локальные и настольные приложения. К примеру, в качестве стандартного текстового процессора по объективным техническим и другим причинам в настоящее время практически повсеместно используется локальное приложение MS Word, и для специалистов по изучению старинных текстов было бы удобно расширение его возможностей в интересующем их направлении. При этом важно, чтобы надстройки не выходили за рамки принятых форматов, сохраняя читабельность для обрабатываемого и создаваемого с их помощью содержания другими популярными средствами (например, OpenOffice). Примером такого средства может послужить комплекс [38-42], созданный И.С. Маргулисом, позволяющий осуществлять поиск с учётом старорусской морфологии и ряд других повседневных действий, необходимых для исследователей старорусских текстов, работающих с MS Word. Таким образом, настольные средства для исследований старинных текстов должны не отставать по функциональности от стандартных современных настольных текстовых редакторов и процессоров и должны поддерживать распространённые стандарты, а в лучшем случае, в целях наибольшего удобства использования, представлять собою лишь компоненты для стандартных настольных средств.

Р а з в и т и е  с п е ц и а л и з и р о в а н н ы х  с и с т е м. Дальнейшее развитие инструментария изучения старинных текстов имеет отношение к удалённым системам (не исключая их локальных компонентов и версий), поскольку они наиболее ресурсоэкономичны для задачи поиска информации в базах (к которой, в том числе, сводятся все операции анализа – непосредственно логические операции в текущих рядовых задачах историко-лингвистических систем не имеют большого количества), а задача поиска на удалённом ресурсе, в отличие от использования удалённых средств для работы с собственным материалом, практически не представляет рисков для личного контента пользователей. Дальнейшее развитие инструментария, в целях решения задач из перечисленных выше исследовательских областей, представляется в интеграции описанных систем с историко-лингвистическими ГИС (геоинформационными системами), то есть в развитии возможностей картирования любых классов данных, а также в использовании мультимедийных компонентов. Примером ГИС может послужить, созданная также коллективом во главе с В.А. Б а р а н о в ы м, лингвогеографическая информационная система «Диалект» [43]. Эффект от данного синтеза (точнее говоря, естественного развития системы) стоит ожидать для информационных лингвистических систем при достаточно больших объёмах контентированного в них материала, что позволит прослеживать пространственно-временную динамику в развитии языков и диалектов и в их взаимодействии, включая все уровни языка, в том числе представленные статистическими данными старинной литературы.

С п е ц и а л и з и р о в а н н ы е  с и с т е м ы  и  п о и с к  в  И н т е р н е т е. Развитие удалённых систем поиска для размещённых в Интернете, в стандартных форматах, старинных текстов также является необходимым, поскольку способно расширить сегодняшние возможности исследователей. Однако вынужденное временное использование данных систем и текстов до контентирования данных текстов в системах, предоставляющих бóльшие возможности, не представляется столь эффективным. Если для последних, многофункциональных, систем (например, юридически вынужденно, но правомочно) тоже использовать понятие индексирования, то столь качественное индексирование, всё равно, сохранит суть контентирования, используя преобразованную копию (с пометкой о произведённой или не произведённой проверке качества оригинала).

Содержание электронных библиотек и баз данных.

В настоящее время наиболее целесообразным является акцент на создании корпусов текстов в старинной орфографии в графическом виде. Создание столь же крупных корпусов в текстовом типе данных, опережая достаточное развитие средств автоматического распознавания старинных текстов, не представляется тактичным. Последовательный подход позволит сохранить старинные тексты, объём которых в библиотеках с годами утрачивается, не теряя человеко-часы на ручную работу по приведению данных в текстовый электронный вид, включая набор и правку плохо распознанных материалов. Даже при интенсивном использовании человеческих ресурсов, привести в достаточно качественный текстовый вид ручным способом хранящиеся в архивах объёмы старинной литературы не является возможным, и такие перспективы появятся лишь следом за прогрессом технологий распознавания. Опыт показывает, что в противном случае в большой доле приведённой в текстовый вид литературы будет иметь место высокий процент не замеченных ошибок, а при надлежащих требованиях к качеству отекстовки время работы существенно возрастёт. Простая оцифровка материалов способна обеспечить их сохранность до того времени, когда отекстовка не будет требовать больших ресурсов.

От сравнительно-исторического языкознания – к общей компаративистике.

Историческая грамматика, пользуясь средствами для обработки больших объёмов данных, должна, совместно со смежными областями, позволить выявить законы развития языка и построить (достроить) за счёт них дерево языков (и проверить существующие гипотезы), что особенно актуально в случаях, когда имеют место затруднения в артефактическом исследовании их истории. Работа в этом направлении ведётся, в частности, В.Д. С о л о в ь ё в ы м [44-58] и нуждается в пополнении используемых данных, вклад в которое должны привнести описанные выше проекты.

Дальнейшая интеграция данных исследований с историческими, социологическими и политологическими компаративными (как диахроническими, так и синхроническими сравнительными и сопоставительными) исследованиями, выявляя корреляции и зависимости, может пролить свет на связь особенностей развития языков с процессами, изучаемыми в рамках данных наук, вплоть до квантитативной точности. В частности, упомянутые выше результаты С.О. С а в ч у к,  Д.В. С и ч и н а в ы  и  И.С. М а р г у л и с а  по ряду параметров демонстрируют количественную схожесть вариативности русского языка XVIII века, как «века словесного эксперимента», и современного русского языка, что в контексте социологии можно рассматривать в качестве одного из квантитативных социолингвистических показателей социальных процессов. Диахронический подход в социолингвистике, подкреплённый достаточно широкими квантитативными данными, способен внести вклад в решение проблемы раскрытия сущностей в рамках межкультурной коммуникации. Кроме того, он необходим для изучения синергизма психологических особенностей (на примере национальных) и внешнего потока заимствований в лингвистике – как процесса в психологической и языковой подсистемах в общественном и индивидуальном развитии.

Диахронические компаративные корпусные исследования позволят определить законы влияния интенсивности межнациональных контактов на языковое заимствование и на стимулирование собственного терминотворчества, и выявить зависимость данных процессов от национальной психологии (включая, в частности, показатели креативных особенностей), развивая, таким образом, семиотическую парадигму. При этом, исследуя, на пример, чередующиеся в истории народа периоды относительно замкнутого и открытого развития, можно ожидать выявления таких закономерностей, как последовательные волны активности заимствований и терминотворчества в периоды интеграции. Данные корпусные исследования могут получить развитие, в частности, на базе сопоставления процессов в русском языке в периоды (социальной, культурной, научной и производственной) интеграции с Западом (XVIII век и настоящее время) и периоды герметичного развития.

Психолингвистика и когнитивистика.

Компаративные исследования исторической лексики позволят выявить закономерности (цикличности и др.) в возникновении, движении и смене (исчезновении) точек терминов и языковых инструментов на семантическом пространстве. Причины же данных закономерностей должны быть найдены в областях психолингвистики и когнитивистики.

Благодаря компаративным исследованиям исторического процесса в языке социолингвистика способна получить новую базу в рамках исследований фоносемантических причин семиотических тенденций в лексике и грамматике. Корреляция этих тенденций (на всех уровнях – как в социумах, так и в субкультурах в рамках, и вне рамок, социумов) одновременно и с исследованными национальными особенностями, и с социальными процессами, позволит выявить между ними закономерности. Данные закономерности, в свою очередь, также позволят проверить фоносемантические гипотезы и, возможно, сформировать нелинейную фоносемантическую парадигму, связанную не только с частотностью минимальных элементов речи, но и со словообразованием. Таким образом, семиотика языков представит собой систему фоносемантических и контаменативных явлений, взаимозависимую с другими социальными явлениями и процессами.

Примечательно, что основа фоносемантики была заложена также в век революции русского языка М.В. Л о м о н о с о в ы м, полагавшим, в частности, (и приводившим в качестве первого, наиболее явного, примера в своей главе «О течении слова» [59: Т.7: с.240-245]), что буквы е, и, ь, ю часто служат фонетическими символами нежности, что в настоящее время получило подтверждение в статистических исследованиях восприятия [460].

Сопоставление тенденций в языках социумов целесообразно начинать, например, с таких родственных, но развивающихся в существенно отличающихся условиях, языков, как русский и сербский, а сопоставление тенденций в языках субкультур – с религиозной и научной субкультур, а также других, по мере оставленного ими в исторической ретроспективе письменного наследия.

В отдалённой перспективе исследование истории языка, как часть квантитативных исследований, предоставит базу для разработки самообучающихся, адаптивных и развивающихся систем языкового интерфейса.

Конъюнктура текущих работ и перспективных задач демонстрирует, что исследование старинных текстов занимает важное место в лингвистике и смежных науках, и со временем приобретёт существенное прикладное значение.

Литература

[1] CASPAR Project – Cultural, Artistic and Scientific knowledge for Preservation, Access and Retrieval // European Commission / Sixth Framework Programme (FP6). – (Engl.). – Европейский Союз, 2006. – Режим доступа: свободный, URL: http://www.casparpreserves.eu.

[2] DigitalPreservationEurope Project (DPE) // University of Glasgow. – (Engl.). – Шотландия, 2006. – Режим доступа: свободный, URL: http://www.digitalpreservationeurope.eu.

[3] Planets – Preservation and Long-term Access through NETworked Services // Open Planets Foundation (OPF). – (Engl.). – Великобритания, 2007. – Режим доступа: свободный, URL: http://www.planets-project.eu.

[4] SHAMAN Project – Sustaining Heritage Access through Multivalent ArchiviNg // European Commission / Seventh Framework Programme (FP7). – (Engl.). – Европейский Союз, 2008. – Режим доступа: свободный, URL: http://shaman-ip.eu.

[5] Homepage Instituts fur Slawistik der Universitat Wien. – (Dt.). – Режим доступа: свободный, URL: http://slawistik.univie.ac.at.

[6] XVIII век в составе НКРЯ // Портал Национального корпуса русского языка. – (Рус.). – Казань, Москва, 2006-2009. – Режим доступа: свободный, URL: http://search.ruscorpora.ru/search.xml?text=meta&mode=main&sort=gr_tagging%20&lang=ru&doc_g_created=1700&doc_l_created=1799.

[7] Портал XVIII.su : Автоматическая обработка русскоязычных текстов XVIII XIX веков в старинной орфографии. – (Рус.). – Казань, 2008- 2009. – Режим доступа: свободный, URL: http://XVIII.su.

[8] Electronic Cultural Atlas Initiative (ECAI) // University of California. – (Engl.). – США – Режим доступа: свободный, URL: http://www.ecai.org.

[9] Жданова Е.А., Соломенников И.С. Лингвогеографическая информационная система «Диалект» и лингвистические исследования // Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам [Текст] : материалы Междунар. науч. конф. (Казань, 26-30 августа 2008 г.) – (Рус., Engl.). – Казань : Изд-во Казан. гос. ун-та, 2008. – С. 105-107.

[10] Жданова Е.А., Соломенников И.С. Лингвогеографическая информационная система «Диалект» и лингвистические исследования / Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам // Портал сообщества «Письменное наследие». – (Рус., Engl.). – Ижевск, Казань, 2008. – Режим доступа: свободный, URL: http://textualheritage.org/content/view/58.

[11] Кравцов И.В., Багимова К.А. Модель обмена знаниями в системах гуманитарных исследований // Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам [Текст] : материалы Междунар. науч. конф. (Казань, 26-30 августа 2008 г.) – (Рус., Engl.). – Казань : Изд-во Казан. гос. ун та, 2008. – С. 164-168.

[12] Кравцов И.В., Багимова К.А. Модель обмена знаниями в системах гуманитарных исследований / Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам // Портал сообщества «Письменное наследие». – (Рус., Engl.). – Ижевск, Казань, 2008. – Режим доступа: свободный, URL: http://textualheritage.org/content/view/162.

[13] Кучуганов А.В., Осколков П.П. Распознавание старославянских текстов методами, основанными на биоалгоритмах анализа изображений // Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам [Текст] : материалы Междунар. науч. конф. (Казань, 26-30 августа 2008 г.) – (Рус., Engl.). – Казань : Изд-во Казан. гос. ун-та, 2008. – С. 169-173.

[14] Кучуганов А.В., Осколков П.П. Распознавание старославянских текстов методами, основанными на биоалгоритмах анализа изображений / Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам // Портал сообщества «Письменное наследие». – (Рус., Engl.). – Ижевск, Казань, 2008. – Режим доступа: свободный, URL: http://textualheritage.org/content/view/97.

[15] Соловьёв В.Д., Маргулис И.С. Классификация ошибок распознавания символов печатных изданий в старинной орфографии // Вестник Тамбовского государственного технического университета. – (Рус.). – Тамбов: Изд-во ТГТУ, 2007 – Ч.13. – №3. – С.715-727.

[16] Зобнин А.И., Маркелова А.В. Универсальная система разметки текста ObjectATE // Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам [Текст] : материалы Междунар. науч. конф. (Казань, 26-30 августа 2008 г.) – (Рус., Engl.). – Казань : Изд во Казан. гос. ун-та, 2008. – С. 114-117.

[17] Зобнин А.И., Маркелова А.В.. Универсальная система разметки текста ObjectATE / Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам // Портал сообщества «Письменное наследие». – (Рус., Engl.). – Ижевск, Казань, 2008. – Режим доступа: свободный, URL: http://textualheritage.org/content/view/170.

[18] Коваленин А.В. Идеология и техника разметки в Технологии смешанного набора // Фонд знаменных песнопений (Знаменный фонд). – (Рус., Engl.). – Новосибирск, 2008. – 3 С. – Режим доступа: свободный, URL: http://znamen.ru/txt/zf08razm.pdf.

[19] Нечипоренко Е.Ю., Коваленин А.В. Фонд знаменных песнопений (Знаменный фонд) : Электронный корпус древнерусских певческих рукописей. – (Рус.). – Режим доступа: свободный, URL: http://znamen.ru.

[20] Произведения М. В. Ломоносова. Интернет-версия электронного издания // ИАС «Манускрипт» / Казанский госуниверситет, Ижевский технический университет, Удмуртский госуниверситет. – (Рус., Engl.). – Ижевск, Казань, 2007-2009. – Режим доступа: свободный, URL: http://manuscripts.ru/mns/portal.main?p1=31.

[21] The Unicode Consortium. Official Website of a consortium Unicode. – (Engl.). – Режим доступа: свободный, расширенный при регистрации, URL: http://www.unicode.org.

[22] «Cirilica.net» : Портал проекта по шрифтовому дизайну для старославянского языка // Зоран Костич. – (Срп.). – Белград, 2008. – Режим доступа: свободный, URL: http://www.cirilica.net.

[23] Зоран Костић, Виктор Савић. Стандард старословенског ћириличког писма // Портал сообщества «Письменное наследие». – (Срп.). – Ижевск, Казань, 2008. – 21 С. – Режим доступа: свободный, URL: http://textualheritage.org/component/option,com_docman/task,doc_details/gid,189.

[24] Heinz Miklas, Зоран Костић // Портал сообщества «Письменное наследие». – (Срп., Рус., Engl.). – Ижевск, Казань, 2008. – 1 С. – Режим доступа: свободный, URL: http://textualheritage.org/component/option,com_docman/task,doc_details/gid,188.

[25] Кокорина Т.В. Глаголица в кодово-шрифтовой системе «Манускрипт» // Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам [Текст] : материалы Междунар. науч. конф. (Казань, 26-30 августа 2008 г.) – (Рус., Engl.). – Казань : Изд-во Казан. гос. ун-та, 2008. – С. 148-151.

[26] Кокорина Т.В. Глаголица в кодово-шрифтовой системе «Манускрипт» / Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам // Портал сообщества «Письменное наследие». – (Рус., Engl.). – Ижевск, Казань, 2008. – Режим доступа: свободный, URL: http://textualheritage.org/content/view/158.

[27] OpenType specification // Microsoft Corporation Web site. – (Engl.). – Режим доступа: свободный, URL: http://www.microsoft.com/typography/OTSpec.

[28] Хаjнц Миклас, Виктор А. Баранов, Зоран Костић, Виктор Савић. Стандард старословенског ћириличког писма. – (Срп.). – Београд: ИЦА, 2008. – 24 С.

[29] Хаjнц Миклас, Виктор А. Баранов, Зоран Костић, Виктор Савић. Стандард старословенског ћириличког писма // Cirilica.net : портал проекта по шрифтовому дизайну для старославянского языка. – (Срп.). – Београд: ИЦА, 2008. – 24 С. – Режим доступа: свободный, URL: http://www.cirilica.net/documents/1.5%20Standard%20OCS.pdf.

[30] Маргулис, И.С., Предложения по совершенствованию славянских алфавитов в Unicode // Портал УдГУ / Сайт проекта «Манускрипт»: Раздел «Документы». – (Рус.). – Ижевск, 2007. – 30 с. – Режим доступа: свободный, URL: http://manuscripts.ru/mns/docs/Margulis.pdf.

[31] TEI: consortium Text Encoding Initiative. Official Website. – (Engl.). – Режим доступа: свободный, URL: http://www.tei-c.org.

[32] Национальный корпус русского языка (НКРЯ). – (Рус.). – Москва: ИРЯ РАН, 2003-2008. – Режим доступа: свободный, URL: http://ruscorpora.ru.

[33] Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам [Текст] : материалы Междунар. науч. конф. (Казань, 26-30 августа 2008 г.) / отв. ред. В.Д.Соловьёв, В.А.Баранов. – (Рус., Engl.). – Казань : Изд-во Казан. гос. ун-та, 2008. – 276 с.

[34] Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам / отв. ред. В.Д. Соловьёв, В.А. Баранов // Портал сообщества «Письменное наследие». – (Рус., Engl.). – Ижевск, Казань, 2008. – Режим доступа: свободный, URL: http://textualheritage.org/index.php?option=com_content&task=blogcategory&id=24&Itemid=68].

[35] Казанская лингвистическая школа. Официальный сайт // Портал Казанского (Приволжского) федерального университета. – (Рус.). – Режим доступа: свободный, URL: http://www.kls.ksu.ru.

[36] Михаил Гринчук. Описание формата HIP // Проект по сотрудничеству в области разработки методов электронного представления текстов «Печатный двор». – (Рус.). – 2003. – Режим доступа: свободный, URL: http://www.pechatnyj-dvor.su/docs.html.

[37] Информационно-аналитическая система «Манускрипт» // Портал «Манускрипт». – Ижевск: Лаборатория по автоматизации филологических работ УдГУ, 2004-2008; Кафедра лингвистики ИжГТУ, 2005-2008. – Режим доступа: свободный, URL: http://manuscripts.ru.

[38] Соловьёв В.Д., Маргулис И.С. Возможности программного комплекса для работы со словарями прошлых веков // Сб. тр. и мат. Междунар. научн. конф. «В. А. Богородицкий: научное наследие и современное языковедение» (4-7 мая 2007 г., Казань). – (Рус.). – Казань: Изд-во Казан. гос. ун-та им. В.И.Ульянова-Ленина, 2007. – Т.1. – С.180-182.

[39] Соловьёв В.Д., Маргулис И.С. Возможности программного комплекса для работы со словарями прошлых веков // Сайт Казанской лингвистической школы / История языка и диалектология. – (Рус.). – Режим доступа: свободный [проверено 11 февраля 2011], URL: http://www.kls.ksu.ru/boduen/bogorart.php?id=4&num=41000000.

[40] Соловьёв В.Д., Маргулис И.С. Организация поиска в текстовых коллекциях на русском языке XVIII века // Интернет-математика 2007 : сб. работ участников конкурса науч. проектов по информ. поиску / [отв. ред. П.И.Браславский]. – (Рус.). – Екатеринбург: Изд-во Урал. ун-та, 2007. – С.191-199.

[41] Соловьёв В.Д., Маргулис И.С. Организация поиска в текстовых коллекциях на русском языке XVIII века // Публикации корпоративного сайта ООО «Яндекс» на портале компании «Яндекс». – Москва: ООО «Яндекс», 2007. – (Рус.). – Режим доступа: свободный, URL: http://download.yandex.ru/IMAT2007/solovyev.pdf.

[42] Соловьёв В.Д., Маргулис И.С. Организация поиска в текстовых коллекциях на русском языке XVIII века // Электронный архив Уральского государственного университета. – (Рус.). – Екатеринбург, 2007. – Режим доступа: свободный, URL: http://elar.usu.ru/bitstream/1234.56789/1349.

[43] Лингвогеографическая информационная система «Диалект» // Портал «Манускрипт». – Ижевск: Кафедра лингвистики ИжГТУ, 2005-2008; Лаборатория по автоматизации филологических работ УдГУ, 2005-2008. – Режим доступа: свободный, URL: http://www.manuscripts.ru/dl.

[44] Solovyev V., Bajrasheva V. Modelling the Evolution of Language Features. // Proc. of the intern. conf. «Cognitive and Functional Perspectives on Dynamic Tendencies in Languages». – (Engl.). – Tartu: University of Tartu, 2008. – P. 198 199.

[45] Solovyev V., Bajrasheva V. Modelling the Evolution of Language Features. // Portal of University of Tartu / Official Website of Faculty of Philosophy. – (Engl.). – Tartu: University of Tartu, 2008. – P. 202-203 – Режим доступа: свободный, URL: http://www.fl.ut.ee/orb.aw/class=file/action=preview/id=390367.pdf.

[46] Соловьёв В.Д., Фасхутдинов Р.Ф. Выбор метрики для филогенетических алгоритмов // Сб. трудов Научной сессии МИФИ. – (Рус.). – М.: МИФИ, 2008. – Т. 10. – С. 175.

[47] Соловьёв В.Д., Фасхутдинов Р.Ф. Выбор метрики для филогенетических алгоритмов // Официальный сайт Научной библиотеки «МИФИ» / Портал Национального исследовательского ядерного университета «МИФИ». – (Рус.). – М.: МИФИ, 2008. – С. 175. – Режим доступа: свободный, URL: http://library.mephi.ru/data/scientific-sessions/2008/t10/5-1-4.doc.

[48] Solovyev V., Wichmann S. Studying global language dynamics through large typological lexical databases // Proc. of the intern. conf. «Cognitive and Functional Perspectives on Dynamic Tendencies in Languages». – (Engl.). – Tartu: University of Tartu, 2008. – P.193.

[49] Solovyev V., Wichmann S. Studying global language dynamics through large typological lexical databases // Portal of University of Tartu / Official Website of Faculty of Philosophy. – (Engl.). – Tartu: University of Tartu, 2008. – P. 197. – Режим доступа: свободный, URL: http://www.fl.ut.ee/orb.aw/class=file/action=preview/id=390367/7.+Theme_Sessions+lk+196-293(2).pdf.

[50] Valery Solovyev. Is grammochronology possible? // The Swadesh Centenary Conference / Portal of Max-Planck-Gesellschaft. – (Engl.). – Munchen: Official Website of Max Planck Institute for Evolutionary Antropology, 2009. – 2 P. – Режим доступа: свободный, URL: http://www.eva.mpg.de/lingua/conference/09_SwadeshCentenary/pdf/abstracts/Valery_Solovyev.pdf.

[51] Polyakov V., Solovyev V., Wichmann S., Belyaev O. Using WALS and Jazyki mira. Linguistic Typology. – (Engl.). – 13. 2009. – P. 135-165.

[52] Polyakov V., Solovyev V., Wichmann S., Belyaev O. Using WALS and Jazyki mira. Linguistic Typology // Portal of Max-Planck-Gesellschaft. – (Engl.). – Munchen: Official Website of Max Planck Institute for Evolutionary Antropology, 2009. – 48 P. – Режим доступа: свободный, URL: http://email.eva.mpg.de/~wichmann/Comparing%20WALS%20and%20Jazyki%20Mira%20Final.pdf.

[53] Valery D. Solovyev. Large typological databases: The prospects of usage // Official Website of The X-th International Conference Cognitive Modeling in Linguistics (CML-2008). – (Engl.). – Kazan: MS PowerPoint Presentation, 2008. – 69 slides. – Режим доступа: свободный, URL http://www.cml2008.narod.ru/Solovyev_Presentation.zip.

[54] Соловьев В.Д. Дискретные модели языковой эволюции // Труды межд. конф. «Дискретная математика и ее приложения». – (Рус.). – М.: МГУ, 2007.

[55] Соловьёв В.Д. Проблемы и методы лингвистической филогении // Учён. зап. Казан. ун-та / Сер. гуманит. Науки. – (Рус.). – 2009. – Т. 151, кн. 6. – С. 8-21.

[56] Соловьёв В.Д. Аннотация статьи «Проблемы и методы лингвистической филогении» // Портал Казанского (Приволжского) федерального университета / Официальный сайт журнала «Учёные записки Казанского университета». – (Рус.). – 2009. – 2 С. – Режим доступа: свободный , http://www.ksu.ru/uz/2009/151_6_gum_1.pdf.

[57] Соловьев В.Д., Поляков В.Н. Подходы к классификации языков: анализ положения дел // Труды школы по компьютерной и когнитивной лингвистике. – (Рус.). – Казань: Отечество. 2007.

[58] Соловьев В.Д. Задачи и методы лингвистической филогеномики // Труды конф. «Знания-Онтологии-Теории». – (Рус.). – Новосибирск: ИМ СО РАН, 2007. – С. 229-235.

[59] Ломоносов М.В. Полное собрание сочинений / глав. ред: С.И. Вавилов, Т.П. Кравец; Редкол.: В.В. Виноградов, Б.Д. Греков, А.В. Топчиев, С.Г. Бархударов, А.И. Андреев, Г.П. Блок, Г.А. Князев, В.Л. Ченакал. – (Старорус.). – в 10 тт. – М.; Л.: Изд-во АН СССР, 1950–1959; Т.11. Л.: Наука, 1984.

[60] Психосемантика слова и лингвостатистика текста: Методические рекомендации к спецкурсу / сост. А.П. Варфоломеев. – (Рус.). - Калининград: Изд-во Калининградского ун-та, 2000. – 38 с.


Об авторах

Баранов Виктор Аркадьевич – д. филол. н., проф., зав. каф. «Лингвистика» Ижевского государственного технического университета, с.н.с. межфакультетской учебно-научной лаборатории по автоматизации филологических работ Удмуртского государственного университета.
Web: http://www.istu.ru/unit/epign/lingvo
E-mail: victor.a.baranov@gmail.com

Маргулис Илья Станиславович – м.н.с. Института информатики Академии наук Республики Татарстан, м.н.с. Центра информационных технологий Казанского (приволжского) федерального университета.
Web: http://www.XVIII.su
E-mail: ilya_margulis@mail.ru


© Баранов В.А., Маргулис И.С., 2009


Работа выполнена при поддержке РГНФ: грант № 07-04-12147в


Последнее обновление страницы было произведено: 2011-04-26

Все предложения и пожелания по содержанию и структуре портала направляйте по адресу rdlp@iis.ru