РОССИЙСКИЙ НАУЧНЫЙ ЭЛЕКТРОННЫЙ ЖУРНАЛ Электронные библиотеки
2010 - Том 13 - Выпуск 1

Информационный анализ делового текста. Стратегии анализа и компоненты  анализатора

Рубашкин В. Ш.

 

Аннотация

Статья посвящена обсуждению общей архитектуры систем информационного анализа делового текста. Обсуждаются три комплекса проблем, решения по которым радикально меняют архитектуру анализатора: определение целевой технологии и с учетом этого выбор целевого языка представления знаний; выбор способа межуровневого взаимодействия компонентов анализатора; определение соотношения структурных (rule-based) и прецедентно-статистических (example-based, case-based, corpus-based) моделей в используемых алгоритмах и процедурах анализа.

Ключевые слова: информационный анализ делового текста, компоненты анализатора, архитектура анализатора, целевая технология, целевой язык, фактографическая информация.

Разработчику систем понимания текста всегда – осознанно или неосознанно – приходится делать ряд принципиальных выборов в некотором наборе альтернатив, касающихся общего подхода и архитектуры разрабатываемой системы. Принципиально значимы три комплекса проблем, решения по которым радикально меняют архитектуру анализатора. Они, по нашему мнению, таковы:

  • Определение целевой технологии и с учетом этого выбор целевого языка.
  • Выбор способа межуровневого взаимодействия компонентов анализатора.
  • Определение соотношения структурных (rule-based) и прецедентно-статистических (example-based, case-based, corpus-based) моделей в используемых алгоритмах и процедурах анализа.

Рассмотрим их в этой последовательности.

1. Целевая технология и целевой язык.

Целевая технология и целевой язык выбираются в зависимости от предполагаемых задач и требуемых способов обработки структурированных данных. Но первое, с чем имеет дело разработчик системы анализа – это определение когнитивного статуса текстов подлежащих обработке и, соответственно, подлежащих извлечению из текста знаний. С точки зрения логической структуры и познавательного статуса целесообразно различать, прежде всего, дескриптивные и нормативно-методические знания (знания что и знания как) и, далее, первые подразделить на фактографические (знания факта) и номологические (знания законов). Для дальнейших рассуждений принимается общая гипотеза, согласно которой в системах автоматического понимания текста действует принцип, который мы назвали принципом когнитивной однородности анализа – системы всегда строятся в расчете на анализ текстов какого-то одного из названных трех типов. Или, по крайней мере, на извлечение знаний одного типа из когнитивно неоднородного текста.  Поэтому разработчик начинает с того, что определяется, с какого типа текстами ему предстоит иметь дело и какие структуры знания предстоит строить.

Для номологических знаний целевой технологией скорее всего будет выбрана технология экспертных систем и язык продукционного типа.  Для нормативно-методических знаний – в силу их разнообразия и малой технологической освоенности - не существует одной стандартной технологии. Для них могут использоваться разные представления и разные технологии, в том числе в каких-то случаях и технологии экспертных систем. Возможности и способы формализации знаний этого типа пока только изучаются.

Чаще всего в системах смыслового анализа решаются задачи извлечения и формализации фактографической информации. В этом случае может использоваться целый спектр языков и технологий – в зависимости, прежде всего, от структуры формализуемых знаний.  Существенные различения здесь таковы.

  • Знания, допускающие представление средствами схемы реляционной базы данных. Целевая технология здесь хорошо отработана и оснащена самым  богатым инструментарием. С содержательной точки зрения такого рода знания представляют собой следующее.

Предметная область представляется как обозримый набор классов однотипных объектов, таких что объекты каждого класса характеризуются одинаковым набором признаков (атрибутов). Каждое такое описание индивидуального объекта можно назвать регламентированной  объектно-характеристической записью, а совокупность описаний объектов одного типа -  объектно-характеристической таблицей. Между объектами могут устанавливаться бинарные отношения, среди которых имеется выделенное не специфицированное отношение 'связаны'1.Логическая схема описания индивидуальной ситуации может быть представлена в виде:

(1)                                     [Ex] &iOi(xi) &S RS (xS1,  xS2), где
[Ex] – кванторный префикс, состоящий из кванторов существования по всем вхождениям референциальных индексов;
&iOi(xi) – конъюнкция описаний объектов, таких, что каждое описание Oi есть, в свою очередь, высказывание вида
[Exi] &aPia(xiVia)        (Pia – атрибуты из набора атрибутов, составляющих схему описания объектов класса I,Via– значение атрибута-признакаPiaдля объекта xi);
&S RS (xS1,  xS2)  - конъюнкция бинарных отношений, допускаемых схемой БД для классов объектов соответствующих указанным референциальным индексам.

Анализ текста в этом случае имеет целью построение описаний объектов в соответствии со схемой БД и распознавание отношений между ними.

  • Более свободная структура получается, если отказаться от условия однотипности объектов, т.е. от допущения, что универсум объектов может быть разбит на конечное число классов, характеризующихся одинаковым набором атрибутов. В этом случае, предполагается, что словарь языка представления знаний включает один общий набор атрибутов, которые могут комбинироваться в описаниях вида (1) произвольным образом. Такого типа описание можно назвать свободной объектно-характеристической записью2. Отношения между объектами в одних вариантах языков такого типа могут быть ограничены только бинарными отношениями, в других вариантах могут допускаться и отношения большей арности.

Для представления такой структуры обычно используется метафора ориентированного графа, и языки представления знаний (ЯПЗ), рассматриваемые в рамках такой метафоры, получили общее название "семантические сети". При этом отображение элементов описанной логической структуры (атрибуты, значения атрибутов, логические связки, отношения между объектами, указатели ролевых позиций актантов при отношениях) на элементы графового представления (узлы и дуги) может быть выполнено многими разными способами. Так, в одних нотациях все термы, представляющие свойства объекта, ассоциируются с одним узлом, представляющим, по существу, референциальный индекс объекта, (рис. 1. Представление А.); в других каждое свойство представлено отдельным узлом, присоединяемым к индексному узлу формально определяемыми дугами референции, так что образуемый куст функционально эквивалентен множественной конъюнкции; в третьих нотациях атрибуты представляются как имена дуг, присоединяющих значения атрибутов к узлу, представляющему объект (рис. 2. Представление Б). В одних нотациях все предметно-значимые отношения представляются узлами, а дуги используются только для представления ролевых отношений "предикат - объект" (быть субъектом, быть объектом, быть инструментом и т. п.); в других некоторые часто используемые предметно-значимые отношения (иметь частью, быть предназначенным для, иметь местом, быть служащим организации и т. п.) могут быть также представлены дугами (Ср. представление отношения иметь местом в показанных на этих двух рисунках примерах.)

К этому нужно добавить, что помимо графовой используются и другие метафоры представления – например триадное (ср. RDF), когда за элементарную единицу знания принимается конструкция вида R (a, b), а описание любой ситуации представляется как конъюнкция таких триад. При этом возникают примерно такие же варианты отображения  элементов логической структуры знаний на элементы триады. Скажем, для фразы Папа купил автомобиль возможны по крайней мере два триадных представления:

КУПИЛ (папа, автомобиль);

СУБЪЕКТ (купил, папа) & ОБЪЕКТ (купил, автомобиль)

Понятно, что выбор той или иной нотации может существенно влиять не только на внешний вид записи, но и на построение процедур логической обработки (скажем, на организацию поиска в семантической сети). Из всего этого возникает кажущееся разнообразие используемых языков представления знаний – даже в пределах одной и той же метафоры представления. И не так просто обнаружить, что речь идет об одном и том же содержании и одной и той же логической структуре знаний при одних и тех же ограничениях, накладываемых на выразительные возможности языка и используемые средства логического вывода. Прямое сопоставление содержания, представленного столь разными способами, зачастую оказывается весьма затруднительным. Единственная возможность сделать разные нотации безусловно сопоставимыми – всегда сопровождать их интерпретацией на некоторый стандартный логический язык (такой, например, как язык InfoL, представленный в главе 1).

Для примера, иллюстрируемого рисунками, логическое представление может иметь вид:

x y ( ФОРМА ( x, Шар ) &  ЦВЕТ( x, Синий ) & 
МАТЕРИАЛ( x, Сталь ) &  ДИАМЕТР( x, 0,2 ) &
ФУНКЦИЯ ( y, Стол ) & ИМЕТЬ МЕСТОМ ( x, y )  )

 

 

 
 

Рис. 1. Стальной синий шар диаметром 20 см. лежит на столе. Представление А

 

 

 
 

 

 

 

Рис. 2. Стальной синий шар диаметром 20 см. лежит на столе. Представление Б.

2. Организация межуровневого взаимодействия

Речь идет о способах организации взаимодействия между компонентами анализатора,  относящимися к разным языковым уровням и ответственными за обработку языковых структур разного типа (графематический, морфологический, синтаксический и семантический уровни анализа). Здесь возможны и весьма простые и весьма сложные решения. Общая проблема состоит в том, что ни один из уровневых компонентов не в состоянии самостоятельно – без привлечения средств и процедур последующих уровней – полностью решить свои задачи. Оптимальное архитектурное решение этой проблемы, несомненно, состоит в разработке алгоритмов и процедур анализа, способных "понимать", в какие моменты для разрешения возникающих внутри данного уровня проблем следует привлечь информацию следующих уровней и какую именно. Такой подход можно назвать архитектурой оперативного межуровневого взаимодействия. К сожалению, пока  убедительных для широкого круга специалистов примеров построения архитектуры такого типа не существует. Показательным в этом смысле можно считать тот факт, что в самом полном современном руководстве по методам обработки текста [Jurafsky & Martin, 2009]3 можно найти лишь несколько беглых упоминаний о проблеме – без дальнейших ссылок на прецеденты и публикации (см. напр., с. 638 -639).  Причина заключена в сложности построения эффективной модели, организующей такое взаимодействие. Архитектура оперативного межуровневого взаимодействия предполагает, в частности, такую организацию данных, представляющих результаты анализа, в которой одновременно должны быть доступны текущие результаты работы всех уровневых компонентов анализатора – от графематики до семантики, должна быть показана несовместимость разных вариантов разбора одних и тех же фрагментов текста в пределах одного уровня и должна быть зафиксирована преемственность вариантов, получаемых на разных уровнях. Должен быть обеспечен эффективный доступ ко всем элементам в такой организации данных. Самое сложное здесь, по-видимому, - разработка модели для  программы – супервайзера, определяющей необходимость вызова того или иного уровневого компонента в зависимости от ситуации, сложившейся по ходу анализа и оценивающей текущие результаты и текущую ситуацию.

Одним из немногих исключений в этом плане являются работы Г.С. Цейтина, который был, несомненно, пионером такого рода разработок [Цейтин, 1985].  Им была создана одна из первых, а возможно и самая первая версия анализатора такой архитектуры. Эта работа значительно опередила свое время и, по-видимому, именно поэтому осталась почти не замеченной и не оцененной профессиональным сообществом как в нашей стране, так и за рубежом.

В силу названных причин практика построения систем анализа текста пошла по более простому и ясному пути – пути организации статического взаимодействия уровневых компонентов. В этом случае каждый компонент пытается распознать и построить все варианты анализа собственными средствами и передать их для обработки на следующий уровень, который своими средствами пытается разобраться с предъявленными ему неоднозначностями. В такой архитектуре взаимодействие уровней осуществляется только через данные – путем передачи готовых и окончательных результатов анализа. Обращения к вышестоящим уровням за помощью в процессе работы вообще не предусматривается.

Ясно, что описанная альтернатива обозначает, собственно говоря, крайние точки, возможные при  определении архитектуры анализатора. Между ними может располагаться целый спектр решений, в которых оперативное взаимодействие уровней допускается, но случаи и процедуры такого взаимодействия так или иначе ограничиваются, - например, задаются обозримым перечнем ситуаций. В зависимости от величины такого списка и набора используемых процедур взаимодействия (обращение только к словарям следующего уровня, обращение с ограниченным набором заранее оговоренных вопросов-функций, запуск ограниченного числа процедур анализа и т.д.) возникает широкое поле промежуточных решений, которое пока, к сожалению, остается почти не возделанным.

По поводу организации взаимодействия для разных уровней можно высказать следующие соображения. Что касается взаимодействия графематического и последующих уровней, то оно является эпизодическим; в силу разнородности языковых ситуаций, подлежащих обработке на этом уровне; случаи, когда графематический анализ нуждается в дополнительной информации и помощи "сверху" обозримы и могут быть достаточно легко локализованы.  Проиллюстрируем это простым примером. Одной из значимых при анализе профессиональных текстов задач является унификация представления числовых данных. Весьма желательно, чтобы на вход  синтаксического анализа числа поступали в виде одной лексемы, представленной в формате число цифрами без разделителей разрядов. Речь, следовательно, идет о необходимости преобразований типа:

"10 миллионов","10 млн.", "10 000 000","10,000,000" a   "10000000"  (или  "1E7").

В рамках этой общей задачи весьма желательно на ранних стадиях анализа выполнить также преобразование  вербальное число a  число цифрами.  (Скажем, фрагмент "десять миллионов семнадцать тысяч сто пять" должен быть преобразован в строку "10017105".)

Алгоритм такого преобразования достаточно прост. Словарно он должен поддерживаться на уровне семантического словаря – онтологии следующей информацией. Во-первых, каждому слову-числительному должно быть сопоставлено его числовое значение;  во-вторых, должны быть различены "обычные" (два, семнадцать, триста) и "масштабирующие" (тысяча, миллион, дюжина) числительные. (Первые, скажем, получают в словаре помету "ADD", вторые – "MUL".) Этот пример, как нам кажется, хорошо иллюстрирует, что мы имеем в виду, говоря, что взаимодействие графематического уровня с последующими всегда может быть локализовано.

Оперативное взаимодействие  морфологического уровня с синтаксическим 4 требуется в основном для разрешения морфологической омонимии словоформ. Опыт показывает, что во многих случаях морфологическая омонимия разрешается по непосредственному синтаксическому контексту (ср.  рабочий проект vs рабочий уволен и т.п.).   Значительно реже встречаются случаи, когда морфологическая омонимия, порождая далее и синтаксическую омонимию, требует для своего разрешения обращения в одних случаях к непосредственному семантическому контексту (имеется в виду обращение к семантическим характеристикам слов непосредственного синтаксического окружения). В других – более редких - случаях может потребоваться обращение к более широкому контексту (целое предложение, абзац или общий контекст документа), а иногда и к контексту энциклопедических (онтологических) знаний адресата сообщения 5.Но последние случаи выводят рассмотрение за пределы проблемы межуровневого взаимодействия.

Организация взаимодействия синтаксического уровня с семантическим – самый актуальный и самый сложный вопрос в этой теме. Связка синтаксис - семантика – самая "нагруженная" часть анализатора; в ней, помимо прочего, выполняется основная работа по разрешению лексических и синтаксических неоднозначностей, происходит обнаружение и обработка ситуаций смысловой неполноты. Возможности и методы организации динамического взаимодействия этих уровней пока вопрос открытый. В варианте статического взаимодействия этих уровней принципиальное значение приобретает вопрос о языке представления результатов синтаксического анализ, или, иными словами, о языке синтаксической разметки и возможностях его унификации.

Если иметь в виду представление синтаксической структуры в форме дерева зависимостей, то отдельная синтаксическая связь может быть представлена парой <ссылка на синтаксического хозяина, имя синтаксической связи> (ср. [Boguslavsky и др.]6).

Дальнейшего содержательного обсуждения, на наш взгляд, требуют два пункта: номенклатура синтаксических связей и представление синтаксической омонимии. Рассмотрим их более подробно.

Номенклатура синтаксических связей

Разумеется, она прежде всего зависит от языка, но практика показывает, что  даже применительно к русскому языку существует большой разброс используемых в разных проектах номенклатур. Основной вопрос, который должен быть задан в этой связи, состоит в том, с какой детальностью следует представлять синтаксическую структуру7. В разных проектах используется от 15-20 до 60-80 видов синтаксических связей. (Так, в синтаксически размеченном подкорпусе Национального корпуса русского языка используется «около 65» имен синтаксических отношений.) Обсуждая этот вопрос, нужно иметь в виду, что взгляды на задачи синтаксического анализа и требования к синтаксическому представлению долгое время формировались почти исключительно с точки зрения потребностей систем автоматического перевода. При этом сами системы АП долгое время строились (и до сих пор строятся) как системы трансферного типа ("от синтаксиса к синтаксису"). Желание передать в целевой текст все тонкости грамматической организации входного предложения порождает стремление использовать детальное синтаксическое представление, а почти полное отсутствие в большинстве систем семантической поддержки порождает стремление семантизировать саму синтаксическую структуру. В результате и появляется обширная номенклатура синтаксических связей. Системы смыслового анализа текста (Natural Language Understanding - NLU)  предъявляют совершенно иные требования к синтаксической структуре. Прежде всего, наиболее важным здесь становится не максимальная точность воспроизведения способов выражения мысли - та цель, которая явно или неявно всегда подразумевается в системах перевода (при совершенно недостаточной точности передачи самой мысли в современных системах АП), а именно распознавание и формализация смысла. При этом существенно, что индивидуальные особенности письма и речи на выходе семантического анализатора полностью нивелируются, и извлеченные из текста знания приводятся к некоторой унифицированной, общепринятой в данной профессиональной  области форме, лишенной какой бы то ни было стилистической и личностной специфики.

Добавление в анализ отдельного этапа семантической интерпретации синтаксических связей и соответствующих средств радикально меняет требования к детальности синтаксического представления. Во многих случаях семантическому интерпретатору вообще достаточно знать, что данные слова синтаксически связаны  – безотносительно к виду синтаксической связи. Далее интерпретатору потребуются лишь их семантические характеристики (см. § 2.4).  Это касается не только случаев, когда синтаксическая связь (типа примыкания) носит очевидно формальный характер (стали → есть, не → сообщил), но и более содержательных ситуаций (металлический  ← шар, высокое  ← напряжение, на →  столе, голова →  юноши, совершил →  преступление  и т. п.).  Здесь связь может вообще не иметь имени (пустая связь) или иметь весьма обобщенную квалификацию (атрибутивная связь, отпредложная связь).  Более детальное синтаксическое представление в процедурах семантической интерпретации востребовано в ситуациях, когда требуется определить ролевую позицию слова-актанта относительно слова-предиката (сообщил Петр – сообщил Петру; покрасил дом – покрасил краской; приехал в Москву – приехал из Москвы). Здесь, как видно, существенна информация о падежных формах актантов и предложном оформлении синтаксической связи. Однако и здесь зачастую более важную роль играют семантические характеристики актантов.

Иными словами, для семантического интерпретатора излишняя детальность в представлении синтаксической структуры избыточна и скорее даже вредна. Здесь целесообразно использовать ограниченную номенклатуру синтаксических и других грамматически выраженных связей – не более 15 - 20 видов. К этому можно добавить то, что при наличии развитого семантического анализатора нет необходимости тем или иным способом семантизировать синтаксис и, в частности, нет необходимости формулировать синтаксис в терминах членов предложения – что само по себе уже есть некоторый акт семантизации. Достаточен "чисто поверхностный" синтаксис, фиксирующий общий способ морфологического и лексического (предлоги) оформления связи.

В качестве примера максимально сокращенной номенклатуры синтаксических связей приведем список связей использованных нами в системе информационного анализа текста  (таблица 1).8

Таблица 1. Имена синтаксических связей


Имя связи

Описание

MAIN_RF

Помета у главного слова предложения

NIL_RF

Пустая связь

NOM_RF

Управление именительным

GEN_RF

Управление родительным

DAT_RF

Управление дательным

ACC_RF

Управление винительным

INS_RF

Управление творительным

SPC_RF

Конкретизация

APP_RF

Приложение

ATTR_RF

Определительная (для присоединения прилагательных, наречий и др.)

PGEN_RF

Управление родительным с предлогом

PDAT_RF

Управление дательным с предлогом

PACC_RF

Управление винительным с предлогом

PINS_RF

Управление творительным с предлогом

PLOC_RF

Управление предложным с предлогом

PREP_RF

От предлога к управляемому слову

ANAF_RF

Анафорическая

SGM_RF

Межсегментная подчинительная связь

ANDW_RF

Сочинительная для слов

ANDS_RF

Сочинительная для сегментов

ANDN_RF

Сочинительная для чисел

Таким образом, для решения разных задач языковой инженерии и при использовании разных методов и средств анализа предпочтительными могут оказываться  разные наборы синтаксических связей. Еще более очевидна необходимость "синтаксического плюрализма" для многоязычных систем анализа, использующих в качестве языка синтаксического представления систему подчинительных связей. Применительно к формату синтаксической разметки это означает, что задача полной унификации номенклатуры связей не представляется реалистичной, и следует признать необходимой использование разных номенклатур. Унификация в этих условиях может преследовать две задачи. Задача минимум – фиксировать явно и сделать четко специфицированными и общедоступными используемые номенклатуры связей. Соответственно, в общей части разметочного формата должен быть предусмотрен тэг, указывающий, какая из номенклатур в данной разметке используется. Задача максимум – попытаться установить отношение переводимости (или, точнее, сводимости) между всеми или хотя бы некоторыми из объявленных номенклатур9.  Еще одна возможность, заслуживающая обсуждения, - всегда использовать "двойную" разметку: разметку в терминах чисто поверхностного синтаксиса – как самую беспредпосылочную и наиболее адекватную целям последующего семантического анализа, и любую из более специализированных разметок, адекватных конкретному проекту.

Возможности унифицированного представления синтаксической разметки пока лишь обсуждаются. Общее состояние проблемы стандартизации разметки текста охарактеризовано, например, в [Ide et al., 2003]. С 2007 г. выставлена для обсуждения draft-версия стандарта для формата синтаксической разметки (Syntactic Annotation Framework  - SynAF, см. [SynAF, 2007]), но далее этого дело пока не пошло. В ней определены общие подходы, предложена унифицированная терминология и предложен язык описания синтаксических структур. Если смотреть на этот проект с точки зрения задач синтаксической разметки русскоязычных текстов и задач последующего извлечения знаний из текста, он обладает, на наш взгляд, двумя (по меньшей мере) недостатками. Во-первых, ориентирован более на грамматику составляющих, чем грамматику зависимостей; во-вторых,  ориентирован скорее на глубинный, чем поверхностный синтаксис. Специфика русского языка в нем не рассматривается и не учитывается. К сожалению, в русскоязычной литературе на сегодня отсутствуют даже внятные предложения создать  или хотя бы приступить к обсуждению аналога или собственной версии такого формата.

Представление синтаксической омонимии.

Известное определение Л.Н. Иорданской10 [Иорданская, 1967] дает общую характеристику этого явления: "Под синтаксически омонимией (неоднозначностью) фразы понимается возможность приписать фразе более чем одну правильную синтаксическую структуру". Следующий шаг связан с необходимостью определенным образом дифференцировать это явление. Самая известная версия такой детализации применительно к структуре зависимостей принадлежит А. В. Гладкому [Гладкий 1985, Глава 7. Синтаксическая омонимия]11. И Иорданская, и  Гладкий указали, в частности, на необходимость различения "разметочной" и "стрелочной" омонимии12.В первом случае варианты синтаксического разбора отличаются только именованием стрелок  (выступление адвоката Иванова: один вариант - выступил адвокат Иванов  – согласование, другой -  адвокат подсудимого Иванова  – управление; звонок Марии (кому? или чей?) – управление дательным или родительным .падежом). Во втором случае варианты синтаксического разбора отличаются расстановкой стрелок – т.е., имеется хотя бы одно слово с альтернативными синтаксическими хозяевами  Характерная языковая ситуация, иллюстрирующая стрелочную омонимию – омонимия подчинения предложных групп: Парень в голубой рубашке с  зелеными глазами vs Парень в голубой рубашке с зелеными рукавами. Первый вид омонимии можно назвать также омонимией формы связи  второй – омонимией адреса связи (имея в виду, что технически в разметке подчинительная связь представлена ссылкой на синтаксического хозяина, "прикрепляемой" к слову - слуге).  Понятно, что признание или непризнание некоторых синтаксических связей омонимичными (омонимия формы) зависит от того, как проводится граница между синтаксическим и семантическим уровнями представления текста13. Так, конструкция типа перевод Шекспира при использовании одной  номенклатуры синтаксических связей оказывается омонимичной (возможны две интерпретации связи – субъектная: перевел Шекспир и объектная: перевели Шекспира), в то время как при использовании другой номенклатуры, в частности, чисто поверхностного синтаксиса, ограничивающегося указанием на стрелке только падежной формы,  такая связь однозначно характеризуется как  управление родительным (GEN_RF). В этом последнем случае обнаружение возможности двух интерпретаций возлагается на семантический интерпретатор. И это еще один аргумент в пользу поверхностного синтаксиса, во всяком случае, для систем, ориентированных на семантический анализ текста.

Существенно, что точка зрения моделей и процедур семантического анализа на способы представления синтаксических неоднозначностей  (технику синтаксической разметки) имеет свою специфику. Она состоит, в частности, в том, что в моделях и процедурах анализа предполагается сравнение и оценка, так сказать, семантического качества предъявляемых неоднозначностей (см. [Рубашкин, 2006]), а с этой точки зрения принципиально различение двух случаев, которые можно определить как локальную и глобальную синтаксическую омонимию. Локальной омонимией будем называть все случаи, когда выбор того или иного синтаксического хозяина или той или иной грамматической интерпретации неоднозначной связи одного слова не влияет на способы установления синтаксических связей других слов предложения. Соответственно, все случаи, когда такое влияние (зависимость) имеет место, будем квалифицировать как глобальную синтаксическую омонимию. Примеры глобальной омонимии хорошо известны. Простейшие из них – это предложения типа Мать любит дочь; Автобус догнал трамвай. Здесь имеется разметочная омонимия (омонимия формы) у обоих существительных, подчиненных глаголу, но при этом выбор грамматической интерпретации одной из связей влияет на выбор грамматической интерпретации другой. Более интересный пример - Простой солдат вызвал суматоху. Здесь разная частеречная интерпретация словоформы простой (прилагательное или существительное) влечет за собой и переадресацию синтаксических связей, и их грамматическое переопределение. Глобальная омонимия может относиться ко всему предложению, либо ограничиваться какой-то его относительно самостоятельной частью – сегментом14.

Принципиальное различие локальной и глобальной омонимии состоит в том, что в первом случае достаточно указать варианты омонимичной связи синтаксически подчиненного слова (или варианты сочинения), не дублируя все остальные связи предложения или сегмента15. Выбор предпочтительного варианта здесь предполагает в большинстве случаев сравнение их локальных семантических оценок [Рубашкин, 2006]. Во втором случае нет другого способа разобраться в вариантах и сопоставить их оценки, как дублировать весь синтаксический разбор предложения или сегмента. Оценивать и выбирать предпочтительный вариант в процедуре семантической интерпретации в этом случае придется, рассматривая не отдельные связи, а  разбор предложения (или обособленного сегмента) в целом. Ограничение области неоднозначности сегментом полезно, поскольку позволяет локализовать и сравнительные оценки качества семантической интерпретации.


3. Rule-based vs corpus-based технологии анализа

В последнее десятилетие стала актуальной альтернатива, противопоставляющая анализу, основанному на структурных моделях языка и вытекающих из них правилах обработки текста (rule-based analysis) прецедентно-статистический подход или, иначе, анализ "по образцам" (example-based/case-based/corpus-based analysis). Впервые этот последний подход появился в системах автоматического перевода16. Коротко его суть сводится к созданию корпуса параллельных текстов и использованию его как набора образцов правильного перевода. Применение такого подхода в системах понимания текста, насколько нам известно, пока систематически не рассматривалось, однако не видно принципиальных причин, по которым он не может быть применен и в этой области. Общее исходное соображение здесь состоит в том, что семантический анализ тоже можно трактовать как перевод – с ЕЯ на ЯПЗ. Так что здесь тоже существует принципиальная возможность создания "естественно-семантической" базы параллельных текстов. В данном случае входным будет какой-либо из естественных языков, а выходом – тот же текст, переписанный на ЯПЗ экспертом (или отредактированный им). Дальнейшее возможное развитие этой идеи – создание многоязычной естественно-семантической БД открытого доступа, где хранятся параллельные тексты на разных естественных языках, передающих одно и то же содержание и "выровненных" на ЯПЗ-текст. Такого рода БД – при развитии соответствующей технологии – могла бы поддерживать как многоязычный семантический анализ, так и процедуры многоязычного перевода, которые можно охарактеризовать как перевод "через смысл" или перевод с участием контроля по смыслу. Конечно, реализация этого подхода дело совсем не простое. Самое большое препятствие – это трудоемкость и сложность создания естественно-семантических параллельных текстов. Рациональное решение здесь могло бы состоять в организации накопления результатов семантического анализа текстов в разных независимо ведущихся проектах (при условии обеспечения их языковой сопоставимости) и, возможно, их экспертного контроля и постредактирования. В этом случае формирование  естественно-семантической БД могло бы происходить, в значительной степени, как побочный результат всей совокупности исследований и разработок в области систем автоматической обработки текстов. Дело, прежде всего, за тем, чтобы осознать практическую полезность и далеко идущие перспективы такой работы. Поскольку участие экспертов в формировании такой базы в любом случае необходимо, другая часть рационального решения должна состоять в создании человеко-машинной технологии и интеллектуальной диалоговой среды, обеспечивающих максимальную поддержку процедур экспертного редактирования.  Такая среда могла бы функционировать в режиме "зашнуровки" (bootstrapping), когда всякое расширение естественно-семантической БД увеличивает мощь системы анализа, поддерживающей работу эксперта, и, следовательно, дает возможность эксперту быстрее и эффективнее выполнять дальнейшее расширение БД.

Последнее, что необходимо сказать в этой связи, - это то, что рассматриваемые два подхода (rule-based - corpus-based) не следует рассматривать как строго дизъюнктивные. Нет принципиальных препятствий для их интеграции в единой системе анализа, в которой недостатки и ограниченности одного подхода компенсируются и дополняются достоинствами и возможностями другого. Элементы такой интеграции уже можно наблюдать в системах автоматического перевода. В частности, rule-based средства могут быть использованы как инструмент генерализации образцов, используемых для поиска прецедентов в базе параллельных текстов. Это одна из основных проблем, вытекающих из практики применения прецедентного анализа, где предполагается использование очень больших и требующих трудоемкой подготовки объемов предварительно размеченных нужным образом параллельных текстов. Возникает задача минимизации требуемого объема и наиболее эффективного использования таких  баз. Основным средством генерализации образцов должна служить лексически интерпретированная онтология, способная обеспечить установление того факта, что термин анализируемого контекста, входящий в требующий перевода или понимания фрагмент, и термин из аналогичного по другим параметрам контекста прецедентной базы принадлежат к одной смысловой парадигме. (Грамматическая генерализация при этом, как правило, предполагается.)

Методы и средства генерализации еще только нащупываются (см., напр., [Brown, 2000]. Априори понятно, что для  смыслового обобщения существуют определенные пределы. Эффективный уровень обобщения зависит, видимо, от семантики самих обобщаемых терминов и от контекста их употребления. При разметке прецедентной базы надо, скажем, научиться  определять, в какого рода контексте употреблено данное слово – в контексте уникального и не подлежащего обобщению идиоматического выражения, либо в контексте продуктивной конструкции, допускающей более или менее широкое обобщение.  Априори ясно, что для европейских языков наиболее продуктивна генерализация существительных и прилагательных, в то время как глагольная часть лексики должна обобщаться с большой осторожностью. При наличии в семантическом словаре подсистемы описания семантических моделей управления пределы генерализации существительных в конкретном образце могут определяться контекстом управляющего глагола: термин, обобщающий обнаруженное в образце существительное, должен просто совпадать с семантическим условием заполнения соответствующей валентности слова - предиката. Поясним это небольшим примером.

Если иметь в виду разметку корпуса текстов как прецедентной базы для задачи автоматического перевода, то, скажем, русскому образцу писать письмо будет сопоставлен английский перевод write a letter, в то время как образцу писать портрет будет сопоставлен переводpaint а portrait. Возможная функция прецедентной базы здесь – указать правильный выбор переводного эквивалента для глагола  писать. Однако при отсутствии генерализации указанные образцы не помогут правильно перевести другие аналогичные контексты (писать доклад, писать натюрморт, писать рассказ и т. п.). Если допустить, что в семантическом словаре русскому глаголу писать сопоставлены (помимо других) два толкования 'создавать текст' и 'создавать произведение живописи', для которых определены разные семантические условия заполнения объектной валентности, то образец писать письмо в соответствии с контекстом будет генерализован конструкцией писать <текст> и интерпретирован первым толкованием, в то время как образец писать портрет будет генерализован конструкцией писать <произведение живописи>. При таком подходе, конечно, в процедурах разметки прецедентной базы предполагается использование хотя бы упрощенного семантико-синтаксического анализатора. (Так, в приведенном примере средства анализа текста понадобятся, чтобы: (а) определить ролевую позицию обобщаемого существительного; (б) выбрать релевантное контексту толкование глагола.)  Семантический словарь при таком подходе должен будет использоваться как на этапе разметки прецедентной базы, так и на этапе поиска релевантного анализируемому контексту образца.

Литература

  1. Allen James. Natural  Language  Understanding - The Benjamin/Cummings Publishing Company, Inc., University of Rochester, 1987
  2. Nirenburg S., Raskin V. Ontological Semantics. – Cambridge, MA: MIT Press, 2004
  3. Daniel Jurafsky, James H. Martin. Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 2nd Edition - Pearson Prentice Hall, 2009, 988 pp, ISBN 978-0-13-187321-6 (Stanford University and University of Colorado at Boulder)
  4. Nitin Indurkhya, Fred J. Damerau. Handbook of Natural Language Processing, Second Edition – CRC Press, 2010
  5. Alexander Clark, Chris Fox, Shalom Lappin (eds). The Handbook of Computational Linguistics and Natural Language Processing. - Wiley-Blackwell, 2010,  800 pp., ISBN: 978-1-4051-5581-6
  1. Леонтьева Н.Н. Автоматическое понимание текстов: системы, модели, ресурсы. – М: Издательский центр «Академия», 2006
  1. Рубашкин В. Ш. Семантический компонент в системах понимания текста // КИИ-2006. Десятая национальная конференция по искусственному интеллекту с международным участием. Труды конференции. – М.: Физматлит, 2006
  2. Рубашкин В. Ш. Словарная поддержка процедур семантической интерпретации предложных связей // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции "Диалог'2005". - М., 2005. С. 430 – 435.
  3. Agirre E., Edmonds Ph. (eds). Word Sense Disambiguation. Algorithms and Applications  - Springer, 2006.
  4. Bunt H., Muskens R. Computing Meaning. Studies in Linguistics and Philosophy - Springer, 2008.
  5. Gliozzo, Alfio, Strapparava, Carlo. Semantic Domains in Computational Linguistics. – 2009.
  6. Цейтин Г.С. Программирование на ассоциативных сетях // ЭВМ в проектировании и производстве. -Л.: Машиностроение, 1985. Вып. 2.
  7. Keselj Vlado. Daniel Jurafsky, James H. Martin. Speech and Language Processing, 2nd Edition. Book Review. - Computational Linguistics, vol. 35, N 3, 2009, p.p. 463-466
  8. Boguslavsky I.M., Grigorieva S.A., Grigoriev N.V, Kreidlin L.G, Frid N.E. Dependency Treebank for Russian: Concepts, Tools, Types of Information. // Proceedings of the 18th Conference on Computational Linguistics. Vol 2, 987-991, Saarbrücken, 2000
  9. Синтаксически размеченный корпус русского языка: инструкция пользователя.

URL: http://www.ruscorpora.ru/instruction-syntax.html

  1. Рубашкин В. Ш. Синтаксический анализ в практически ориентированном лингвопроцессоре информационного типа. // Научно-техническая информация.- Сер. 2.- 1995.- N 7. - С. 1 – 9
  2. Гладкий А. В. Синтаксические структуры естественного языка в автоматизированных системах общения. -. М., 1985.
  3. Иорданская Л.Н. Синтаксическая омонимия в русском языке  // Научно-техническая информация. Сер. 2. 1967. N 5. С. 9 – 17.
  4. Дрейзин Ф.А. Синтаксиче­ская омонимия // Машинный перевод и прикладная лингвистика. 1966.  № 9. С. 38 – 43.
  5. Муравенко Е. В. Что такое синтаксическая омонимия? // Лингвистика для всех. Летние лингвистические школы 2005 и 2006 — М.: МЦНМО, 2008
  6. Рубашкин В. Ш. Семантический компонент в системах понимания текста // КИИ-2006. Десятая национальная конференция по искусственному интеллекту с международным участием. Труды конференции. – М.: Физматлит, 2006. С. 455 – 463
  7. Кобзарева Т. Ю. Иерархизация синтаксического анализа на основе свойств линейной структуры русского предложения. - Диссертация на соискание ученой степени кандидата филологических наук. - М., 2008
  8. Ide, N., Romary, L, and De la Clergerie, E. International Standard for a Linguistic Annotation Framework // Proceedings of NAACL’03 Workshop on Software Engineering and Architecture of Language Technology Systems, 2003.

См. также URL: http://www.cs.vassar.edu/~ide/papers/ide-romary-clergerie.pdf

  1. Syntactic Annotation Framework (SynAF). ISO/TC 37/SC 4 N421

URL: http://lirics.loria.fr/doc_pub/N421_SynAF_CD_ISO_24615.pdf

  1. Nagao, M. A framework of a mechanical translation between Japanese and English by analogy principle // A. Elithorn and R. Banerji (eds.) Artificial and Human Intelligence. NATO Publications, 1984
  2. Певзнер Б. Р. Общая схема системы машинного перевода с памятью. Международный семинар по машинному переводу , М. 1979 Тезисы докладов, с 30-31.
  3. Певзнер Б.Р. Система машинного перевода с элементами обучения // Вопросы информационной теории и практики. № 46.  М.: ВИНИТИ, 1981.
  • Ralf D. Brown. Automated Generalization of Translation Examples. In Proceedings of the Eighteenth International Conference on Computational Linguistics (COLING-2000), p. 125-131. Saarbrücken, Germany, August 2000.

См. также:  http://www.cs.cmu.edu/~ralf/papers.html#Brown00


Примечания.

1(При использовании специфицированных отношений предполагается наличие в схеме БД таблиц отношений для хранения  кортежей вида < xm, RS, xn >,  где  xm , xn – референциальные индексы (в схеме БД - ключи) объектов классов M и N (не обязательно разных),  а  RS– имя бинарного отношения из оговоренного в схеме списка отношений.

2 В таких представлениях описание динамики ситуации, если и присутствует, то ограничено называнием происходящих процессов. (Образец нагревался до 500о C). Описание смены состояний одного и того же объекта в такого рода языках, как правило, не предусмотрено.  Дальнейшее расширение выразительных возможностей ЯПЗ может идти в направлении, обеспечивающем представление нарратива – т.е., текста, описывающего не только свойства объектов и отношения между ними, но и характер изменения ситуации и не ограниченного никакими схемами описаний. В текстах этого типа, по мере их развертывания, в поле зрения   могут появляться все новые и новые объекты, а упомянутые ранее – менять свои состояния. (Ср.: Жил-был поп, толоконный лоб. Пошел поп по базару посмотреть кой-какого товару. Навстречу ему Балда  идет, сам не зная куда…).  Здесь и реляционное, и графовое представление становятся неадекватны структуре знаний, и удобнее всего, видимо, использовать логический язык непосредственно.

3 Именно так это руководство характеризуют редакторы серии: «the first book to thoroughly cover language technology, at all levels and with all modern technologies» (c. 23). Так же ее характеризует и рецензент в журнале Computational Linguistics [Keselj, 2009]: «general textbook on natural language processing, with an excellent coverage of the area and an unusually broad scope of topics».

4 Случаи, когда на морфологическом уровне оказывается  востребованной семантическая информация пока мало изучены. По-видимому, типичным здесь должен быть случай, когда синтаксический анализ дает неоднозначный контекст словоформы, морфологические характеристики которой подлежат уточнению, и сам нуждается в семантической поддержке.

5 Для иллюстрации такого рода языковой ситуации можно использовать ставший популярным пример Л.Л. Иомдина: Эти типы стали есть в прокатном цехе. Попытка разрешить частеречную омонимию слова стали (глагол или существительное?)  по непосредственному синтаксическому контексту скорее всего даст неправильный – с точки зрения достаточно очевидного для человека коммуникативного намерения автора – результат: стали (начали) есть.  Связь вспомогательного / фазового глагола с инфинитивом в разумно построенном синтаксическом анализаторе будет считаться более предпочтительной по отношению к генитивной связи существительное – существительное (типы стали). Сборка синтаксических групп на первом этапе парсинга даст три единицы: эти типы, стали есть и в прокатном цехе; на втором этапе они вполне удовлетворительно соберутся в полное предложение: группа подлежащего, группа сказуемого и группа дополнения. Второй вариант может остаться просто не замеченным. Необходимость возврата для поиска альтернативного варианта разбора мотивируется здесь достаточно аморфными и трудно формализуемыми соображениями: неадекватность разговорного стиля в деловом тексте (слово типы в разговорном значении); бОльшая семантическая согласованность пары сталь – цех по сравнению с комбинацией есть (питаться) – прокатный цех; общий (производственный) контекст документа (об обработке стали, сталепрокатном стане и т.п., возможно,  уже шла речь?).  Ср. более простой пример: гремя огнем, сверкая блеском стали, пойдут машины в яростный поход,  где для разрешения  частеречной омонимии словоформы стали достаточен контекст предложения, точнее деепричастного оборота, в котором не может присутствовать глагол в личной форме). Подобные примеры показывают, сколь сложно – и, скорее всего, невозможно! - построить исчерпывающую ("идеальную") модель межуровневого взаимодействия.

6 Ср. [Boguslavsky et al< 2000]

7 Понятно, что этот вопрос актуален главным образом для синтаксиса зависимостей и значительно менее актуален для синтаксиса составляющих.

8Приведенный здесь список  – за некоторыми исключениями – соответствует описанному в [Рубашкин, 1995]

9Вопрос о переводимости систем составляющих в системы зависимостей и обратно мы оставляем без рассмотрения. Ср. сказанное об этом в [Гладкий 1985, с. 34-37].

10 Там же можно найти множество примеров синтаксической омонимии разных типов; см. также [Дрейзин, 1866].

11 См. также [Муравенко, 2008].

12 Терминология, предложенная А.В. Гладким в указанной работе.  Л.Н. Иорданская "разметочную" омонимию именует термином неод­нозначность характера связи.

13 На это также впервые, по-видимому, явно обратила  внимание в указанной выше работе Л.Н. Иорданская. "Сегмент" здесь понимается в соответствии с определением Т.Ю. Кобзаревой: "Сегменты – части предложения с эксплицитно заданными соответственно правилам русской пунктуации границами: простые предложения или простые в роли главных (простые-главные), придаточные предложения, деепричастные обороты, всякого рода определительные, вводные и другие обороты, требующие обособления." [Кобзарева, 2008].

14 Это верно также и в случае наличия в предложении нескольких независимо омонимичных  (локально омонимичных) связей. Ср.: Парень в голубой рубашке с зелеными рукавами  увидел девушку в красном платье с роскошными волосами. В этом случае формально варианты связей свободно комбинируемы; они могут оцениваться процедурой семантической интерпретации независимо; независимым может быть и выбор более предпочтительного варианта для каждой из них.

15 В зарубежной литературе считается, что приоритет идея прецедентного анализа принадлежит M. Nagao [Nagao, 1984].  Однако если обратиться к работам [Певзнер, 79], [Певзнер, 81], можно легко убедиться, что идея и первая попытка ее реализации имеют другое авторство. К сожалению, в СССР конца 1970-х г.г. эта идея не была воспринята и востребована профессиональным сообществом. Парадоксальный и требующий осмысления горький опыт состоит в том, что те самые люди, которые незадолго до того самоотверженно боролись за становление новых идей в лингвистике, оказались невосприимчивы к столь значительной идее, сейчас вполне доказавшей свою продуктивность и практическую значимость.

Об авторе

Рубашкин В.Ш. - СПбГУ 
vrubashkin@yandex.ru


Последнее обновление страницы было произведено: 2011-04-08

Все предложения и пожелания по содержанию и структуре портала направляйте по адресу rdlp@iis.ru