Диссертация (1137487), страница 12
Текст из файла (страница 12)
пример разметки упоминаний Василия Курагина (уникальныйидентификатор Vasili_Kuragin) в системе ABBYY Compreno на рис. 4:Рис. 4. Пример разметки упоминаний персонажа в системе ABBYY Compreno.Далее результаты разметки преобразовывались из внутреннего формата Compreno встандарт TEI. Отрезки текста с упоминаниями персонажей размечались с помощьюстандартного для TEI/XML элемента <rs> (referring string). Этим элементом в TEIпредполагается размечать любую строку в тексте, имеющую референта в виде именованнойсущности.
Для хранения идентификатора персонажа использовался TEI-атрибут @ref. На43рис. 5 представлена разметка упоминаний Василия Курагина в том же фрагменте текста вформате TEI/XML:Рис. 5. Пример разметки упоминаний персонажа в TEI/XMLТаким образом удалось приписать однозначный идентификатор значительной частиупоминаний персонажей в тексте. На данном этапе в разметке уже насчитывалось свыше10 тыс. однозначно атрибутированных упоминаний.
Однако огромное число упоминанийоставалось не связанными с идентификатором, т.к. не являлись однозначными.Неоднозначные упоминания можно разделить на три подгруппы.К первой подгруппе относятся неоднозначные имена собственные: так, «Наташей» в книгеименуется не только Наташа Ростова, но и дочь Николая Ростова и Марьи Болконской вэпилоге. «Князем Болконским» может быть назван как Андрей, так и Николай Андреевич;также совпадения имен встречаются среди второстепенных персонажей: «Тихоном» зовутслугу Николая Андреевича и партизана Щербатого, «Данилой» — камердинера Ростова иего же охотника-ловчего, «Дуняша» есть в доме Ростовых и в доме Болконских.
Эти случаи,однако, не представили большой сложности для автоматической разметки. Чтобысправиться с ними, оказалось достаточно разделить текст «Войны и мира» на локальные«пространства имен», внутри которых указанные наименования однозначны. К примеру, запределами эпилога всякое упоминание Наташи относится к Наташе Ростовой — всем имможно автоматически приписать идентификатор персонажа («Natasha_Rostova»).
НиколайАндреевич назван просто «князем Болконским» (без указания имени и отчества) трижды: в1 главе 1 части 1 тома («этот известный князь Болконский, отставленный еще при покойномимператоре» [Толстой, 1979: с. 11]), 8 главе 2 части 2 тома («Жизнь старого князяБолконского, князя Андрея и княжны Марьи во многом изменилась с 1805 года» [Толстой,1980 (a): c. 98]) и 4 главе 2 части 3 тома («барону Ашу от генерала аншефа князяБолконского» [Толстой, 1980 (b): c. 120]). Во всех остальных случаях при упоминании«князя Болконского» речь идет о князе Андрее, всем этим упоминаниям был приписанидентификатор «Andrey_Bolkonsky». В тех частях произведения, где неоднозначныенаименования пересекаются (как в некоторых главах эпилога), разметка идентификаторовпроизводилась вручную.44Вторая подгруппа включает неоднозначные нарицательные наименования персонажей,встречающиесярегулярно.сопровождающиесяименем:Сюдаотносятся,«граф»,«князь»,во-первых,титулы-гоноративы,«княгиня»,«княжна»,не«графиня»,«государь».
Отчасти эта проблема также решается при помощи работы с отдельнымифрагментами («пространствами имен») «Войны и мира», однако само выделение этихфрагментов становится сложнее. Так, в начале произведения «граф» попеременноотносится то к Илье Ростову, то к отцу Пьера, Кириллу Безухову, то к самому Пьеру. Далее«графом» без уточнения имени несколько называется Николай Ростов. В некоторыхслучаях, например, во 2 главе 1 части 2 тома, «графами» называются Николай и ИльяРостовы поочередно.
В целом наиболее часто референтом слова «граф» без уточненияимени является Илья Ростов.Также во вторую подгруппу неоднозначных упоминаний входят анафорическиеместоимения «он», «она» и их формы. Как уже отмечалось, для разрешения анафорыиспользовалась система ABBYY Compreno. Ошибочное разрешение анафоры чаще всегопроисходило в случаях, где присутствовало два или более потенциальных антецедента,например: «В то время как Борис вошел к нему, Пьер ходил по своей комнате, изредкаостанавливаясь в углах, делая угрожающие жесты к стене, как будто пронзая невидимоговрага шпагой, и строго взглядывая сверх очков и затем вновь начиная свою прогулку,проговаривая неясные слова, пожимая плечами и разводя руками.— L’Angleterre a vécu, — проговорил он, нахмуриваясь и указывая на кого-то пальцем.—Monsieur Pitt comme traitre à la nation et au droit des gens est condamné à...
— Он не успелдоговорить приговора Питту, воображая себя в эту минуту самим Наполеоном и вместе ссвоим героем уже совершив опасный переезд через Па-де-Кале и завоевав Лондон, — какувидал входившего к нему молодого, стройного и красивого офицера. Он остановился»[Толстой, 1979: c. 69-70]. В этом фрагменте все местоимения относятся к Пьеру, однако дляавтоматической системы разрешения анафоры это чрезвычайно сложное место. В первомпредложении мы имеем дело с редкой для русскоязычного текста катафорической связью(местоимение-анафор предшествует имени), а последнее «он» даже человек, читающийтекст, легко может отождествить с офицером (т.е. Борисом) — тот также мог остановиться,после того как вошел.Наконец, третья группа — неоднозначные нарицательные наименования персонажей,встречающиеся нерегулярно, окказиональные упоминания.
К таковым, относится «офицер»из примера выше, а также разнообразные упоминания персонажей в какой-либо роли:«жених» (Андрей Болконский), «хозяин» (Николай Ростов в охотничьих сценах 2 тома и вэпилоге, дядюшка Ростовых), «барин» (Пьер Безухов, Николай Ростов, АндрейБолконский) и т.п. Такие упоминания персонажей размечались системой ABBYY Compreno45(т.к. указанные слова относятся к наименованиям людей), но в общем случае неидентифицировались однозначно.Дополнительная разметка неоднозначных собственных имен и регулярных неоднозначныхнарицательных имен увеличила общее число идентифицированных упоминанийперсонажей в разметке до 25,6 тыс. Для определения их пригодности для дальнейшегоколичественного исследования была произведена оценка общего качества разметки.
На 50абзацах,извлеченныхслучайноприпомощипрограммногомодуляполученияпсевдослучайных чисел, была рассчитана точность и полнота разметки персонажей. Оценкапроизводилась на двух уровнях: 1) оценка извлечения упоминаний персонажей и 2) оценкаизвлечения и идентификации персонажей. В случае 2 успешно извлеченным считалсятолько персонаж с корректно приписанным уникальным идентификатором в атрибуте ref.Упоминание персонажа с отсутствующим идентификатором рассматривалось какнеизвлеченное (ошибка второго рода, false negative). Упоминание персонажа с неверноуказанным идентификатором рассматривалось как ошибочно извлеченное (ошибка первогорода, false positive). Итоговые результаты представлены в таблице 2:Таблица 2. Результат выборочного тестирования качества разметки и идентификацииперсонажей в тексте «Войны и мира»Уровень оценкиТочность ПолнотаF-мераИзвлечение упоминаний (правильное выделение тега <rs>)0,9890,910,9470,670,782Извлечение и идентификация (правильное выделение тега 0,94<rs> с правильно заполненным атрибутом @ref)Как видно, наш подход демонстрирует высокую точность разметки при не слишкомвысокой полноте, что вообще свойственно подходам, основанным на наборах правил ишаблонов.
Таким образом, в разметке есть неидентифицированные упоминанияперсонажей, но достаточно мало неверно идентифицированных упоминаний, что делает еепригодной для дальнейшего исследования. Наличие пропущенных упоминаний, по нашимнаблюдениям, не критично, т.к. рядом с пропущенным упоминанием обычно находитсянесколько упоминаний того же героя, которые модель идентифицировала верно.Используемые нами методы количественного анализа в таком случае учитывалиупоминание персонажа, и результат не оказывался искажен.Полученная разметка сразу позволяет сопоставить общие частотности упоминанияперсонажей в книге.
Наиболее часто упоминаемым персонажем оказывается Пьер.Частотности упоминаний 20 наиболее частотных персонажей «Войны и мира»представлены в таблице 3:Таблица 3. 20 наиболее часто упоминаемых персонажей «Войны и мира» по результатамразметки46ПерсонажЧисло упоминанийПьер Безухов4523Наташа Ростова2618Николай Ростов2463Андрей Болконский1852Марья Болконская1140Кутузов998Наполеон991Александр I827Соня Ростова749Денисов657старый князь Николай Болконский532граф Илья Ростов527Борис Друбецкой524Петя Ростов524Долохов523графиня Наталья Ростова471Василий Курагин433Элен Курагина370Анатоль Курагин336Елизавета Болконская3021.3.2 Разметка речи персонажейВторым слоем семантической разметки стала разметка прямой речи персонажей.
Прямойречью считались только реплики, которые однозначно произносились вслух и былиадресованы другому лицу или лицам. Таковых, по подсчетам на основе нашей разметки, вкниге Л. Н. Толстого 6392. Первоначально выделение участков текста, содержащихпрямую речь, производилось автоматически с опорой на два основных признака.
Первый— наличие тире в начале строки, указывающее на ввод прямой речи. Второй — наличиеконструкции вида «тире + глагол речи в прошедшем времени в мужском или женском роде:сказал(а), ответил(а), обратился(ась), кричал(а), прошептал(а) и др. Для разметки участковпрямой речи использовался элемент TEI/XML <said> — он накладывался на предложениеили группу предложений, составляющих реплику (рис. 6).Рис. 6. Пример разметки реплики в TEI/XML47Персонаж, являющийся адресантом или адресатом реплики, в случае его эксплицитногоуказания в тексте — «сказал Пьер», «прошептала Наташа», «сказал Долохов Денисову» —также извлекался автоматически из разметки, полученной на предыдущем этапе (см. раздел1.3.1 выше).
Однако для большинства реплик адресант не указан или указан в виденеоднозначного анафорического местоимения, адресат же не указан в явном видепрактически никогда.В связи с этим на следующем этапе разметки недостающиеадресанты и большая часть адресатов были размечены вручную. Для кодированияадресанта использовался специально предназначенный для этого TEI/XML атрибут @who.Адресат кодировался при помощи атрибута @corresp (рис.
7).Рис. 7. Пример разметки реплики с атрибутами @who и @corresp в TEI/XMLНа основе подготовленной таким образом разметки можно сразу получить данные околичестве реплик каждого персонажа. В таблице 4 представлено количество вхожденийпрямой речи для 15 персонажей с наибольшим количеством реплик.Таблица 4. Число вхождений прямой речи у отдельных персонажей «Войны и мира»ПерсонажКоличество репликПьер Безухов503Наташа Ростова483Андрей Болконский407Николай Ростов393Марья Болконская241старый князь Н. Болконский160Денисов153графиня Наталья Ростова140Долохов134граф Илья Ростов127Кутузов119Соня Ростова117Василий Курагин112А. М. Друбецкая91Наполеон86481.3.3 Дополнительная информация в разметкеДополнительноввидеиерархическогоXML-деревабыларазмеченаструктурапроизведения в том виде, в котором она представлена в источнике текста ([Толстой, 1979]):четыре тома (элемент <div> со значением «volume» атрибута @type), внутри томов —части, внутри частей — главы, внутри глав — абзацы (элемент <p>).Рис.
8. Элементы разметки структуры текста в TEI/XMLПолная TEI/XML разметка, снабженная более подробными метаданными, размещена воткрытом доступе по адресу www.tolstoy.online/war_and_peace_tei.zip. Разметка может бытьиспользована как для воспроизведения наших результатов, так и для осуществления иныхисследований.2 Моделирование системы персонажей «Войны и мира» наоснове разметки прямой речиВо второй главе система персонажей книги «Война и мир» исследуется с опорой наразметку прямой речи.