Главная » Просмотр файлов » Диссертация

Диссертация (1137487), страница 12

Файл №1137487 Диссертация (Семантическая разметка художественных текстов для количественных исследований в филологии (на примере романа Война и мир Л.Н. Толстого)) 12 страницаДиссертация (1137487) страница 122019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 12)

пример разметки упоминаний Василия Курагина (уникальныйидентификатор Vasili_Kuragin) в системе ABBYY Compreno на рис. 4:Рис. 4. Пример разметки упоминаний персонажа в системе ABBYY Compreno.Далее результаты разметки преобразовывались из внутреннего формата Compreno встандарт TEI. Отрезки текста с упоминаниями персонажей размечались с помощьюстандартного для TEI/XML элемента <rs> (referring string). Этим элементом в TEIпредполагается размечать любую строку в тексте, имеющую референта в виде именованнойсущности.

Для хранения идентификатора персонажа использовался TEI-атрибут @ref. На43рис. 5 представлена разметка упоминаний Василия Курагина в том же фрагменте текста вформате TEI/XML:Рис. 5. Пример разметки упоминаний персонажа в TEI/XMLТаким образом удалось приписать однозначный идентификатор значительной частиупоминаний персонажей в тексте. На данном этапе в разметке уже насчитывалось свыше10 тыс. однозначно атрибутированных упоминаний.

Однако огромное число упоминанийоставалось не связанными с идентификатором, т.к. не являлись однозначными.Неоднозначные упоминания можно разделить на три подгруппы.К первой подгруппе относятся неоднозначные имена собственные: так, «Наташей» в книгеименуется не только Наташа Ростова, но и дочь Николая Ростова и Марьи Болконской вэпилоге. «Князем Болконским» может быть назван как Андрей, так и Николай Андреевич;также совпадения имен встречаются среди второстепенных персонажей: «Тихоном» зовутслугу Николая Андреевича и партизана Щербатого, «Данилой» — камердинера Ростова иего же охотника-ловчего, «Дуняша» есть в доме Ростовых и в доме Болконских.

Эти случаи,однако, не представили большой сложности для автоматической разметки. Чтобысправиться с ними, оказалось достаточно разделить текст «Войны и мира» на локальные«пространства имен», внутри которых указанные наименования однозначны. К примеру, запределами эпилога всякое упоминание Наташи относится к Наташе Ростовой — всем имможно автоматически приписать идентификатор персонажа («Natasha_Rostova»).

НиколайАндреевич назван просто «князем Болконским» (без указания имени и отчества) трижды: в1 главе 1 части 1 тома («этот известный князь Болконский, отставленный еще при покойномимператоре» [Толстой, 1979: с. 11]), 8 главе 2 части 2 тома («Жизнь старого князяБолконского, князя Андрея и княжны Марьи во многом изменилась с 1805 года» [Толстой,1980 (a): c. 98]) и 4 главе 2 части 3 тома («барону Ашу от генерала аншефа князяБолконского» [Толстой, 1980 (b): c. 120]). Во всех остальных случаях при упоминании«князя Болконского» речь идет о князе Андрее, всем этим упоминаниям был приписанидентификатор «Andrey_Bolkonsky». В тех частях произведения, где неоднозначныенаименования пересекаются (как в некоторых главах эпилога), разметка идентификаторовпроизводилась вручную.44Вторая подгруппа включает неоднозначные нарицательные наименования персонажей,встречающиесярегулярно.сопровождающиесяименем:Сюдаотносятся,«граф»,«князь»,во-первых,титулы-гоноративы,«княгиня»,«княжна»,не«графиня»,«государь».

Отчасти эта проблема также решается при помощи работы с отдельнымифрагментами («пространствами имен») «Войны и мира», однако само выделение этихфрагментов становится сложнее. Так, в начале произведения «граф» попеременноотносится то к Илье Ростову, то к отцу Пьера, Кириллу Безухову, то к самому Пьеру. Далее«графом» без уточнения имени несколько называется Николай Ростов. В некоторыхслучаях, например, во 2 главе 1 части 2 тома, «графами» называются Николай и ИльяРостовы поочередно.

В целом наиболее часто референтом слова «граф» без уточненияимени является Илья Ростов.Также во вторую подгруппу неоднозначных упоминаний входят анафорическиеместоимения «он», «она» и их формы. Как уже отмечалось, для разрешения анафорыиспользовалась система ABBYY Compreno. Ошибочное разрешение анафоры чаще всегопроисходило в случаях, где присутствовало два или более потенциальных антецедента,например: «В то время как Борис вошел к нему, Пьер ходил по своей комнате, изредкаостанавливаясь в углах, делая угрожающие жесты к стене, как будто пронзая невидимоговрага шпагой, и строго взглядывая сверх очков и затем вновь начиная свою прогулку,проговаривая неясные слова, пожимая плечами и разводя руками.— L’Angleterre a vécu, — проговорил он, нахмуриваясь и указывая на кого-то пальцем.—Monsieur Pitt comme traitre à la nation et au droit des gens est condamné à...

— Он не успелдоговорить приговора Питту, воображая себя в эту минуту самим Наполеоном и вместе ссвоим героем уже совершив опасный переезд через Па-де-Кале и завоевав Лондон, — какувидал входившего к нему молодого, стройного и красивого офицера. Он остановился»[Толстой, 1979: c. 69-70]. В этом фрагменте все местоимения относятся к Пьеру, однако дляавтоматической системы разрешения анафоры это чрезвычайно сложное место. В первомпредложении мы имеем дело с редкой для русскоязычного текста катафорической связью(местоимение-анафор предшествует имени), а последнее «он» даже человек, читающийтекст, легко может отождествить с офицером (т.е. Борисом) — тот также мог остановиться,после того как вошел.Наконец, третья группа — неоднозначные нарицательные наименования персонажей,встречающиеся нерегулярно, окказиональные упоминания.

К таковым, относится «офицер»из примера выше, а также разнообразные упоминания персонажей в какой-либо роли:«жених» (Андрей Болконский), «хозяин» (Николай Ростов в охотничьих сценах 2 тома и вэпилоге, дядюшка Ростовых), «барин» (Пьер Безухов, Николай Ростов, АндрейБолконский) и т.п. Такие упоминания персонажей размечались системой ABBYY Compreno45(т.к. указанные слова относятся к наименованиям людей), но в общем случае неидентифицировались однозначно.Дополнительная разметка неоднозначных собственных имен и регулярных неоднозначныхнарицательных имен увеличила общее число идентифицированных упоминанийперсонажей в разметке до 25,6 тыс. Для определения их пригодности для дальнейшегоколичественного исследования была произведена оценка общего качества разметки.

На 50абзацах,извлеченныхслучайноприпомощипрограммногомодуляполученияпсевдослучайных чисел, была рассчитана точность и полнота разметки персонажей. Оценкапроизводилась на двух уровнях: 1) оценка извлечения упоминаний персонажей и 2) оценкаизвлечения и идентификации персонажей. В случае 2 успешно извлеченным считалсятолько персонаж с корректно приписанным уникальным идентификатором в атрибуте ref.Упоминание персонажа с отсутствующим идентификатором рассматривалось какнеизвлеченное (ошибка второго рода, false negative). Упоминание персонажа с неверноуказанным идентификатором рассматривалось как ошибочно извлеченное (ошибка первогорода, false positive). Итоговые результаты представлены в таблице 2:Таблица 2. Результат выборочного тестирования качества разметки и идентификацииперсонажей в тексте «Войны и мира»Уровень оценкиТочность ПолнотаF-мераИзвлечение упоминаний (правильное выделение тега <rs>)0,9890,910,9470,670,782Извлечение и идентификация (правильное выделение тега 0,94<rs> с правильно заполненным атрибутом @ref)Как видно, наш подход демонстрирует высокую точность разметки при не слишкомвысокой полноте, что вообще свойственно подходам, основанным на наборах правил ишаблонов.

Таким образом, в разметке есть неидентифицированные упоминанияперсонажей, но достаточно мало неверно идентифицированных упоминаний, что делает еепригодной для дальнейшего исследования. Наличие пропущенных упоминаний, по нашимнаблюдениям, не критично, т.к. рядом с пропущенным упоминанием обычно находитсянесколько упоминаний того же героя, которые модель идентифицировала верно.Используемые нами методы количественного анализа в таком случае учитывалиупоминание персонажа, и результат не оказывался искажен.Полученная разметка сразу позволяет сопоставить общие частотности упоминанияперсонажей в книге.

Наиболее часто упоминаемым персонажем оказывается Пьер.Частотности упоминаний 20 наиболее частотных персонажей «Войны и мира»представлены в таблице 3:Таблица 3. 20 наиболее часто упоминаемых персонажей «Войны и мира» по результатамразметки46ПерсонажЧисло упоминанийПьер Безухов4523Наташа Ростова2618Николай Ростов2463Андрей Болконский1852Марья Болконская1140Кутузов998Наполеон991Александр I827Соня Ростова749Денисов657старый князь Николай Болконский532граф Илья Ростов527Борис Друбецкой524Петя Ростов524Долохов523графиня Наталья Ростова471Василий Курагин433Элен Курагина370Анатоль Курагин336Елизавета Болконская3021.3.2 Разметка речи персонажейВторым слоем семантической разметки стала разметка прямой речи персонажей.

Прямойречью считались только реплики, которые однозначно произносились вслух и былиадресованы другому лицу или лицам. Таковых, по подсчетам на основе нашей разметки, вкниге Л. Н. Толстого 6392. Первоначально выделение участков текста, содержащихпрямую речь, производилось автоматически с опорой на два основных признака.

Первый— наличие тире в начале строки, указывающее на ввод прямой речи. Второй — наличиеконструкции вида «тире + глагол речи в прошедшем времени в мужском или женском роде:сказал(а), ответил(а), обратился(ась), кричал(а), прошептал(а) и др. Для разметки участковпрямой речи использовался элемент TEI/XML <said> — он накладывался на предложениеили группу предложений, составляющих реплику (рис. 6).Рис. 6. Пример разметки реплики в TEI/XML47Персонаж, являющийся адресантом или адресатом реплики, в случае его эксплицитногоуказания в тексте — «сказал Пьер», «прошептала Наташа», «сказал Долохов Денисову» —также извлекался автоматически из разметки, полученной на предыдущем этапе (см. раздел1.3.1 выше).

Однако для большинства реплик адресант не указан или указан в виденеоднозначного анафорического местоимения, адресат же не указан в явном видепрактически никогда.В связи с этим на следующем этапе разметки недостающиеадресанты и большая часть адресатов были размечены вручную. Для кодированияадресанта использовался специально предназначенный для этого TEI/XML атрибут @who.Адресат кодировался при помощи атрибута @corresp (рис.

7).Рис. 7. Пример разметки реплики с атрибутами @who и @corresp в TEI/XMLНа основе подготовленной таким образом разметки можно сразу получить данные околичестве реплик каждого персонажа. В таблице 4 представлено количество вхожденийпрямой речи для 15 персонажей с наибольшим количеством реплик.Таблица 4. Число вхождений прямой речи у отдельных персонажей «Войны и мира»ПерсонажКоличество репликПьер Безухов503Наташа Ростова483Андрей Болконский407Николай Ростов393Марья Болконская241старый князь Н. Болконский160Денисов153графиня Наталья Ростова140Долохов134граф Илья Ростов127Кутузов119Соня Ростова117Василий Курагин112А. М. Друбецкая91Наполеон86481.3.3 Дополнительная информация в разметкеДополнительноввидеиерархическогоXML-деревабыларазмеченаструктурапроизведения в том виде, в котором она представлена в источнике текста ([Толстой, 1979]):четыре тома (элемент <div> со значением «volume» атрибута @type), внутри томов —части, внутри частей — главы, внутри глав — абзацы (элемент <p>).Рис.

8. Элементы разметки структуры текста в TEI/XMLПолная TEI/XML разметка, снабженная более подробными метаданными, размещена воткрытом доступе по адресу www.tolstoy.online/war_and_peace_tei.zip. Разметка может бытьиспользована как для воспроизведения наших результатов, так и для осуществления иныхисследований.2 Моделирование системы персонажей «Войны и мира» наоснове разметки прямой речиВо второй главе система персонажей книги «Война и мир» исследуется с опорой наразметку прямой речи.

Характеристики

Список файлов диссертации

Семантическая разметка художественных текстов для количественных исследований в филологии (на примере романа Война и мир Л.Н
Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6510
Авторов
на СтудИзбе
302
Средний доход
с одного платного файла
Обучение Подробнее