Диссертация (1148552), страница 15
Текст из файла (страница 15)
Виноградов отмечает тот факт, чтовсе они основываются на лексическом и фразеологическом анализе, однако «наличиемногочисленныхустойчивыхлексико-фразеологическихтрафаретов…напротяжении столетий и применявшихся в одних и тех же значениях и ситуациях,лишает и этот приём действенной и вполне доказательной силы». Индивидуальныечерты авторского стиля, по мнению учёного, выступают лишь «как видоизменения,некоторые вариации в системе общего жанрового стиля» [там же, с.55]. При этом онподчёркивает необходимость стилистического анализа для проведения атрибуциисредневекового текста и применения более формальных подходов.Понимание важности именно стилистического анализа, систематизации данныхо функционировании языковых единиц привело к разделению дальнейшего развитияметодов атрибуции и применения статистического аппарата на лексическом уровне и77синтаксическом уровне текста.
60-е годы также характеризуются большимколичеством разработок методов, основанных на лексическом анализе текста, как вотечественной науке, так и за рубежом. Французский лингвист Ш. Мюллер изучалквантитативную структуру лексики, в частности пьес П. Корнеля и произведений Ж.Ренара, с применением статистических методов. Исследователь полагал, чтоединственно верный путь к определению авторства лежит через количественнуюоценкуупотребленияследующихлексическихгруппнаосновевыборок:определённый артикль, предлоги à и de, глаголы avoir и être, союз que, относительныеместоимения.
Такой выбор был обусловлен тем, что это наиболее частовстречающиеся слова, не имеющие конкретного семантического наполнения.Измерение среднего расстояния и коэффициента вариативности не выявило чёткойкорреляции, поэтому слова были объединены в более крупные лексические группы(например, que+relatif), и определены два параметра для каждой группы: положение(на основе частоты) и распределение (коэффициент вариативности и расстояние).Затем Ш. Мюллер измерил теоретическую и практическую частоту употреблениякаждого слова и расстояние между ними. Учёный пришёл к выводу о том, чтоавторство фаблио «Auberée» («Обере, старая сводня») и двух тенцон, «De Renart et dePiaudoue» и «Du Plait et de Piaudoue», принадлежит Ж. Ренару [132, с.
271-279].Позднееисследовательсформулировалчетыреглавныхсоставляющих,определяющих текст: автор, язык (диалект, ограниченный географически ихронологически), тема и стиль. Первые два элемента статичны в произведении, тогдакак последние два находятся в движении [133]. При этом, исследователь приходит квыводу о том, что «невозможно создать портрет автора при помощи статистическогоаппарата», и предвосхищает следующий этап развития методов атрибуции: «Можнопопробоватьизбежатьлексикиипопробоватьколичественносинтаксические явления, и даже риторики» [там же, с. 370].измерить78Нельзя не упомянуть инновационное исследование, проведённое А.
П.Василевичем в 1981 году и посвящённое употреблению слов, обозначающих цвета(прилагательные, двусоставные слова, словосочетания), на материале поэзии и прозы.В основу анализа были положены следующие критерии: индекс живописности истепень оригинальности, определяемые индексом морфологической оригинальности(отношениесложныхсловкпростым),индексом насыщенности(частотаупотребления) и индексом лексической оригинальности (соотношение редких ичастых слов) [134]. Автор отмечает следующую тенденцию: писатели XIX века малоуделяли внимание цветовому описанию в текстах, в начале XX частота употребленияслов и живописных описаний возросла, а затем пошла на спад.
Это исследование ещёраз подтвердило универсальность формальных методов и математического аппаратаи возможность их использования для оценки лексической структуры.Лексическое направление в атрибуции вызывало серьёзный научный интерес вовторой половине XX века в различных аспектах, в частности, при разработкетеоретическихосновквантитативнойлингвистики.Однимиизнаиболеепримечательных исследований являются труды Ю.
А. Тулдавы, обобщившего методыквантитативно-системного описания лексической структуры языка. Исследовательвыводит два принципа количественной оценки лексического состава языка: принципсистемности и вероятностно-статистический характер её организации [135].Лексический состав языка имеет неограниченное число комбинаций при сохранениисистемных признаков, и поддаётся описанию формальными методами теориивероятностей и математической статистики. Учёный также впервые применяет методкластерногоанализаираспределительногомоделированиядляописаниялексического состава и обосновывает некоторые теоретические выводы, в частности,о том, что числовые характеристики текстов и словарей могут быть описаны припомощи закона Ципфа в ранговой и спектральной формах и сложнымикомбинированными функциями.
В аспекте стилистического анализа лексики учёный79приводит примеры вычислений на основании сравнения лексики текстов разныхавторов с высокими показателями индекса разнообразия и исключительности, а такжепримеры классификации текстов на основе числовых характеристик лексикостилистических признаков. Выводы Ю.А. Тулдавы подтвержает тот факт, что анализструктуры и состава лексического уровня является обязательным условием процессаатрибуции текстов.2.4.
Современные методы атрибуции анонимных и псевдонимных текстовСовременныесостояниеметодоватрибуциивзначительнойстепениобусловлено стремительным развитием информационных технологий. В конце 90-хгодов XX века стремительный рывок в области доступных компьютерных мощностейсущественно сказался на таких научных направлениях как извлечение информации,машинное обучение и обработка естественного языка, позволив свободно применятьих на параметрическом пространстве большой размерности. Использование данныхметодов наравне с более традиционными математическими методами атрибуциисущественно расширило возможности исследователей в области определенияавторства анонимных и псевдонимных произведений.В общем случае, практически для всех современных методов решение задачиустановления авторства некоторого текста разделяется на два принципиальных этапа:1.
Стилеметрические методы параметризация текста2. Математические методы обработки параметризированного текста802.4.1. Методы параметризации текстаМетоды параметризации текста можно условно разделить на несколькоосновных групп:Лексическая параметризацияОсновывается на представлении текста как набора слов. Включает в себямножествометодов(например,использованиефункциональныхслов).Параметризация при помощи функциональных слов является развитием идеиДиттенбергера (см. раздел 2.2.) и впервые используется в знаменитой работе [136],посвященной авторству «Записок Федералиста». Данный тип параметризацииподразумевает использование в качестве параметров некоторого набора простых слови определение частоты их встречаемости, при этом, используется фиксированныйнабор слов, включающий в себя местоимения, предлоги, вспомогательные глаголы,артикли и т.д. Иногда в список функциональных слов включают также числа имеждометия.Принцип, по которому исследователи остановились на использованиифункциональных слов, заключается в том, что они, с точки зрения смысловогонаполнения,практическибессодержательны.Вследствиеэтого,частотаихповторений теоретически не должна зависеть от темы текста, поэтому в разныхтекстах одного и того же автора они должны встречаться примерно с одинаковойчастотой.Крометого,предполагается,чтосознательноконтролироватьиспользование функциональных слов достаточно затруднительно, поэтому снижаетсяриск быть намеренно введённым в заблуждение [137].Очевидным недостатком метода параметризации при помощи функциональныхслов является вариативность списка параметров (например, для английского языкавыделяют от 150 [138] до 675 [139] функциональных слов) и зависимость их, в томчисле, от языка текста.81Другими возможными лексическими параметрами являются оценка богатствасловарного запаса, частота использования слов и n-грамм и даже ошибок в тексте.Лексическая параметризация зачастую включает в себя набор дополнительныхпроцедур, таких как токенизация, лемматизация и стемминг.Синтаксическая параметризация при решении задач атрибуцииДальнейшим этапом развития вычислительных методов определения авторстваявляется использование синтаксической параметризации при описании авторскогостиля.Синтаксическаяпараметризациясталаестественнымразвитиемиспользующейся в лексическом анализе параметризации на основе функциональныхслов.Можно утверждать, что функциональные слова относительно бессмысленныпотому, что выступают в качестве связок между словами, несущими основнуюсмысловую нагрузку.