Диссертация (1148552), страница 23
Текст из файла (страница 23)
Этот подход используется многимисовременными учёными, изучающими средневековые тексты, например, М. ВанМулкен и М. Кестемонт. Так, например, исследователь текстов Кретьена де Труа, М.Ван Мулкен, предлагает использовать его для исследования диалекта автора «Романао Персевале» [188, p. 122-130].Оправданность этой идеи определяется следующими предпосылками:1. Как правило, все известные на данный момент средневековые произведениясохранились в виде более поздних копий, а даже если и существует копия,написанная непосредственно автором, то идентифицировать её невозможно.2. Сохранившиеся копии могут быть написаны на различных диалектах иопределить с уверенностью оригинальный диалект автора затруднительно.3.
В наличии имеются только копии, созданные более или менее старательнымипереписчиками. В задачу переписчика, в зависимости от условий, входило не145просто переписать текст, а подогнать его к актуальным временным иязыковым реалиям.4. Предполагается, что к рифмам переписчики относились гораздо болеебережно, чем к прочему тексту, предпочитая не изменять их без крайнейноебходимости. Это обусловлено тем, что копия, несмотря ни на что, должнабыла оставаться рифмованной, а переписчик, в общем случае, не обладалдостаточным талантом, для того чтобы успешно изменять исходные рифмы.5. Средневековые рифмы представляли собой широкий, но ограниченныйнабор клише, призванный сохранять литературную традицию, столь важнуюдля средневекового общества (подробнее см. Заключение).Следовательно, выделяя рифмы из текста, можно восстановить вероятнуюзвуковую и силлабическую структуру языка поэта и отделить их от изменений,внесённых переписчиком.
Рифмы особенно важны, в данном случае, ещё и потому,что предполагают одинаковость звучания, фонетическую идентичность, независимуюот того, каким образом рифмованные слова были записаны переписчиком.В соответствии с этим, было решено провести параметризацию исследуемыхпроизведений по нескольким группам параметров, потенциально пригодным дляописания поэтического авторского стиля их автора.М. Кестемонт [189] предлагает использовать для математического описаниятекстов только и исключительно слова, непосредственно участвующие в рифмах,после применения к ним алгоритмов лемматизации и/или стемминга, и дальнейшееопределение близости текстов путём подсчёта встречаемости слов в каждомконкретном тексте. Несмотря на то, что подобный подход относительно успешнозарекомендовал себя в его исследованиях, тем не менее, он представляется несколькоупрощённым: так, например, лемматизация рифмованных слов приводит к потереинформации о том, какие именно словоформы использованных слов предпочиталавтор при формировании рифмы, что может представлять определённый интерес при146проведении атрибуции.
Кроме того, очевидно, что рифмованные строки содержат всебе значительно большее количество информации, чем просто набор рифмованныхслов.Для удобства дальнейшего изложения, эта информация будет разделена на двеосновные группы: «качественные параметры» и «количественные параметры». Под«количественнымипараметрами»будутподразумеватьсяпараметры,дляопределения которых необходимо подсчитать количество включений какой-либосущности в выборке из элементов параметризируемого класса, под «качественными»- параметры, характеризующие особенности рифм.Перечень «количественных» параметров, предлагаемых для попытки атрибуцииисследуемого произведения, включает в себя:1. Рифмованные словаДля каждого априорного и атрибутируемого класса формируется набор слов,используемых для построения рифмы.2. Рифмованные звукиДля каждого априорного и атрибутируемого класса формируется набор звуков,использованных для построения рифмы.3.
Рифмованные слогиДля каждого априорного и атрибутируемого класса формируется набор слогов (илигрупп слогов) рифмованного слова, использованных для построения рифмы.4. Часть речи, к которой относится рифмованное словоДля каждой рифмы определяется, какими частями речи являются слова,использованные в рифме.5. Член предложения, которым является рифмованное словоДля каждой рифмы определяется, какими частями предложения являются слова,использованные в рифме.147Несмотря на то, что параметры 1-3, в некоторой степени, дублируют друг друга(так, например, выделение рифмованного слога(ов) из рифмованного слова можнорассматривать как действие, эквивалентное лемматизации данного слова), тем неменее могут представлять интерес и сами по себе.Помимо вышеперечисленного, рифмованные строки можно рассматривать сточки зрения характера получившейся рифмы.
Формируемый таким образом словарьпараметров образует группу «качественные параметры» и включает в себя понятия,традиционно используемые при изучении стихотворных произведений. При этом, вотличие от группы «количественные параметры», такая группа параметров не можетбыть универсальной – при атрибуции произведений необходимо учитыватьособенности стихотворных форм тех эпох, к которым эти произведения принадлежат.Так, например, все произведения, относящиеся по категоризации Жана Боделя,к так называемому «La matière de Bretagne» [190, p.
104] - «артуровским романам» написаны силлабическим восьмисложником ямбического происхождения, что верно,в том числе, для исследуемых произведений Цикла о Граале, того же размерапридерживался и автор «Романа о Фиалке». Этот размер сложился по образцу ритмалатинского восьмисложника, читаемого на французский лад, по Гаспарову – «8 слоговбез цезуры, обязательное ударение на последнем слоге, остальные произвольны … врусских переводах условно передаётся силлабо-тоническим четырехстопным ямбом»[191, с. 108].Исходя из этих предпосылок, можно с уверенностью утверждать, что данные остихотворном размере не будут нести никакой полезной информации для атрибуциив рассматриваемом случае.Вместо этого, в качестве параметров, описывающих характер рифмы, всоответствии с характером рифм, использующихся в исследуемых произведениях,предлагается обратить внимание на следующие типы рифм (примеры приведены из«Четвёртого продолжения» и «Романа о Фиалке»):1481.
По положению ударенияРифма может быть мужской (ударение на последнем слоге рифмованного стиха) илиженской (на предпоследнем слоге). Более редкие варианты – дактилическая илигипердактилическая - в исследуемых произведениях не встречаются.2. По числу рифмыРифма множественная (если рифмованное слово заканчивается на x, s или z) илиединственная (все остальные варианты).3. По степени полноты созвучия в рифме [192, p. 33]В средневековом французском стихе принято выделять четыре типа рифм по степениполноты созвучия: Идентичная рифмаДва слова рифмуются полностью – «siet – siet» Богатая рифмаДва или более рифмующихся звука – «gent – argent» Достаточная рифма – совпадающая согласная и рифмующийся звук (влюбой последовательности) – «vorra – venra», «muet-puet» Бедная рифма – один рифмующийся звук – «merchia – menjera» Ассонанс – нет рифмующихся звуков – «chaoir – maloiz»4.
Леонинский стихДополнительно, так как многие исследователи (см. первый раздел) явно указывают наобилие леонинского стиха, как свидетельство того, что автором «Четвертогопродолжения» является Жербер де Монтрёй [Wilmotte; Kraus], в качестве параметровиспользуется факт наличия и тип леонинского стиха. В исследуемых произведенияхприсутствуют два вида: Простой леонинский стих (leonine simple) – «pucele – novele» Завершенный леонинский стих (leonine parfait) – «colchiez – chiés»149Таким образом, на основании результатов исследования истории вопросаатрибуции «Четвёртого продолжения» и исторических данных о характере рифмфранцузской средневековой поэмы, формируется набор параметров для примененияпри описании классов-эталонов и поиска координат атрибутируемого класса, см.таблицу 4.1.Таблица 4.1Список параметров для атрибуции при помощи рифмованных строк№ п/п.
ПараметрОписание параметра1P1Женская рифма2P2Мужская рифма3P3Единственное число4P4Множественное число5P5Идентичная рифма6P6Богатая рифма7P7Достаточная рифма8P8Бедная рифма9P9Ассонанс10P10Простой леонинский стих11P11Завершенный леонинский стих12P12Рифмованные слова13P13Рифмованные звуки14P14Рифмованные слоги15P15Часть речи, к которой относится рифмованноеслово16P16Членпредложения,рифмованное словокоторымявляется1504.2. Описание математических методов, используемых при атрибуции сиспользованием рифмованных строкДля атрибуции с использованием рифмованных строк в данной работеиспользуется четыре основных метода, фактически дублирующие предложенные впервой главе:1.
Атрибуция при помощи теории распознавания образов2. Атрибуция с использованием коэффициента Сёренсена-Чекановского3. Атрибуция с использованием вероятностных классификаторов4. АтрибуциясиспользованиемаггломеративнойиерархическойкластеризацииОписание вышеперечисленных методов подробно приведено в третьей главеданного исследования, поэтому в данном разделе будет приведено только описаниеих применения в условиях изменившегося набора используемых параметров.
Вотличие от главы III, где для трёх методов применялся полный набор параметров изсловаря априорных параметров, в данной главе для каждого метода выделяетсянекоторое подмножество из всего параметрического пространства, определяемоеособенностями данного метода.Для атрибуции при помощи теории распознавания образов нерациональноиспользовать группу «количественные параметры» так как в таком случаеразмерность вектора, соответствующего каждому классу, будет несоразмерно великаотносительно входящих в него ненулевых элементов, что объясняется принципомформирования тестовой выборки.
Параметрическое пространство, используемое дляатрибуции при помощи теории распознавания образов, будет включать в себяпараметры с P1 по P11.Для параметризации при помощи коэффициента Сёренсена-Чекановского,напротив (в соответствии с другим его названием – «мера сходства по обилию»),151удобно использовать группу «количественные параметры», то есть параметры с P12по P16.Для параметризации при помощи наивного классификатора Байеса ииерархической кластеризации используются обе группы параметров, но с некоторымиуточнениями:1. Близость между априорными классами и атрибутируемым классомопределяется для каждого параметра по отдельности – в данном случае усуммарного значения классификатора нет никакого смыслового наполнения.2.