Диссертация (1148552), страница 17
Текст из файла (страница 17)
Алгоритмприменения данного метода подразумевает выполнение несколькихпоследовательных этапов: 1) определение набора параметров для описанияисследуемых объектов, 2) снижение размерности параметрическогопространстваза счётопределенияинформативныхпараметров,3)определение координат рассматриваемых объектов и 4) выполнениеатрибуции с использованием детерминированного и вероятностногоалгоритмов.2. Атрибуция с использованием критериев близости – подразумевает проверкуатрибуционной гипотезы с использованием критериев сходства.
В даннойработе применяется так называемый критерий Сёренсена-Чекановского (или89«мера близости по обилию»). Для определения значения критерия такжевыполняются первые два этапа предыдущего метода, после чегопроизводится подсчёт и сравнение значений критерия для априорныхклассов и атрибутируемого объекта.3. Атрибуция с использованием вероятностных классификаторов – в качествеклассификатора используется один из самых простых и самых частоиспользуемых при обработке натуральных языков - наивный байесовскийклассификатор. Обучение и тестирование классификатора проводится накорпусе определённых значений информативных параметров, после чегопроизводится проверка атрибуционной гипотезы.4.
Атрибуциясиспользованиемиерархическойаггломеративнойкластеризации – для атрибуции строятся дендрограммы из попарнообъединяемых кластеров, сформированных из объекта атрибуции иаприорных классов и фиксируется характер и направление их объединения.Описание математического аппарата каждого из методов применительно кхарактеру решаемой задачи приведено в соответствующих разделах данной главы.3.2. Формирование параметрического пространстваТермин «параметр» в данной главе используется в соответствии сопределением, приведённым М.
А. Марусенко в [там же, с. 66]: «некоторый квантинформации о языковой структуре, который в экстремальном случае можетпредставлять самостоятельный интерес, но обычно выступает в сочетании с другимипараметрами». Адекватное формирование исходных описаний объектов являетсяодним из ключевых условий успешного решения задачи атрибуции анонимных ипсевдонимных текстов.90В соответствии со списком первичных параметров, предложенным в [там же, с.71-72],формируетсянаборпараметров,релевантныхдлясредневековогофранцузского стихотворного текста.Из списка используемых первичных параметров исключаются X38 – «числопричастных оборотов», Х39 – «число членов причастных оборотов», Х40 – «числораспространённыхпричастныхопределений»иХ41–«числочленовраспространённых причастных определений», так как они отражают грамматическиепонятия, не относящиеся к группе романских языков, соответственно, их невозможноиспользовать для французского и старофранцузского языков.Параметры X46 – «число обособленных членов» и X45 – «число членов вгруппах обособленных членов» могут быть использованы только для современногофранцузского языка или французского языка XVII – XVIII веков, в которых ужеприменялись правила пунктуации.
В случае французского языка XII века вманускриптах правила пунктуации практически отсутствовали. Несмотря на то, чтоподсчёт параметров осуществляется по современным изданиям, в которыхпунктуация присутствует, она является результатом работы издателя, а не автора, ине может использоваться для описания авторского стиля.Полный перечень используемых параметров приведен в таблице 3.1.Таблица 3.1.Перечень используемых первичных параметровКодОписание параметрапараметраX1Число слов в простом самостоятельном предложенииX2Число элементарных предложенийX3Число главных предложенийX4Число сочинённых предложений91X5Число сочинённых предложений без спрягаемой формыглаголаX6Число подчинённых предложенийX7Число подчинённых предложений 1-й степениX8Число подчинённых предложений 2-й степениX9Число подчинённых предложений 3-й степениX10Число подчинённых предложений 4-й и высших степенейX11Число элементарных предложений без номинативногоподлежащегоX12Число подчинённых предложений без спрягаемой формыглаголаX13Число вставных предложенийX14Число охватывающих предложенийX15Число слов 1-й группы (знаменательных)X16Число слов 2-й группы (служебных)X17Число имён существительныхX18Число имён прилагательныхX19Число местоименийX20Число спрягаемых форм глаголаX21Число именных форм глаголаX22Число наречийX23Число предлоговX24Число союзовX25Число подчинительных союзовX26Число сочинительных союзовX27Число предикативовX28Число слов в именительном падеже92X29Число слов в косвенном падежеX30Число подлежащихX31Число местоимений-подлежащихX32Число групп однородных членовX33Число членов однородных группX34Число однородных сказуемыхX35Число однородных групп дополнений глаголаX40Число качественных прилагательных и определительныхприлагательныхX41Число причастий – согласованных определенийX42Число несогласованных определенийX43Число существительных – несогласованных определенийX46Число абсолютных оборотовX47Число членов абсолютных оборотовX48Число инфинитивных оборотовX49Число членов инфинитивных оборотовX50Число минимальных групп существительныхX51Число групп существительныхX52Число членов групп существительныхX53Число знаменательных слов в группах существительныхX54Число служебных слов в группах существительныхПервичные параметры определяются по чёткому алгоритму.
Алгоритм длякаждого из параметров приведён в таблице Приложения 1.933.3. Формирование априорного алфавита классовВ данной работе в априорный алфавит классов включаются два априорныхкласса: Ω1 – Жербер де Монтрёй и Ω2 – Манессье. К сожалению, существует толькодва текста, которые можно с уверенностью отнести к данным классам: «Роман оФиалке» и «Продолжение Манессье». В соответствии с этим, для удобствадальнейшего описания названия априорных классов преобразуются в Ω1 – «Роман оФиалке» и Ω2 – «Продолжение Манессье». Атрибутируемый класс «Неизвестныйавтор» будет обозначаться как Ω3 – «Четвёртое продолжение». Здесь и далееальтернативное название «Четвёртого продолжения» – «Продолжение Жербера» - небудет использоваться, для того чтобы избежать путаницы в понятиях.
Состав имощность априорных классов приведены в таблице 3.2.Таблица 3.2Состав и структура классовКлассСостав классаМощностьОбъём класса, NклассаΩ1 – «Роман оФиалке»Ω2«Романо119011240013565Фиалке»–«Третье«ПродолжениепродолжениеМанессье»илипродолжениеМанессье»Ω3–«Четвёртое«Четвёртоепродолжениепродолжение»или94ПродолжениеЖербера»Необходимо принять во внимание тот факт, что во всех классах учитываютсятолько предложения авторского текста, не содержащие прямую речь.3.4.
Определение информативных параметровВ параметрическое пространство исследуемых объектов были включены 48параметров из априорного словаря параметров, которые, в той или иной степени,могут коррелировать друг с другом, что объясняется наличием связей междупараметрами различных уровней лингвистического анализа.
Наличие таких связейрассматривается в работах И. П. Севбо (зависимость между длиной пути в графе иколичеством слов во фразе), В. Фукса (зависимость между числом слов, секций исуммой значений рангов в предложении), М. А. Марусенко и других исследователей[162, с. 78-80; 164, с.337; 165, с. 167]. Использование в процессе атрибуции большогоколичества коррелирующих между собой параметров приводит к сложностям прианализе объектов и возможному искажению результатов.Таким образом, для успешного выполнения применяемой на первом этапеисследования процедуры атрибуции необходимо предварительно провести процедуруснижения размерности параметрического пространства, то есть разделить параметрына информативные и неинформативные.
Информативными параметрами будутсчитаться такие параметры, которые были бы в наименьшей степени связаны междусобой и в наибольшей – с параметрами, не вошедшими в список информативных.Для решения этой задачи в параметрическое пространство были включены 48параметров из априорного словаря параметров, а из априорных классов Ω1 и Ω2 были95сформированы две прикидочные случайные выборки объёмом в 100 предложений,описанные на языке априорных параметров.Результаты эксперимента были объединены в объектно-признаковые матрицы = { }, = 1, ; = 1, где n = 48 – это число априорных параметров, N = 100 – объём выборки, аэлемент zij представляет собой значение, которое принимает i-ый параметр в j-омпредложении.
Средние значения и стандартные отклонения значений априорныхпараметров на классах Ω1 и Ω2 приведены в таблицах 3.3. и 3.4.Таблица 3.3Статистические характеристики распределений параметров, класс Ω1(«Роман оФиалке»)Параметр̅SX13,5406,002X21,7301,523X30,7200,766X40,6001,044X50,0300,171X60,7600,965X70,6400,746X80,1100,345X90,0100,100X100,0000,000X111,6101,091X120,0000,000X130,1200,356X140,1200,356X1510,0705,31796X164,1502,855X172,6802,131X180,9601,188X191,7301,595X202,3301,400X210,3800,693X221,3401,622X231,2501,167X241,3001,474X250,4800,659X260,8501,048X270,3000,659X281,6201,716X294,2003,101X300,5900,830X310,5100,718X320,5200,703X332,3403,424X340,4401,076X350,2000,426X400,7600,900X410,0100,100X420,1200,383X430,1100,373X460,0000,000X470,0000,000X480,0000,00097X490,0000,000X501,6101,607X510,8900,898X523,3603,973X532,5602,865X540,7501,321Таблица 3.4СтатистическиехарактеристикираспределенияΩ2(«Продолжение Манессье»)Параметр̅SX12,7504,823X22,1501,513X31,2000,974X40,3800,789X50,0000,000X61,1901,107X70,9600,864X80,1700,403X90,0600,278X100,0100,100X111,8901,278X120,0200,200X130,0600,239X140,0600,239X1512,7305,722X165,0002,734параметров,класс98X172,9101,770X181,5001,508X192,5602,110X202,8501,486X210,3400,623X221,7901,585X231,8501,373X241,6101,550X250,9001,068X260,7100,868X270,3400,714X282,3402,066X295,6603,131X301,4501,158X310,8300,985X320,5200,745X331,9902,725X340,4600,958X350,0800,273X401,0101,176X410,0100,100X420,2100,478X430,0800,307X460,0000,000X470,0000,000X480,0300,223X490,0800,58099X501,7701,286X511,1501,132X524,7004,704X533,6503,569X541,0301,417Для формирования набора информативных параметров была применена схемаБонгарда с двухступенчатым свёртыванием параметрического пространства [166, с.241].
Данная схема включает в себя два этапа: этап определения релевантных инерелевантных параметров для различения априорных классов и этап свёртыванияпараметрического пространства на подмножестве информативных параметров.Для определения релевантных параметров на первом этапе схемы Бонгардаиспользовался t-критерий Стьюдента, вычисляемый по формуле 3.1:=|̅̅̅1 − ̅̅̅|2121/222;(3.1. )( + )12где ̅̅̅̅1 и ̅̅̅2 − это средние значения, 12 и 22 – стандартные отклонения, а1 и 2 – размеры выборок.Для отнесения параметра к числу релевантных значение критерия должно бытьбольше критического значения 1,96, соответствующего уровню значимости 0,05.Параметры X46 и X47 были исключены из рассмотрения как имеющие тольконулевые значения (не встретились в выборке).