Диссертация (1148605), страница 36
Текст из файла (страница 36)
180):1. Инвариантный словарь по ЧС стандартизованных словоформ2 длясписков5главныхредакций:Основной,Летописной,Киприановской,Распространенной и редакции Синопсиса;1Kendall M.G., Smith B.B. The problem of m rankings [Electronic resourse] // Annals of Mathematical Statistics. 1939.Vol.10. №3.URL: http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aoms/1177732186 (датаобращения 20.10.2013).2Далее в тексте и на графиках – ЧС словоформ, т.к.
ЧС рукописных словоформ не анализировались с помощьюэтой методики. Только для анализа по методикам В.В.Фуфаева и М.В.Арапова-М.М.Херц отождествлялисьсловоформы с одинаковым буквенным составом, но разным набором выносных букв. Такая дополнительная1792. Инвариантный словарь по ЧС лексем для списков 5 главных редакций;3. Инвариантный словарь по ЧС словоформ для 8 списков «Сказания»;4. Инвариантный словарь по ЧС лексем для 8 списков «Сказания»;5.
Инвариантный словарь по ЧС словоформ для пары «Распространеннаяредакция – сокращенный вариант»;6. Инвариантный словарь по ЧС лексем для пары «Распространеннаяредакция – сокращенный вариант»;7. Инвариантный словарь по ЧС словоформ для пары «Основная редакция –беллетризованный вариант»;8. Инвариантный словарь по ЧС лексем для пары «Основная редакция –беллетризованный вариант».В качестве иллюстрации в приложении Л приведены инвариантныйчастотный словарь (таблица Л.1) и инвариантные ранговые словари (таблицы Л.2Л.3), составленные по 8 спискам «Сказания».При составлении инвариантных словарей слова из общей части словниковрассматриваемых текстов были упорядочены в соответствии с их частотами вкаждом из текстов и ранжированы по убыванию частот.
Затем из полученныхранговых словарей для каждого слова были сформированы кортежи рангов,причем первым элементом в кортеже записан ранг слова в самом раннем варианте«Сказания» в пределах рассматриваемого комплекта.Поясним сказанное на примере частотного ИС, составленного на материале5 главных редакций «Сказания» (см. таблицу 13).В таблице 13 каждой лексеме соответствует кортеж из ее частот в разныхсписках. Первый элемент в каждом кортеже – частота лексемы в списке Основнойредакции, которая считается начальным состоянием текста, остальные редакциирасположены в порядке их возникновения (см. приложение Л.1).обработка сделана из-за желания получить количественные корреляты содержательных особенностей редакцийпри анализе ЧС словоформ.180Таблица 13 ― Фрагмент частотного ИС лексем для 5 редакций «Сказания»лексемаFAFBFCFDFEИ7606901203796568ЖЕ306281210340197КНЯЗЬ269246301288247НА210196215196169ВЕЛИКИИ206165227230184СВОИ184173175187157БЫТИ17415820318792ОН153184284154120ТЪ1481129310068Примечания1 F – абсолютная частота в тексте редакции2 А – Основная редакция, B – Летописная редакция, C – Киприановская редакция, D –Распространенная редакция, E – редакция СинопсисаФрагмент рангового ИС для того же набора списков приведен в таблице 14.Таблица 14 ― Фрагмент рангового ИС лексем для 5 редакций «Сказания»лексемаИЖЕКНЯЗЬНАВЕЛИКИИСВОИБЫТИОНТЪr, ранг лексемы в спискеABCD1111226233234455574466116787785389121518E13254611918Примечание ― А – Основная редакция, B – Летописная редакция, C – Киприановскаяредакция, D – Распространенная редакция, E – редакция СинопсисаЧастотные и ранговые ИС были составлены с помощью процедуры наVisual Basic1.В ранговом ИС, полученном с помощью процедуры на Visual Basic, вкаждом из словарей нет упорядочивания по алфавиту внутри групп лексическихединиц с одинаковой частотой: слова попадают в инвариантный словарь впорядке их появления в списке, соответствующем начальному состоянию текста .С одной стороны, это позволяет с большей легкостью соотнести группыкомпактно расположенных слов с эпизодами «Сказания», с другой стороны,1Автор благодарит С.Л.Пущина за предоставленные макросы на Visual Basic для проведения расчетов по методикеВ.В.Фуфаева.181переходкалфавитномуупорядочениюединицсловарявнутригруппредкочастотных слов влияет на значение ранга1 (это также существенно дляметодики М.В.Арапова-М.М.Херц).
Поэтому для всех инвариантных частотныхсловарей были дополнительно построены инвариантные ранговые словари салфавитным упорядочиванием внутри групп лексических единиц с одинаковойчастотой. Способ упорядочивания почти не влияет на форму S-распределения изначение коэффициента конкордации (см. рисунок 17 на с. 187 и графики Sраспределений в Приложении П).Способ упорядочивания существенно влияет на лексических состав разныхучастков рассматриваемого распределения, но это влияние в работе детально неисследовалось. Отчасти о нем можно судить по результатам, приводимым в § 4.5.ПоданнымранговыхИСвычислялсякоэффициентКендэла W.
Для всех комплектов списков значениеконкордацииW превышает 0,5.Коэффициент конкордации был рассчитан для всех 16 (=8х2) ранговыхинвариантных словарей (8 ИС с алфавитным упорядочиванием + 8 ИС снеалфавитным упорядочиванием).Исходные данные для расчета W содержатся в таблицах ранговыхинвариантных словарей, в строках (ni) помещены слова, в столбцах (mj) – рангикаждого слова в инвариантном словаре (см. приложения Л.2 и Л.3).Опишем пошагово расчет коэффициента конкордации W Кендэла:1.
Вычислить сумму рангов для каждой строки ni, i 1…k, суммировавранги в столбцах mj, относящихся к одной строке, j 1…r.2. Вычислить средний ранг, разделив сумму рангов для всех строк наколичество строк k.3. Вычислить отклонение суммы рангов для каждой строки от среднегоранга.4. Для нахождения S возвести полученные отклонения в квадрат ипросуммировать.1Это еще одна «оборотная сторона медали» при использовании ранга в качестве независимой величины. Ср.невозможность избавления от рангового искажения в методике В.П.Маслова.1825. Вычислить коэффициент конкордации по формуле (13):W12 Sk (r 3 r)(13)2где k – количество рангов (в данном случае равно объему словаря);r – количество ранговых распределений (т.е., количество списков, покоторым строится инвариантный словарь);S – сумма квадратов отклонений рангов от ранговой средней.Значение коэффициента конкордации W для анализируемых групп и парсписков «Сказания» приведены в таблице 15.Таблица 15 ― Значение коэффициента конкордации Кендэла W для ранговых ИСсписков «Сказания» с алфавитным и неалфавитным упорядочиванием лексических единиц,имеющих одинаковую частотуИнвариантный словарь (ИС)Единица ИСсловоформалексемаИС5главныхредакций словоформа«Сказания»ЛексемаИСОсновнойредакциии словоформабеллетризованного вариантаЛексемаИС Распространенной редакции и словоформасокращенного вариантаЛексемаИС 8 списков «Сказания»Объем ИС25249442970011541134932921Wалф0,710,800,720,810,840,930,800,86Wнеалф0,720,800,740,790,820,890,770,88По данным таблицы 15 можно сделать вывод, что коэффициентконкордации слабо чувствителен к способу упорядочивания низкочастотныхлексических единиц.Общая (т.е.
инвариантная) часть словаря невелика для комплектов словарейиз 5 и 8 списков (напомним, что в среднем в полном ЧС словоформ «Сказания»имеется 3500 словоформ, а в полном ЧС лексем – 1800 лексем), но значительнадля комплектов из двух списков.Можно подсчитать, какое количество словоупотреблений охватываютпостроенные инвариантные словари – величину покрытия (ВП) – и определитьдолю этих словоупотреблений в каждом тексте – ВП, в процентах (см. таблицу16).183Таблица 16 ― Величина покрытия комплектов и пар списков «Сказания» лексикойпостроенных по ним инвариантных словарейНазвание редакции (списка)ВПВП, в %ИС словоформ по 8 спискам «Сказания»Основная411438Летописная389539Киприановская449140Распространенная447939Редакция Синопсиса320037Сокращенный269540Компилятивный464741Беллетризованный345541ИС лексем по 8 спискам «Сказания»Основная850677Летописная775579Киприановская883178Распространенная882377Редакция Синопсиса654077Сокращенный553181Компилятивный872678Беллетризованный681680ИС словоформ по 5 спискам «Сказания»Основная514947Летописная486249Киприановская550549Распространенная524946Редакция Синопсиса386445ИС лексем по 5 спискам «Сказания»Основная910283Летописная829284Киприановская959185Распространенная948083Редакция Синопсиса714184ИС словоформ Распространенной редакции и ее сокращенного вариантаРаспространенная656257Сокращенный462368ИС лексем Распространенной редакции и ее сокращенного вариантаРаспространенная990988Сокращенный639994ИС словоформ Основной редакции и ее беллетризованного вариантаОсновная663760Беллетризованный582869ИС лексем Основной редакции и ее беллетризованного вариантаОсновная9979Беллетризованный80969096184Из таблицы 16 видно, что лексика инвариантного словаря покрывает от 38до 96% словоупотреблений в сравниваемых комплектах и подавляющую частьсловоупотреблений в парах текстов «Сказания».Теперь можно вернуться к обсуждению коэффициента конкордации.Высокий коэффициент конкордации подтверждает принадлежность выборок (т.е.,инвариантных частотных словарей списков «Сказания») к одной генеральнойсовокупности и служит основанием для применения метода структурнотопологической динамики.
Таким образом, коэффициент конкордации уже сам посебеимеетпрактическуюзначимостьдлялингвостатистики,постоянносталкивающейся с проблемой репрезентативности выборок и соотнесения их сгенеральнойсовокупностьюиможетприменятьсядляустановленияоднородности выборки.Возможность применения коэффициента конкордации для установлениянеоднородности генеральной совокупности позволяет выдвинуть следующуюгипотезу: коэффициент конкордации W пригоден для кластеризации текстов. Втом случае, если предположение верно, коэффициент конкордации долженуменьшиться при введении постороннего текста, например, другой тематики, вряд однородных текстов.Тестированиепроизводилосьначастотныхсловаряхлексемснеалфавитным упорядочиванием. Для проверки гипотезы был взят рассказН.С.Лескова «Совместитель» (8825 словоупотреблений), лемматизирован спомощью морфологического анализатора mystem (Яndex), дополнительно былисделаны следующие замены для единообразия представления инфинитива всловаре лексем: -ться тися, -ать -ати, -ять -яти, -еть -ети, -ить -ити.Каждый частотный словарь «Сказания» поочередно заменялся частотнымсловарем рассказа Лескова, в каждом случае формировался инвариантныйсловарь и вычислялся коэффициент конкордации (результаты см.
в таблице 17).185Таблица 17 ― Изменение значения коэффициента конкордации и количества лексем винвариантном словаре при подстановке текста «Совместителя» Н.С.Лескова вместо одного изсписков «Сказания»ОбъемНазвание редакции (списка) Значение WИСОсновная0,77169Летописная0,77168Киприановская0,79176Распространенная0,77169Редакция Синопсиса0,79178Сокращенный0,78188Компилятивный0,77169Беллетризованный0,78171Примечания1 Название редакции (списка) – в этом столбце указан список, вместо которогоподставлялся текст «Совместителя»2 Значение W – значение коэффициента конкордации Кендэла, вычисленное дляинвариантного словаря 7 списков «Сказания» и текста «Совместителя»Из таблицы 17 видно, что коэффициент конкордации остается по-прежнемувысоким (0,77–0,79), но резко уменьшается объем инвариантного словаря: с 494(см.