Диссертация (1155254), страница 16
Текст из файла (страница 16)
В общем, пишите. Апотом сочтемся… [Геннадий Рявкин. Это странное ремесло (2013.04.05) //«Новгородские ведомости», 2013]Известно, что в церковнославянском языке агнец используется в прямыхзначениях: ‘ягненок’, ‘жертва’, ‘Иисус Христос’ (см. такие словари, как: словарьпрот. Г. Дьяченко [Дьяченко 1993], ЛЭСРХЛ [Добрушина 2012], Грамматическийсловарь церковнославянского языка А.Е. Полякова [Поляков]). В религиозномдискурсе,реализуемомв церковно-богословскихтекстах,лексемаагнец86используется либо в цитатах церковнославянского происхождения (10), либо в техже значениях, что и в церковнославянском языке. Так, в примерах (10), (11) и (13)лексема агнец используется по отношению к Иисусу Христу.(10) И значительны, знаменательны слова, которые провозглашает ИоаннКреститель: «Вот Агнец Божий, Который берет на Себя весь грех мира,Который на Свои плечи берет мир с его грехом, со всеми последствиями этогогреха» … [митрополит Антоний (Блум).
Крестный путь Христов (1992)](11) Как Агнец излиял Свою Кровь вместо агнцев, закалаемых в пустынедля жертвы, и принес Собою жертву Богу Отцу за спасение всего мира; какчеловек был положен во гробе, а как Бог освятил олтарь Церкви из язычников;как царь был охраняем стражами и запечатленный лежал во гробе, но как Богчрез ангельские воинства вещал бесовским силам втвердыне ада: «Возмитеврата князи ваша, и возмитеся врата вечная: и внидет Царь славы» [Слово наСвятую Пасху (2004) // «Журнал Московской патриархии», 2004.04.26](12) Стра́нно и вели́ко неѕло́біе показа̀, пребл҃же́нный, єгда̀ єди́нъ бу́ій иѕлонра́вный уда́ри єго̀ въ лани́ту: ѻ́нъ же, а́гнцу хрс̑ту̀ поревнова́въ, до землѝпоклони́ся бію́щему, моля̀ бг҃а ѡ проще́ніи єму̀. [Акафист святому ТихонуВоронежскому]Итак,врелигиозномдискурсесовременногорусскогоязыкацерковнославянская по происхождению лексика используется в тех же значениях,что и в церковнославянском языке или в приближенных к ним (см.
об этом:[Добрушина 2012: 105–113]).Необходимость подобных статистических сравнительных исследованийобсуждалась И.С. Улухановым еще в 2003 г. в отношении древнерусских текстов:«Вопрос о том, какие из элементов церковнославянского языка легче выходят заего пределы, остается недостаточно изученным. На ограниченном материале былавыявлена достаточно очевидная закономерность использования славянизмов вдревнерусском языке, которая, однако, не могла быть сформулирована безстатистических данных об употребительности церковнославянской лексики: чемчаще слово употреблялось в памятниках церковнославянского языка, тем дальше87оно проникает за их пределы – в летописные рассказы, в деловые памятники, вустную речь <...> В дальнейшем необходимо фронтальное изучение устоявшихсяособенностей употребления различных единиц церковнославянского языка,детальныйстатистическийдревнерусскимиединицами.анализЭтоэтихединицоткроетвихперспективысоотношениисобоснованного,конкретного и объективного решения вопроса о роли славянизмов в историирусского языка и о системе разновидностей языка Древней Руси» [Улуханов 2003:17, 20].
Ср. также с мнением В.В. Леденевой, высказанным ею относительноавторского идиостиля: «Предпочтение языковых средств, устанавливаемое пофактору частотности, представляет собой особенности идиостиля. Заметное местозанимает стилистически окрашенная лексика, призванная усилить или передать тоили иное впечатление, оценку, характеристику, художественно-эстетическийэффект» [Леденева 2001: 12)]. Это мнение также вполне применимо кспецифическим стилистическим дискурсивным исследованиям.2.2.1.
Методы исследования частотности церковнославянизмов всовременном русском языкеНаше исследование базируется на понятии значимая лексика. Дляопределенного сегмента языка возможно выделить определенные лексическиемаркеры. Как отмечено в Предисловии к «Новому частотному словарю русскойлексики», «…частота слов процесс и теория в научных публикациях значительнопревышает их частоту во всех остальных текстах корпуса.
Аналогичным образом,слова ну, да, вот, пожалуйста употребляются чаще в устной речи, а словасказать, спросить, локоть, снег – в художественной литературе» [Ляшевская,Шаров 2009: viii]. Вслед за О.Н. Ляшевской и С.А. Шаровым полученные спискитаких лексем мы будем называть значимой лексикой.Сам по себе факт частоты той или иной лексики в том или ином сегментеязыка еще не говорит об особой конституирующей роли данной лексики дляданного сегмента либо об уникальности самого сегмента, потому что наиболеечастотные служебные слова приблизительно равномерно употребляются в текстах88разных стилей и жанров.
Однако, сравнивая частоты слов в разных подкорпусах,можно получить списки значимой лексики для того или иного сегмента языка,которыепокажутреальнуюкартинураспределенияслов-маркеровванализируемом сегменте.Данное исследование проведено на принципах, описанных в [Шаров,Ляшевская 2009], а также разработанных в [Добрушина 2012: 105–113]. Расчетычастотности производятся в ipm (instances per million words) – количествоупотреблений на миллион слов корпуса. Это необходимо для того, чтобыупростить сравнение частоты слова в разных корпусах, которые могут довольносильно отличаться по своим размерам (Шаров, Ляшевская 2009: v), как в случае ссопоставлением ОК и ЦК, когда первый превышает второй в ~56,5 раз.Статистическое сравнение частотностилексикипо этим корпусампредставляется информативным с точки зрения выявления общих полей. Особаяценность ЦСК заключается в его аутентичности, т.к.
именно кодифицированныетексты, созданные в разные периоды на церковнославянском языке, возможнообъединить в корпус, покрывающий очень существенный процент всехфункционирующих на этом языке текстов, то есть обладающий реальнойпрезентативностью, в отличие от, например, ОК НКРЯ. Составители ОК привыборе объемов помещаемых в него текстов тех или иных типов с определеннойдатировкойстремятсяксбалансированности,моделированиюсостоянияреального языка, но соответствующие методики пока мало разработаны, поэтомуОК, являясь, конечно же, значимым источником сведений о различных свойствахсовременного русского языка, все же очень далек от того, чтобы представитьсовременный русский язык в полной мере.
Что же касается ЦБ, то он достаточнообъемен и при этом однороден по составу, поэтому в большей мере, чем ОК, хотьи в меньшей, чем ЦСК, может считаться адекватно представляющимсоответствующий ему срез современного языка.Вкачествеметрикисравненияиспользуетсякритерийотношенияправдоподобия (log–likelihood), вычисляемый на основе следующей матрицы:89Таблица 9. Матрица абсолютных частот для вычислениякоэффициента значимости LL-scoreПодкорпусДругие текстыЧастотаAbРазмерCdЗначение отношения правдоподобия G2 LL–score можно вычислитьследующим образом:G2=2(a ln (a/E1) + b ln (b/E2)); где E1= c(a+b/c+d); E2 = d(a+b/c+d)Отношение правдоподобия G2 учитывает как относительную частоту (восколько раз чаще слово встречается в одном корпусе по сравнению с другим), таки абсолютную частоту.
Как отмечается в предисловии к частотному словарюНКРЯ, «[п]оследнее обстоятельство важно, поскольку значимость того, что слововстретилось в подкорпусе в 10 раз чаще чем в основном корпусе, зависит от того,имеем ли 5 или 500 вхождений этого слова в подкорпус. В первом случае онаможет быть связана со случайными флуктуациями, во втором эти данныестатистически значимы. Достоинством критерия правдоподобия является и то,что возможна статистическая оценка значимости различия частот в подкорпусе иостальном корпусе. Если этот показатель превышает 15.31, с вероятностью более99% можно отвергнуть гипотезу, что разница в частоте случайна и она необусловлена существенными различиями в составе корпуса» [Rayson & Garside,2000; Ляшевская, Шаров 2009: viii].Эта метрика, широко используемая в корпусной лингвистике, опирается наматематическое ожидание частоты слова, исходя из доли вхождений слова всовокупном корпусе и относительного размера рассматриваемого подкорпуса.Например, ожидаемая частота E1 слова се́рдце в ЦБ составляет 1186словоупотреблений (3967298 ⋅ 28677 / 95949705), а наблюдаемая частота – 6132словоупотреблений, т.
е. более чем в 5 раз больше. Напротив, ожидаемая частотаE2 того же существительного в ОК составляет 27491 словоупотреблений, чтобольше наблюдаемой частоты в этом корпусе (22545). Показатель критерия log–90likelihood (LL-score) для этого слова составляет 11207.95, что значительно вышепорога статистической значимости. При расчете метрики мы не принимаем врасчет, что корпуса ЦБ и ОК частично пересекаются, поскольку вклад ЦБ в ОКпренебрежимо мал.Таблица 10. Частота существительного се́рдце в ЦБ и ОК и размерсоответствующих корпусовЧастотаРазмерЦБ6 1323 967 289ОК22 54591 982 416Всего28 67795 949 705В качестве дополнительного способа анализа ассоциации лексики с тем илииным из рассматриваемых корпусов был выбран метод главных компонент(principal component analysis, PCA, см.
[Levshina 2015: 353–361]). Для анализаданных и построения графиков использовался язык R, библиотеки FactoMineR иfactoextra. Метод основан на понятии расстояния (χ2) в векторном пространстве, вкотором каждое исходное измерение задается частотами слов в определенномкорпусе. В нашем случае три измерения задаются осями ЦСК, ОК и ЦБ. Чемменьше угол между вектором слова и одной из осей, тем больше словоассоциируется с соответствующим корпусом, иными словами, тем больше еговклад в корпус.
Метод PCA позволяет перевести координаты точек-лексем наплоскостьтакимобразом,чтоможновизуальновыделитькластеры,ассоциированные с тем или иным корпусом. Перед применением методаабсолютная частота слов была логарифмирована.Для проведения эксперимента словники корпусов были автоматическилемматизированы, т.е. при помощи морфологического анализатора (теггера)Mystemplus все словоформы одного слова были приведены к начальной форме(лемме), как в словаре. Ошибки лемматизации были устранены вручную.Затем были найдены лексические соответствия. Под лексическимисоответствиями или аналогами мы понимаем «идентичные по внешней и91внутренней форме лексемы, значения которых не имеют существенных отличий»[Литвинцева, Ляшевская 2017: 46]. (агнецъ-агнец, слово-слово, прииматипринимать). Здесь предметом анализа являются именно лексемы современногорусскогоязыка,передаваемыевсовременнойрусскойорфографииифункционирующие в текстах разных стилей, лексические соответствия длякоторых в ЦСК значимо частотны.
Иными словами, важно проследитьчастотность в современном русском языке именно лексем типа песнь и глас, а непесня и голос.Некоторые из сопоставляемых здесь лексем могут быть признаны вслед заО.А. Седаковой церковнославяно-русскими паронимами, т.е. близкими понаписанию и звучанию словами родственных языков [Седакова 2008] (например,соотношение подзначений в отношении и набора, и частот использования уцерковнославянских лексем сын и слово принципиально отличается отсоответствующего соотношения в современном русском языке).