Диссертация (Негауссовое моделирование лексико-статистической структуры вариативного текста (на примере «Сказания о Мамаевом побоище»)), страница 12
Описание файла
Файл "Диссертация" внутри архива находится в папке "Негауссовое моделирование лексико-статистической структуры вариативного текста (на примере «Сказания о Мамаевом побоище»)". PDF-файл из архива "Негауссовое моделирование лексико-статистической структуры вариативного текста (на примере «Сказания о Мамаевом побоище»)", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.
Просмотр PDF-файла онлайн
Текст 12 страницы из PDF
С.4―5.53– объединяются (в диалоговом режиме) словоформы, различающиеся видомредуцированного на конце слова, например: СТАРЕЦЪ– СТАРЕЦЬ ⇒ СТАРЕЦЬ;– объединяются (в диалоговом режиме) словоформы, если буквесоответствуетОв другой:Ав однойМАНАСТЫРЯ – МОНАСТЫРЯ ⇒ МОНАСТЫРЯ; СТУДЕНАГО –1СТУДЕНОГО ⇒ СТУДЕНАГО; АЛТАРЯ – ОЛТАРЯ ⇒ АЛТАРЯ».Очевидно, что само разбиение на словоформы рукописного текста,написанного в строку, не является единственным.
Так, можно выделять либо невыделять в качестве отдельной словоформы частицу ЖЕ (например, в «ОНЪæ»).В нескольких поздних списках «Сказания» текст разбит на словапереписчиком(беллетризованныйикомпилятивныйспискиисписокРаспространенной редакции), но правила членения непоследовательны и частопродиктованы желанием «вписать» фрагмент текста в строку. Поэтому, всоответствии с рекомендациями Е.Л.Алексеевой и правилами, принятыми впроекте «СКАТ», при делении рукописного текста на слова пользовалисьследующими правилами и соглашениями:– отрицательная частица не пишется со следующим словом слитно илираздельно по правилам современной орфографии: СЪБРАНЙАНЕ В+СТЬ НИ СТР+ТЕНЙАТВОЕГО НЕ ЧАЕТЬ, НЕ РОИ НИ КОПАИ ВРАГD СВОЕМD ЯМЫ;– возвратное местоимение ся с глагольными формами в контактнойпостпозиции пишется слитно, в препозиции и в дистактной постпозиции –раздельно, например:МОЛЮ ТИ СR, ВОЗВРАТИВШЕ ЖЕ СR, НЕ ДАВЪ СR ПРОСЛЕЗИТИ, НЕВМ+СТИТИСR;– падежно-именные сочетания наречного характера пишутся слитно,например: =ЧRСТИ; ВЪСЛ+_äБРАТЙИ ИДDЩU; ВЪСКОР+; ВОСВОRСИ;– слитно пишутся сложные слова типаПРЕæРЕчННОМU;ПРсНОПАМRТНЫR;МИМОХОДRЩЙИ;1Алексеева Е.Л., Лаврентьев А.М., Азарова И.В., Захарова Л.А.
Разметка корпуса древнерусских текстов // Трудымеждународной конференции «Корпусная лингвистика–2004». 11-14 октября 2004 г. 2004. С.3―4.54– частица же в составе относительного местоименияИЖЕи отрицательныхместоимений пишется слитно: НИКТОЖЕ, НИЧТОЖЕ, НИ ВО ЧТОЖЕ, НИЧИМЖЕ, НИЧЕСОЖЕ;– слитно пишутся союзы и союзные слова типаЗАНЕЖЕ, =НЕЛЕЖЕ, АЖЕ, Т+МЖЕ, ТАКОЖЕ, НИЖЕ, КТОМDИД+ЖЕ, ЯКОЖЕ, ПОНЕЖЕ,и т. п.– в тех случаях, когда последняя буква первого слова совпадает с первойбуквой следующего, эти два слова записываются через «подчерк».
Буквасохраняется в составе знаменательного (более важного по значению) слова,например,ПО_ДРЕВО, ЖИТЙP_ГО1.В списках «Сказания» не более 5 таких написаний,для них восстанавливалась недостающая буква.Набор производился в соответствии с правилами2, приведенными ниже.1. Текст набирается большими буквами.2. Помечаются конец строки и конец листа и его номер в рукописи.Принятые обозначения таковы:& – конец строки в рукописи;Z – конец листа в рукописи, формат записи:– в середине слова: зед, пробел, номер следующего листа рукописи (дляоборота – отрицательный номер), пробел: ТОZ -194 ГДА (на слово ТОГДАприходится конец листа, после ТО начинается оборот листа 194);– в конце слова: пробел, зед, пробел, номер следующего листа рукописи,пробел: ТОГДА Z -194 ОНЪ.Знак препинания всегда должен стоять перед знаком конца строки или листа.3.
Буквы обозначаются:SDUW-S-D-U-WW(T) - =1Принципы представления рукописного текста в базе данных / СКАТ: Санкт-Петербургский корпусагиографических текстов. URL: http://project.phil.spbu.ru/scat/page.php?page=txtprinciples (дата обращения15.10.2013).2Автор благодарит Е.Л.Алексееву за предоставленную инструкцию по набору рукописного текста.55+RGЯLQFV-+-R-G-Я-L-Q-F-V4.
Знак тысячи @ обозначается знаком $, например, $F = @F = 9000.5. Знак имени собственного *, например, *КИРИЛЪ, не отделяется от именипробелом. Все прилагательные, образованные от имен собственных, считаютсяименами собственными (в отличие от правил орфографии). В проекте «СКАТ»собственные имена приводятся в отдельном разделе словоуказателя. При наборерукописей «Сказания» собственные имена не маркировались.6. Знак титла # («решетка»), ставится в конце слова; даже если над словомстоит два титла, в конце слова в текстовом файле пишется только один знакрешетки, например, СТЫИ#, БГОМТРИ# (БГ{ОМТ{РИ).7.
Знак ошибочного написания ~, ставится, если писцом явно допущенаошибка (в этом удостоверяются, сравнивая с другими рукописями), в угловыхскобках приводится правильное написание, например: ~НАХЪ <НА> СВОИХЪНОГАХЪ, здесь НАХЪ вместо НА. При наборе списков «Сказания» ошибочныенаписания не маркировались.8. Выносные буквы вносятся в круглых скобках в слово на свое место посмыслу.
Если над буквой есть покрытие, то буква в скобках – маленькая(строчная), если покрытия нет – то большая (прописная), например: М(с)ЦА =МЦс#А,И(Ж) = Иæ.В Приложении А в качестве иллюстрации приведен один и тот же фрагментспискаОсновнойредакции,записанныйрукописнымисловоформами,стандартизованными словоформами и лексемами (отрывки из других текстов см.тж. в Приложениях В-Г). Тексты «Сказания» (8 списков), переведенные по56указанным правилам в машиночитаемую форму, являются исходным рабочимматериалом.1.6.2 Методика формирования частотных словарейсписков «Сказания о Мамаевом побоище»Перейдемкописаниюметодикисоставлениячастотныхсловарейисследуемых списков.Для набранных списков были построены 3 типа частотных словарей:частотные словари словоформ с сохранением графических особенностейрукописи, частотные словари словоформ с объединением графических вариантов,частотные словари лексем.
Частотные словари построены с помощью программыFRQ С.Л.Соловьева1.I. Методика формирования частотных словарей словоформ с сохранениемграфических особенностей рукописи (частотный словарь – ЧС рукописныхсловоформ).Единицей такого вида словаря является словоформа, понимаемая, какпоследовательность символов от пробела до пробела. Пробелы вставляются врукописный текст в соответствиисправилами компьютерного набора,указанными в 3.1.1, слова и выражения, не понятые переписчиком (т.е. примерынеправильного осмысления), либо воспроизводятся как последовательностьсимволов и не разбиваются на слова, либо принимается членение писца (еслитаковое имеется, напр.
в Распространенной редакции: ЕРсЛИМЪД+ЙСКЙИ ЦР{ЬПЛЕНИë ЯКОЖЕ +ХАЛЪ– вместо «халдейский»).В частотном словаре полностью отображаются особенности графикирукописи (за исключением акцентных знаков), отразившиеся на письмепроизносительные особенности писца, а также все описки и механические1URL: http://alingva.ru/index.php/lingvosoft/21-dictconsole (дата обращения 17.06.2011).57ошибки, включая повторы слогов (повторы целых слов и фрагментовпредложений удалены).
Если в тексте рукописи встречаются исправления,замеченные писцом, то в текст вносится только исправленный вариант. При такомподходе приписки на полях рукописи также должны включаться в текст, но их в 8используемых рукописях не оказалось.Назначение этого типа частотного словаря – описать разнообразиелексическихединицвдревнерусскомтекстеиотразитьграфическийполиморфизм, связанный с писцом.II.Методикаформированиячастотныхсловарейсловоформсобъединением графических вариантов (ЧС стандартизованных словоформ).В этом частотном словаре отождествляются словоформы, различающиесятолькографическимиособенностями.Произведеноследующеесведениеотдельных графем, встреченных в разных словоформах:Е, P, C ⇒ Е;З, H, S ⇒ З;И, Й, I ⇒ И;О, B, W ⇒ О;U, D, G ⇒ У;Ф, F ⇒ Ф;Я, R, Y ⇒ Я;J ⇒ Ю;L ⇒ КС;Q ⇒ ПС;V ⇒ И или В.Отождествляются слова с одинаковым буквенным составом, но разнойпостановкой выносных букв, при этом разными словоформами считаютсясловоформы с конечнымЪи без него (МОГУ(Т) иМОГУТЪ).Без измененияоставлены словоформы, различающиеся только написаниями + и е, сохраненытитла в виде знаков решетки.
Также из текстов рукописей удалены механическиеповторы слогов и исправлены явные механические описки, появившиеся в58результатедистантнойассимиляцииидиссимиляции,ср.«собственно-механические описки всегда … связаны с искажением текста, нарушаютсмысловой ряд, и потому легко определимы»1.Унификация графики не производилась для числительных, записанныхбуквами. Такие числительные также не подвергались лемматизацииТакой частотный словарь позволяет в большой мере надеяться на отысканиеразличий, обусловленных синтаксисом списков «Сказания».Нужно уточнить, что при постановке такой задачи, автор полностью отдаетсебе отчет и помнит предостережения Д.С.Лихачева в адрес приверженцевстатистических методик, что появление новой редакции ни в коем случае неявляетсярезультатомнакопленияошибокили,например,намеренноймодернизации либо архаизации текста.
Редакция – всегда результат сознательнойдеятельности книжника, и редакционные различия иногда столь незначительны,что не могут быть отслежены с помощью методов, подобных статистическому.Тем не менее, можно надеяться отыскать в списках редакций «Сказания»количественное выражение идеологических посылов к переработке текста.III. Методика формирования частотных словарей лексем (ЧС лексем).Данный тип частотных словарей – результат дальнейшего огрубленияисходного текста; сама процедура лемматизации во многом неоднозначна,поскольку лемма меняется со временем.