Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 13
Текст из файла (страница 13)
Напомним, чтопятиграммы выделялись на основании частоты встречаемости коллокации: длябольших n мера t-score как аппроксимация частоты оказывается избыточной.27Надеемся, что в ближайших публикациях мы сможем показать специфику принятия решенияиспытуемыми при оценке степени устойчивости-связности и дать более тщательную лингвистическуюинтерпретацию параметров, влияющих на принятие решения.39Таблица 5. Наиболее частотные «пятиграммы», являющиеся «конструкциями вводаинформации» в новостных текстах. Материал портала lenta.ru 2009 года (в порядке убывания частотывстречаемости)28.«пятиграмма»РИА Новости со ссылкой насообщает РИА Новости со ссылкойсообщает Интерфакс со ссылкой наcо ссылкой на источник вОб этом сообщает РИА Новости(об) этом сообщает РИА Новости сона источник в правоохранительных органах(со)ссылкойнаисточникправоохранительныхОб этом сообщает официальный сайтОб этом сообщается в пресс-релизеагентство Интерфакс со ссылкой наОб этом сообщает Интерфакс со(об) этом сообщает Интерфакс со ссылкойсообщает AFP со ссылкой наОб этом пишет газета КоммерсантНовости со ссылкой на источникОб этом пишет газета ВедомостиИнтерфакс со ссылкой на источниксообщает ИТАР-ТАСС со ссылкой насообщает агентство Интерфакс со ссылкойОб этом сообщает Associated PressОб этом сообщается на сайтеИнтерфакс со ссылкой на пресс-службуОб этом говорится в официальномгазета Ведомости со ссылкой наНовости со ссылкой на пресс-службугазета Коммерсант со ссылкой наЧастота (ipm)1267811048100799354914968456733в 66886446623060835982598258805841568356705438500249874941492548954591450844404388Наиболее частотная схема такой конструкции сводится к:1 (об этом) + 2 глагол (сообщает, сообщается, пишет, говорится и др.) + 3название информационного агентства + 4 со ссылкой (на) + 5 источник информации.В текстах портала «Лента.ру» наиболее часто в состав конструкции входитглагол сообщает или сообщается, однако это предпочтение носит стилевой характер.Для того чтобы выяснить это, было проведено дополнительное исследование[162].
Предварительные результаты статистического обследования шестиинформационных источников свидетельствуют о том, что конструкции «введенияисточника информации» и особенно глагол, находящийся в вершине такойконструкции, характеризуют информационные источники, прежде всего с точкизрения их главной функции – информационную или публицистическую. Портал«Лента.ру» относится к ярко выраженным информационно насыщенным источникам(новостные ленты и близкие к ним формы подачи материала). Среди рассмотренныхинформационных источников к информационно насыщенным – ведущим себя вцелом аналогично коллекции портала «Лента.ру» – относятся «РИА Новости»,Среди первых тридцати наиболее частотных «пятиграмм», встретилось двадцать семь конструкций вводаинформации.2840«РосБизнесКонсалтинг»,«Компьюлента».Наиболееяркиесвойствапублицистической направленности (подчеркнутого внимания к адресату (-ам))проявляются для «Независимой газеты» [162].Например, для «Независимой газеты» биграмма ссылкой на стоит на 1551 месте,среди словоформных биграмм, упорядоченных по значению меры t-score, а соссылкой – на 1591-м месте.
Среди лексем первая биграмма со словом «сообщать»КАК СООБЩАТЬ стоит на 967 месте, следующая – СООБЩАТЬ ИНТЕРФАКС – на5096 и т.д. Ср. также с данными «Статистического словаря русской газеты» А.Я.Шайкевича [150] сообщается 492, сообщать – 1614, сообщаться – 29, сообщение –2488, сообщить – 8248 (корпус 1997-го года, 15 млн. словоупотреблений).Для «Независимой газеты» наиболее частотными глаголами в коммуникативнойфункции оказываются сказать, говорить, считать, заявить. Вместо ранееобсуждаемых газетных клише в «Независимой газете» используются болеепривычные «негазетные» способы передачи информации, эти способы весьмаразнообразны, и потому сложно выделить частотные n-граммы, которые можно былобы назвать конструкциями ввода источника информации. В текстах «Независимойгазеты» наиболее частотным оказывается то, что характерно для текстов-интервьюотвечать на вопросы (чуть реже отвечать на вопрос), обратились к X, где X – этопрезиденту, правительству, главе, руководству и т.д.
(в порядке убывания частотывстречаемости).t-score-коллокацииКак уже было сказано, данная мера используется гораздо реже, чем мера MI,поскольку она является лишь несколько модифицированным ранжированиемколлокаций по частоте. Обычно она считается малопригодной для поискаинформационно важных номинаций и терминологических словосочетаний, неиспользуясь для этой цели.Однако все зависит от контекста, в данном случае от степени монотематичностии однородности коллекции. Так, в процессе данной работы над новостнымиколлекциями мы обнаружили, что эта мера оказывается полезна при решении задачио выделении тех единиц, которые характеризуют все (или подавляющеебольшинство) текстов коллекции.
Основная масса таких сочетаний характеризуетскорее особенности стиля текстов коллекции, впрочем, используя минимальныйморфологический фильтр из списков t-score-коллокаций, мы могли выделить тесочетания, которые могут рассматриваться как терминологические. Таким образомбыл получен список терминологических биграмм, общих для всех (илиподавляющего большинства) текстов рассматриваемых коллекций (см. Таблицы 6 и7).Таблица 6. Терминологические биграммы (t-score), выделяющиеся и для лексем, и длясловоформ. Материал конференции «Диалог»лексемные биграммыРУССКИЙ ЯЗЫКПРЕДМЕТНЫЙ ОБЛАСТЬсловоформные биграммырусского языкарусском языкепредметной области41Таблица 7.
Терминологические биграммы (t-score), выделяющиеся и для лексем, и длясловоформ. Материал конференции «Корпусная лингвистика»лексемные биграммыРУССКИЙ ЯЗЫКсловоформные биграммырусского языкарусский языккорпус текстовкорпуса текстовнационального корпусанациональный корпусчасти речичастей речианглийского языкакорпус русскогокорпуса русскогомашинного переводасемантической разметкипредметной областилексических единицпараллельных текстовКОРПУС ТЕКСТНАЦИОНАЛЬНЫЙ КОРПУСЧАСТЬ РЕЧЬАНГЛИЙСКИЙ ЯЗЫККОРПУС РУССКИЙМАШИННЫЙ ПЕРЕВОДСЕМАНТИЧЕСКИЙ РАЗМЕТКАПРЕДМЕТНЫЙ ОБЛАСТЬЛЕКСИЧЕСКИЙ ЕДИНИЦАПАРАЛЛЕЛЬНЫЙ ТЕКСТСопоставление списков терминологических биграмм, общих для всех (илиподавляющегобольшинства)текстов(t-score-биграмм-коллокаций)рассматриваемых коллекций, приводит нас к следующим выводам:1.
Тематика конференции Диалог настолько широка, что на основании общихтерминологических сочетаний мы могли бы сделать вывод лишь о том, что, какправило, в качестве основного материала исследований выступает русский язык, атакже, что в текстах коллекции уделяется внимание предметной области.2.
Представляемые на «Корпусной конференции» исследования чаще всегоориентированы на русский язык или английский язык. В качестве материала (и/илиобъекта исследования) в большинстве работ выступает корпус текстов, чтолексическим единицам (частям речи, семантической разметке лексических единиц)уделяется особое внимание. Что многие исследования ориентированы на решениевопросов машинного перевода и связаны с текстами заранее заданной предметнойобласти.
Таким образом, наши выводы согласуются с традиционной тематикойкорпусных исследований, что отражено в наборе «общих» терминологическихсочетаний.Причем именно биграммы (а не триграммы и далее n-граммы) дают на нашемматериале наиболее информационно насыщенную картину. Впрочем, возможно, чтоодна из причин этого лежит в сравнительно небольшом корпусе материаловконференции «Корпусная лингвистика (см. раздел 2.1).По-видимому, чем выше однородность коллекции, тем более информативнымокажется набор подобных t-score-биграмм-коллокаций для описания коллекции какцелостногоинформационногопотока(обзорматематическихмоделейинформационных потоков см., напр., в [124], о некоторых методах работы синформационными потоками в русле лингвистики текста см.
в [87]).Вместо заключенияМы постарались обсудить типы коллокаций и конструкций, а главное – разныелингвистические типы шкал «от слова к коллокации и от коллокации к конструкции»,которые формируются на основании (1) соотнесенности единицы с «инвентарностью(словарем) vs. конструктивностью (грамматикой)» и (2) с их функционированием втексте/коллекции, т.е. с «номинативностью vs. предикативностью». Каждая из этихшкал характеризуется нечеткими границами явно выраженной динамической42природы. Положения данной классификации представляются набором гипотез, содной стороны, уже верифицированных, а с другой – требующих дальнейшейверификации с учетом все большего числа параметров (прежде всего, контекстноориентированных параметров).
В последнем параграфе четвертой главы проэксперимент на службе анализа текстов мы обсудим возможность введениядополнительных шкал, позволяющих «подключить» интуицию носителей языка(информантов и/или экспертов) и оценить степень целостности интересующих насединиц.Наборы рассматриваемых единиц (коллокаций и/или конструкций)характеризуют интересующие нас коллекции, эти наборы можно назвать сверткамиколлекций по заданным принципам.
Именно поэтому мы в своих исследованиях (идаже в примерах) довольно широко варьируем коллекции: с точки зренияпредставленного функционального стиля, а чаще – гораздо более дробно: с точкизрения тематики, стилевых характеристик (обычно гораздо более точных, чем классфункционального стиля), степени однородности по каждому из этих признаков и т.д.Один из заданных принципов – это статистическая мера и методика обработкиполученных списков.