Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf), страница 11
Описание файла
PDF-файл из архива "Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf", который расположен в категории "". Всё это находится в предмете "анализ текстовых данных и информационный поиск" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 11 страницы из PDF
ниже).MI-коллокацииКак уже говорилось, под типичными коллокациями в нашей классификации мыпонимаем прежде всего неоднословные номинации и сложные термины. Более того,такие колокации зачастую выходят за пределы «чистой фразеологии», их целостностькак единой номинации оказывается более значимым признаком, а под устойчивостьюпонимается скорее степень неслучайности совместной встречаемости слов.Коллокации достаточно часто выступают в качестве важной и частотнойединицы словаря. В этом смысле «ядерные» колокации могут рассматриваться нетолько на шкале от «коллокации до конструкции», но и на дополнительной шкале «отслова до коллокации».32А что такое «слово»? Не углубляясь в неоднозначность определения – казалосьбы – ведущей единицы языка и речи, вспомним о наличии противоречий даже на этомуровне.
Что является единицей анализа текста: лексема или словоформа? Можносчитать более чем обоснованным и экспериментально доказанным положение о том,что словоформа является ведущей единицей анализа русского текста (лексемавыполняет роль дополнительной единицы анализа, востребуемой лишь в особыхслучаях) [112; 115]. Вероятно, такое противопоставление роли лексемы исловоформы, отчасти обусловлено типологическими характеристиками русскогоязыка как флективного языка с богатой морфологией.При работе с коллокациями выбор основной единицы анализа представляетсобой дополнительный вопрос: лексема или словоформа? 22На материале новостных текстов был проведен предварительныйсопоставительный анализ списка сочетаний, выделяемых для лексем (но несловоформ), списка сочетаний, выделяемых для словоформ (но не лексем) и спискасочетаний, выделяемых и для лексем, и для словоформ (подробнее см.
статью[159])23.Биграммы, выделяющиеся и для лексем, и для словоформ, оказываются, какправило, наиболее информативными.В список (только) лексемных биграмм попадают составные номинации,характеризуемыемаксимальнойсвободой(максимальнымразнообразием,минимальной ограниченностью) набора выполняемых ими в предложении семантикосинтаксических ролей. Примеры этих биграмм, каждая единица сочетания приведенав нормализованном виде (прописными буквами – здесь и далее):• для новостных текстов – КУРМАНБЕК БАКИЕВ, АЛИШЕР УСМАНОВ,БЕНЕДИКТ XVI, УСЕЙН БОЛТ, СЕРДЕЧНЫЙ ПРИСТУП, ОСАМА БИН,СТИХИЙНЫЙ БЕДСТВИЕ, ЛАМПА НАКАЛИВАНИЕ, РАДОВАН КАРАДЖИЧ,ПОЛЕЗНЫЙ ИСКОПАЕМОЕ, ДЖОННИ ДЕПП, ФИДЕЛЬ КАСТРО, ДОЛИНА СВАТ,САДДАМ ХУСЕЙН, СИМФОНИЧЕСКИЙ ОРКЕСТР, КРОВНЫЙ МЕСТЬ, и т.д.;• для научных текстов – ВИНИТЕЛЬНЫЙ ПАДЕЖ, ИМЕНИТЕЛЬНЫЙ ПАДЕЖ,АКТУАЛЬНЫЙ ЧЛЕНЕНИЕ, ИНСТРУМЕНТАЛЬНЫЙ СРЕДА.Показательна высокая доля, которую имеют в этом классе наименования лиц.Такие номинации, условно говоря, можно сопоставить со словом, котороехарактеризуется достаточно полной парадигмой формоизменения.Словоформные биграммы, как правило, относятся к номинации в определеннойсинтаксической позиции.
Примеры биграмм:• для новостных текстов – парниковых газов, Соединенных Штатов, ЖенскойТеннисной, кредитном портфеле, Палестинской автономии, встречную полосу,Нижнем Новгороде, Федеральную трассу;• для научных текстов – речевой акт, речевых актов, именная группа, именныхгрупп, коммуникативного акта, коммуникативных актов, просодическиххарактеристик, прошедшего времени, речевого сигнала.22Хочется отметить, что различные аудитории, обсуждавшие наши доклады на эту тему, высказывались весьмакатегорично: некоторые аудитории лишь лексемные коллокации считали достойными внимания, другие –напротив – только словоформные. Безусловно, основные особенности, рассмотренные на примере биграммколлокаций, действуют и при увеличении объема сочетания.23Во всех трех случаях под «списком» имеется в виду первая сотня словосочетаний, выявленных тем или инымспособом. Нас интересует, однако, словосочетания с наибольшим значением меры, т.е.
верхние части списков,которые мы в дальнейшем для краткости именуем просто списками.33Кроме того, биграммы этого подкласса могут относиться к части целостнойноминации, например, сочетание речевых актов часто является частью триграммы«теории речевых актов».В этих списках в обоих случаях некоторая составная номинация или терминрезко тяготеет к выполнению некоторой типичной (излюбленной) для неё семантикосинтаксической роли (то есть «излюбленная» роль для этой номинации оказываетсягораздо употребительнее остальных возможных для неё ролей). Такое тяготениеявляется частным проявлением более общего закона тяготения номинативных единицнекоторого грамматико-семантического разряда к выполнению некоторой типичнойдля них семантико-синтаксической функции. Такое тяготение оказывается важным идля однословных номинаций, и для неоднословных.Если данная составная номинация входит в состав некоторого более крупного –трёхсловного или даже более протяжённого, напр., (Женской теннисной) ассоциации,теории (речевых актов) – сочетание является более устойчивым на синтагматическойоси, чем в случае прочих словоформных биграмм (допускающих более свободныесвязи с соседями на синтагматической оси).Таким способом мы выделяем наиболее информационно-нагруженные и точныесочетания, характеризующие данную коллекцию (см.
напр., биграммы в Таблицах 1, 2и 3). Для простоты восприятия в таблицах биграммы представлены в виде сочетанийсловоформ (соответствующей словоформной биграмме). Ведущее место в нейотводится интересующим нас «ядерным коллокациям». Однако в таблицеприсутствуют и сочетания, рассматриваемые нами в следующем пункте MIконструкции (особенно для научных коллекций).Таблица 1. Пример пересечения между биграммами для лексем и для словоформ (дляпервой сотни, в порядке убывания значения меры). Материал портала lenta.ru 2009 годаранг (для ранг (длялексем)словоформ)биграммы11Бритни Спирс22Эльвира Набиуллина323Ле Бурже936Лионель Месси104мысе Канаверал1143бин Ладена149Норильского никеля157дельты Нигера1750Ак Барс1828тротиловом эквиваленте1920тройскую унцию2070Ролан Гаррос2649дель Торо2787дель Потро2933Арбат Престиж3196РАО ЕЭС3235Салават Юлаев3451Арсений Яценюк3642голубых фишек34Таблица 2.
Биграммы (MI-score), выделяющиеся и для лексем, и для словоформ (впорядке убывания значения меры). Материал конференции «Корпусная лингвистика»24рангБиграммырангБиграммы2 наш взгляд36 одной стороны3 (по) крайней мере37 таким образом4 речевой деятельности40 разрешения неоднозначности5 художественной литературы41 английский язык7 первую очередь43 кроме того9 общим объемом47 Национальный корпус11 корпусная лингвистика48 грамматических категорий13 имена собственные52 устная речь15 математической лингвистики54 база данных16 словарной статьи58 во многих17 свою очередь61 лексических единиц18 предметной области62 дает возможность19 машинного перевода63 зависит от20 точки зрения64 отличие от22 за счет65 русский язык24 речь идет67 корпусные данные25 прежде всего68 отличается от26 большое количество71 зависимости от28 настоящее время72 работы над31 представляет собой79 частей речи32 млн словоупотреблений80 во всех34 другой стороны84 при помощи35 семантических состояний86 морфологической разметкиТаблица 3.
Биграммы (MI-score), выделяющиеся и для лексем, и для словоформ (в порядкеубывания значения меры). Материал конференции «Диалог».рангранг12ударном слогеконцептуальных графов283045внешним посессоромоперативной памяти333781416вокального жестакрайней мереXIX векалингвистическогопроцессораположение делпервую очередькартине мирамножественного числа384246172122252624Биграммы616370727385Биграммыинтеллектуальныетехнологиикорпусная лингвистикаотглагольныхсуществительныхзнаки препинанияпедагогическойкоммуникацииосновного тонамашинного переводаустойчивыхсловосочетанийточки зренияменьшей меревряд липредметной областивплоть доБольшую длину списка мы связываем с большей однородностью данной коллекции.35MI-конструкцииБольшинство клише и конструкций выделяется с помощью меры t-score.
Однаконекоторые типы клише и конструкций хорошо извлекаются с помощью меры MI(т.е. основываясь на выраженных сочетаемостных ограничениях). Особенно этиразные типы противопоставлены для новостной коллекции. Прежде всего, эти MIклише и MI-конструкции носят более казенный и (квази)терминологическийхарактер: злоупотребление должностными полномочиями, причинение тяжкоговреда и т.д.Если для новостных биграмм отмечены лишь штучные варианты: конструкцияНАЧИНИТЬ ВЗРЫВЧАТКА для лексем и обогащению урана для словоформ, то всписках триграмм для новостной коллекции клише и конструкции составляют более30%.Примеры:для лексем – УМЫСЛИТЬ ПРИЧИНЕНИЕ ТЯЖКИЙ, КРАТКИЙ ИЗЛОЖЕНИЕПРИВОДИТЬСЯ,ПОДРЫВНЕВСКИЙЭКСПРЕСС,ПРЕВЫШЕНИЕДОЛЖНОСТНОЙ ПОЛНОМОЧИЕ, ПСИХОЛОГИЧЕСКИ ВАЖНЫЙ ОТМЕТКА, ДАПРИЙТИСПАСИТЕЛЬ,ТЯЖКИЙВРЕДЗДОРОВЬЕ,ВРЕМЕННОНЕДЕЙСТВУЮЩИЙЧЕМПИОН,ЗАСЛУГАПЕРЕДОТЕЧЕСТВО,ЭКОНОМИЧЕСКИ АКТИВНЫЙ НАСЕЛЕНИЕ и т.д.;для словоформ – злоупотреблении должностными полномочиями, причинениетяжкого вреда, написания данной заметки, превышении должностных полномочий,краткое изложение приводится, совершил аварийную посадку, покончил жизньсамоубийством, превышение должностных полномочий и т.д.Приведенные примеры иллюстрируют то, что многие из конструкций имеютявно выраженную предикативность.Граница между клише и конструкциями во многих случаях нечеткая.