Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf), страница 9
Описание файла
PDF-файл из архива "Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf", который расположен в категории "". Всё это находится в предмете "анализ текстовых данных и информационный поиск" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 9 страницы из PDF
[69; 55]18.Если пытаться разделить эти термины «по совокупности пониманий», тополучится некоторое градуальное противопоставление: т.е. «скорее конструкция» vs.«скорее коллокация».Мы предлагаем некоторую схему классификации, задающей основныепараметры такого разделения. В ходе наших исследований эта схема оказаласьплодотворной. Однако на настоящем этапе положения данной классификациипредставляются набором гипотез, которые, несомненно, надо верифицировать, иверификация должна происходить именно с опорой на контекст как материал анализа.Чаще всего, термин «коллокация» используется при решении задачи выделенияи описания неоднословных номинаций (не только в прикладной области).
Ср.примеры из [45: 150]: strong vs. powerful tea ‘сильный vs. *сильный чай’, т.е.сочетаемостные ограничения, диктующие выбор прилагательного strong для‘сигарет, чая и кофе’ (cigarettes, tea and coffee), но powerful, напр., для ‘героина’(heroin). Неоднословные номинации наподобие белый медведь, белый гриб, белое виноили проливной дождь, заклятый враг очевидным образом ложатся в таким образомпонимаемую идею коллокаций.
Более того, такие традиционные признаки как«устойчивость»и«идиоматичность»(ср. [128])визвестнойстепенипереосмысляются. Колокации выходят за пределы исследования «чистойфразеологии», зачастую их целостность как единой номинации оказывается болеезначимым признаком, а под устойчивостью понимается скорее степеньнеслучайности совместной встречаемости слов. Такое понимание устойчивостиощущается носителем языка и может быть выявлено в ходе экспериментов синформантами. Так, например, для анализируемых нами новостных и научныхтекстов среди таких коллокаций выступают самые разные с лингвистической точкизрения неоднословные номинации: непосредственная близость, стихийное бедствие,Нижний Новгород, Саудовская Аравия, Бритни Спирс, Невский экспресс и корпуснаялингвистика, речевой акт, именительный падеж, речевой сигнал, концептуальныйграф, внешний посессор соответственно.Таким образом, коллокации достаточно часто выступают в качестве важной ичастотной единицы словаря.
Ср. цитату «Lexical unit is a word or collocation19» в началеаннотации к статье [19]. Действительно, практические задачи автоматическойобработки текста (напр., информационный и фактографический поиск) чаще всегосвязаны с поиском и идентификацией разнообразных сложных номинаций. Такимобразом выделяются неоднословные термины, могут определяться предметныеобласти и ключевые словосочетания, характеризующие заданную коллекцию текстовили ее подвыборку, и т. п. Именно коллокации, соответствующие неоднословнымноминациям, по всей видимости могут претендовать на статус «ядерныхколлокаций».
В этом смысле можно было бы представить себе даже болеепредставительную шкалу: от слова до коллокации, от колокации к конструкции.Тогда «коллокация» будет представляться как бы в виде промежуточного звена иперевалочного пункта при движении от слова к конструкции.Впрочем, показательно, что даже в этих и других работах «Workshop on extracting and using constructions inNLP» активно используется именно термин «коллокация».19«Лексические единицы – это слова или коллокации».1827Конструкции, напротив, чаще всего представляют собой единицы скореесинтаксического плана. Таким образом, типовые или ядерные коллокации иконструкции часто могут оказаться противопоставленными как парадигматическиеvs.
синтагматические единицы; инвентарные vs. конструктивные единицы; единицы,принадлежащие лексикону vs. синтаксису; номинации vs. предикативные единицы.Предикативность анализируемых единиц понимается, прежде всего, какпотенциальная возможность занять позицию предиката в предложении. Такимобразом, наиболее явная предикативность будет у сочетаний с вершиной в видеглагола в личной форме (хотя, конечно, не исчерпывается этим типом сочетаний).Впрочем, и здесь проявляется неоднозначность, т.
к. предикативныеобразования,обладающиевысокойстепеньювоспроизводимостии/илиидиоматичности, будут, по всей видимости, распределены по шкале(-ам) движения отколлокации к конструкции ближе к конструкциям. Приводимые выше медведь на ухонаступил, ломиться в открытую дверь, плакать навзрыд, в стельку пьяный и т.д.окажутся в зоне конструкций именно благодаря ярко выраженной предикативности.Однако для того, чтобы о них зашла речь, необходимо, чтобы они оказалисьреализованными в текстах и – соответственно – выделимыми с помощьюстатистических мер. Те, кто работает с коллекциями и корпусами, знают, что многиефразеологизмы в текстах встречаются довольно редко.Особое внимание обратим на одно из традиционных свойств конструкций поФилмору [26]: лексические единицы могут быть включены в конструкцию.Следовательно, существует противопоставление с точки зрения включенностификсированных лексем (вернее словоформ) или лексем, принадлежащихфиксированной лексико-семантической группе: напр., А еще N называется! (А ещедруг называется!) (один из многочисленных примеров «синтаксических фразем»,собранных и проанализированных в диссертационном сочинении М.
Копотева [118:125]). К данному типу конструкций относятся многие клише: высокочастотныеконструкции, характерные для определенного типа текстов (например, сообщений изновостных лент), которые носят скорее казенный характер и возможно,воспринимаются как излишне навязчивые. Однако группа клише выделяется, преждевсего, на основании стилевого (и стилистического) набора признаков: к клишеотносятся те сочетания, которые маркируют специфический стиль («казенный»,подчеркнуто навязчивый). Поэтому среди клише мы можем найти не только типовыеконструкции (клишированные конструкции) с ярко выраженной предикативностью.Среди клише могут оказываться также предложно-падежные сочетания (напр., соссылкой, по данным, в настоящее время), дискурсивные слова, производныеслужебные слова, если эти единицы высокочастотны для рассматриваемойколлекции, и их отличают особые стилевые характеристики.
Под устойчивымисочетаниями понимаем, прежде всего, дискурсивные слова, производные служебныеслова, наречные образования и предложно-падежные сочетания наподобие соссылкой, по данным и т.д. Таким образом, клише пересекается и с конструкциями, и сустойчивыми сочетаниями. Использование термина клише в нашей статьецелесообразно именно в силу того, что материал анализируется по многим факторам;клишированность сочетаний выступает как своеобразный дополнительный параметранализа, с одной стороны, необходимый в силу того, что он очевидно связан счастотностью, а с другой – как бы «перпендикулярный» заявленной шкале (-ам) «отколлокации к конструкциям».28Забегая вперед, упомянем, что конструкции-клише – напр., «введения источникаинформации» – высокочастотны в текстах портала lenta.ru: сообщает РИА 17081,сообщает агентство 10590, пишет газета 7722, передает агентство 7683,передает РИА 4487 (эта часть нашего анализа осуществлялась на коллекции [116],около 300 миллионов словоупотреблений; приведенные числа обозначают частотувстречаемости).
Для информационно насыщенных коллекций (наподобие порталаlenta.ru, подробнее см. следующий пункт) конструкции, выделяемые на основаниистатистических мер, могут достигать длины более 5 словоупотреблений (напр.,«сообщает Интерфакс со ссылкой на источник в правоохранительных органах» из«сообщает Интерфакс со ссылкой на N»). Полагаем, что именно такой тип единицзанимает место «прототипической конструкции» на шкале(-ах) «от колокации кконструкциям»: она частотна, синтаксична, предикативна и синтагматична, в вершине(«родитель») глагол в личной форме.Отдельного внимания заслуживает производная служебная лексика (напр.,предлоги в течение, в качестве) и дискурсивные слова (напр., по крайней мере,может быть).
Они чаще всего выступают под маркой «сочетаний, эквивалентныхслову», хотя степень устойчивости этих единиц может существенно различаться, что,в частности, находит отражение в словарях (напр., [96]). Где они должны бытьсосредоточены на шкале(-ах) движения от коллокации к конструкции? Полагаем, чтов качестве условного приближения можно допустить, что они расположены внекоторой серединной зоне, равноудаленной и от «ядерных коллокаций», и от«ядерных конструкций».
Это зона распределения соответствующих «сочетаний,эквивалентных слову» (термин заимствован из «Толкового словарь сочетаний,эквивалентных слову» Р.П. Рогожниковой [143], но, конечно, принципы выделения имножество единиц существенно отличается от того, что представлено в словаре). Чемвыше предикативность (особенно для дискурсивных слов и наречных образований),тем они оказываются ближе к конструкциям. Другим параметром является степеньустойчивости: чем выше она, тем эти единицы оказываются ближе к полюсамсосредоточения коллокаций как целостных единиц словаря (мы сейчасабстрагируемся от лингвистического анализа процессов фразеологизации).Напомним, что предикативность понимается нами как возможность занятьпозицию предиката в предложении, что сравнительно часто может относиться кдискурсивным словам и наречным образованиям.В качестве условного приближения мы сочли, что производная служебнаялексика, наречные образования, а также дискурсивные слова находятся в некоторойсерединной зоне.