Диссертация (1137502), страница 22
Текст из файла (страница 22)
Именно с этим материалом мы ипродолжим наши дальнейшие эксперименты.95Отметим, однако, что для моделирования такого рода сочетаемости подходит икорпус интернет-текстов RuWaC. Этот вывод очень важен, поскольку корпус такогоформата построить значительно проще, чем подготовить объемную, сбалансированную иразмеченную выборку текстов, подобную той, что представлена в основном подкорпусеНКРЯ: для целого ряда языков есть корпус WaC, но нет национального корпуса,сопоставимого с НКРЯ.2. Установление порога частотностиДальнейшим шагом в обработке списка существительных, сочетающихся с целевымприлагательным, является установление порога частотности: необходимо определить,сколько раз словосочетание должно встретиться в корпусе, для того чтобы его можно быловключать в исследование.
Такой порог необходим по двум причинам. Во-первых,существительных, сочетающихся с искомым прилагательным, слишком много, что можетвпоследствии негативно повлиять на объем анкеты. Во-вторых, они распределены всоответствии с законом Ципфа: примерно 20% списка занимают частотные сочетания, аостальные 80% – слова, встретившиеся в корпусе в непосредственной близости отинтересующей нас лексемы один или два раза, т.е. большая часть существительныхиллюстрирует лишь окказиональные употребления изучаемого прилагательного.Для установления оптимального порога частотности мы провели ряд экспериментовс разными признаковыми словами.
Мы разметили списки коллокаций для лексем острый,тяжелый, хороший, шершавый, грубый (для которых у нас уже были разработанытипологические анкеты), собранные по основному подкорпусу НКРЯ, и отметили, в какоймомент происходит «насыщение», т.е. до какого элемента списка нужно дойти, чтобынабрать не менее трех иллюстраций на каждый фрейм, релевантный для данногоприлагательного (в том числе, метафорический).Оказалось, что уровень насыщения зависит от двух факторов: частотности самойпризнаковой лексемы и степени ее многозначности (см. Таблицу 20). С одной стороны,чем частотнее прилагательное, тем частотнее и включающие его коллокации.
С другойстороны, чем больше у лексемы значений, тем больше контекстов требуется для ихиллюстрации и тем позднее должен наступать момент насыщения. Так, например, дляпризнака острый достаточно уровня частотности, равного 0.08 ipm (что соответствует 17примерам по основному подкорпусу), в то время как прилагательному тяжелый,обладающему более широкой полисемией, требуется уровень не выше 0.05 (10 примеров).96А для адекватного описания лексемы хороший, очень частотной и не очень многозначной,достаточно принять во внимание только те существительные, в сочетании с которыми онавстретилась в НКРЯ не менее 100 раз (0.49 ipm).Однако важно понимать, что параметры, влияющие на уровень насыщаемостилексемы, тоже взаимосвязаны, причём нетривиальным образом. Так, во многих случаях умногозначных слов высокая частотность (ср. лексемы шершавый, грубый, острый итяжелый: по мере роста количества значений от слова к слову растёт и уровеньчастотности), а эффекты на момент насыщения эти конфигурации параметров оказываютпротивоположные: многозначность понижает планку, а частотность – повышает.
Крометого, разные значения многозначного слова могут демонстрировать очень разные уровничастотности: например, прилагательное тяжелый в значении интенсификатора (ср.тяжелый грипп) употребляется очень часто, а примеры, иллюстрирующие егоиспользование в значении ‘сытный, жирный, калорийный’ (ср. тяжелая пища),встречаются на порядок реже.Из-за сложного соотношения факторов частотности и многозначности подобратьоптимальную формулу для вычисления порогового значения частотности словосочетанияпока не удаётся: слишком велик разброс данных, поэтому любое решение связано с рискомупустить какой-нибудь нюанс функционирования данной конкретной лексемы.Исходя из всего вышесказанного, мы установили фиксированное значениечастотности, общее для всех слов и не зависящее ни от каких параметров.
При этом мывыбрали достаточно низкую планку, позволяющую набрать достаточное количествопримеров, в то же время гарантируя отсутствие в итоговом списке заведомоокказиональныхупотребленийрассматриваемойлексемы.Такимобразом,мыотказываемся от эвристик, которые могли бы нам позволить избавиться от «лишних»контекстов (которых, например, для слова хороший при таком решении будет множество),в пользу максимальной полноты данных.
В качестве порогового мы выбираем значение0.05 ipm (самый низкий порог насыщения во всех наших предварительных экспериментах)и считаем, что существительное, встретившееся в корпусе в сочетании с опорной лексемойменьше этого количества раз, не является его достаточно устойчивой коллокацией.97ЛексемаКоличествозначений по БТС26Частотностьприлагательногопо НКРЯ (ipm)ШершавыйГрубыйОстрыйТяжелыйХороший2710185275,6959,7178,63200,10454,58Необходимыйуровеньчастотностиколлокаций (ipm)0,090,090,080,050,5Таблица 20.
Зависимость порога частотности коллокаций от многозначности и частотностиопорной лексемы.Таким образом, мы получили экспериментальный материал, состоящий в общейсложности из 13 прилагательных и 1818 примеров их употреблений (словосочетаний вида«прилагательное + существительное»). Следующим шагом необходимо разделитьнабранные контексты на группы, соответствующие разным значениям прилагательных, азатем из каждой группы выбрать по несколько примеров, чтобы сократить объем итоговойанкеты.§5. Разделение коллокаций на группы1.
Выбор основания для кластеризации и подготовка векторного пространстваСледующий шаг после составления списка коллокаций – их кластеризация, т.е.разделение на семантически однородные группы (будущие фреймы). Для того, чтобысловосочетания можно было разделить на кластеры автоматически, необходимо подобратьпараметры, так или иначе отображающие степень семантической близости между типамиконтекстов употребления рассматриваемых признаковых слов. В качестве такогооснования для кластеризации мы использовали метод моделей дистрибутивной семантики,поскольку их приемлемость для решения подобных задач мы уже доказали в рамкахпредыдущей серии экспериментов (см. Гл. 2), а также в ходе нашего пилотногоисследования Рыжова 2014. Кроме того, эффективность использования подобных моделейдля решения задач семантической кластеризации была неоднократно доказана внезависимых исследованиях (см., например, Dubossarsky et al.
2016).Большой толковый словарь под редакцией С.А. Кузнецова (Кузнецов 1998).В Большом толковом словаре для прилагательного хороший указано больше пяти значений, но многие изних не диагностируются на уровне словосочетания «прилагательное + существительное», ср.: Ну ты хорош!Хорош ругаться! Или: Ты моя хорошая!262798Для решения текущей задачи вектора сочетаемости вычислялись в основном по темже параметрам, что и для предыдущей серии экспериментов (см. Гл. 2):в качестве обучающей выборки использовался текстовый материал трехкорпусов: основного подкорпуса НКРЯ, газетного подкорпуса НКРЯ икорпуса RuWaC;в роли измерений выступали 10 000 наиболее частотных (по основномуподкорпусуНКРЯ)лексемзнаменательныхчастейречи(глаголов,существительных, прилагательных и наречий);значением по каждой из 10 000 осей было число раз, когда слово-измерениевстретилось в корпусе на расстоянии не более ±5 знаменательных слов отопорной единицы;к векторам применялась операция взвешивания (по схеме PPMI);для упрощения процесса кластеризация размерность всех пространствсокращалась до 300 измерений (по методу SVD).Так как наша задача – кластеризация словосочетаний, мы должны подготовитьвекторныепредставлениядлядвусловныхединицвида«прилагательное+существительное».
Теоретически это можно делать двумя способами: признатьсловосочетаниенеделимойязыковойединицейианализироватьконтекстыееупотребления в корпусе или составлять векторное представление для словосочетания извекторов входящих в него существительного и прилагательного по одной из моделейкомпозиции (см. раздел 4.1.2 Главы 2).Как уже было сказано, для реализации первого способа (представления сочетаемостисловосочетаний) нужны очень объемные корпуса текстов. В работе Кюсева 2014продемонстрировано, что даже имеющихся у нас трёх корпусов недостаточно. Уровенькорреляции данных русского языка (по дистрибутивной модели, состоящей из векторовсочетаемости для наблюдаемых словосочетаний) и типологических наблюдений растёт помере увеличения объема корпуса, однако всё равно остаётся на сравнительно низкомуровне (от 0.21 для корпуса объемом около 200 млн словоупотреблений до 0.287 дляобъединенного корпуса объемом почти 1,4 млрд словоупотреблений).