Диссертация (1137502), страница 8
Текст из файла (страница 8)
Однако чаще всего векторные модели строятся на основе простого понятиясовместной встречаемости (co-occurrence): устанавливается фиксированный размер окна,и это окно считается контекстом рассматриваемого слова. Таким образом, вектор – этонабор значений всех измерений данного векторного пространства.Так, например, в модели с двумя измерениями (ось 1: пить, ось 2: есть) и размеромокна в одно слово справа или слева от опорного семантические вектора длясуществительных чай, кофе и мороженое могли бы иметь следующий вид (примерсконструирован нами для простоты изложения, а не основан на реальных данных того илииного корпуса текстов):чай: <348, 13>кофе: <303, 2>мороженое: <1, 297>Особое преимущество такого способа представления информации заключается в том,что с геометрическими объектами и числовыми данными можно производить разного родаматематические операции. Прежде всего, вектора разных слов можно сравнивать междусобой, определяя степень близости между ними и, следовательно, делая выводы о степенисходства языковых единиц.
Самая распространенная мера близости – косинус угла междувекторами. Часто используется также мера евклидова расстояния между конечнымиточками векторов, однако в применении к нашим задачам эта метрика даётсодержательный результат в том случае, если сравниваемые вектора имеют равную длину.Длина вектора отражает уровень частотности моделируемой языковой единицы, поэтомумеруевклидоварасстоянияобычноприменяюттолькоктакназываемымнормализованным векторам, приведенным к общей длине, чтобы разница в частотности непрепятствовала определению степени семантического сходства между языковыми29единицами (т.е., говоря очень грубо, чтобы можно было определить, что не оченьчастотное слово миска семантически близко к частотному слову тарелка).Для наиболее точного вычисления степени близости между векторами, помимонормализации, используются и другие вспомогательные операции.
В частности,распространенной проблемой является недостаток статистических данных, которыйпреодолевается разными способами. Прежде всего, с высокой разреженностью векторов(т.е. большим количеством нулевых значений измерений) можно бороться с помощьюуменьшения размерности пространства. Эта процедура способствует уменьшениюколичества времени, требуемого для последующей обработки данных, а в ряде случаев иповышает качество векторных представлений языковых единиц.Ещё один тип операций полезен для представления информации о сочетаемостиединиц, больших, чем слово, в первую очередь, двусловных словосочетаний. Моделидистрибутивной семантики позволяют вычислять вектора сочетаемости и для такого родаопорных элементов: словосочетание может просто считаться единой лингвистическойединицей, и значение измерений вычисляется в зависимости от того, в каких контекстахэта единица употребляется. Однако очевидно, что частотность словосочетаниязначительно ниже, чем частотность каждой из его составляющих в отдельности, поэтомудля сбора такого рода статистики требуются корпуса очень больших объемов, которымиисследователь, как правило, не располагает.
В такой ситуации может быть применен одиниз методов композиции (см. Mitchell & Lapata 2010): вектор словосочетания вычисляетсяна основе векторов составляющих его элементов. Для пересчета данных используютсяразные алгоритмы: сумма или произведение значений каждого измерения; или же наоснове небольшого обучающего корпуса составляются формулы более сложныхзависимостей.
Как и операция по уменьшению размерности пространства, процедуракомпозиции позволяет решить проблему недостатка данных и существенно сэкономитьвремя их обработки: вместо того, чтобы для каждого нового словосочетания собиратьвектор сочетаемости, можно построить его с помощью композиции из уже обсчитанныхэлементов.Векторные модели дистрибутивной семантики уже показали свою состоятельность вразличных сферах NLP. Так, например, они успешно используются для решения задачсемантической дизамбигуации (Agirre & Edmonds 2007; Schütze 1998), кластеризациитекстов и нахождения документов по запросам пользователей (см., например, Salton 1991),30извлечения отношений (Lin & Pantel 2001) и т.д. Однако в области типологическихисследований такого рода модели, насколько нам известно, ещё никем не применялись.§3.
Пилотные экспериментыСамый начальный шаг в направлении внедрения алгоритмов дистрибутивнойсемантики в лексическую типологию был сделан в магистерской работе Кюсева 2014, гдебыл представлен следующий эксперимент. По нескольким корпусам текстов на русскомязыке были собраны вектора для словосочетаний из анкеты, лежавшей в основетипологического анализа семантического поля качественного признака ‘острый’ (ср.острый нож, острая стрела, острое воспаление…). К тому времени этот признак уже былизучен ранее на материале более 20 языков (см. нашу совместную статью Kyuseva et al. toappear), поэтому для него существует надежная и неоднократно провереннаятипологическая анкета, а также собран обширный языковой материал.
Основной цельюэксперимента было определение степени соответствия данных, полученных на основеанализа векторной модели, результатам типологического исследования, проведенноговручную по традиционной методологии группы MLexT.Данные различных языков, полученные в рамках работы над проектом, посвященномкачественному признаку ‘острый’, включены в построенную нами типологическиориентированную базу данных признаковой лексики (Кюсева, Резникова, & Рыжова2013b). В этой базе данных материал представлен в следующем виде: единицей входаявляетсястрокаанкеты,идлякаждогоприлагательного,относящегосякрассматриваемому полю, указано, покрывает оно данную строку анкеты или нет.
Такаяформа организации материала позволяет численно представить степень типологическойблизости одних строк анкеты к другим. В работе Кюсева 2014 эта мера вычисляется наоснове того, насколько часто каждая пара строк покрывается одним и тем же словом: длякаждой пары словосочетаний из анкеты подсчитывается количество лексем, которыеохватывают либо обе эти ситуации, либо ни одну из них, и затем полученное число делитсяна общее количество прилагательных поля ‘острый’, зарегистрированных в Базе (см.Формулу 1).Simtyp = (Nadj[+a,+b] + Nadj[-a,-b]) / (Nadj[-a,+b] + Nadj[+a, -b] + Nadj[+a,+b] + Nadj[-a,-b]),где a, b – пункты анкеты, Nadj – количество прилагательных, покрывающих или не покрывающихсоответствующие контексты.Формула 1.
Типологическая близость двух контекстов (= ситуаций).31Так, если в Базе данных нет ни одной лексемы, которая описывает ‘острый гвоздь’,но не употребляется в сочетании с существительным, обозначающим иглу, и наоборот, нетни одного слова, которое описывало бы ‘острую иглу’, но не ‘острый гвоздь’, то значениеметрики для контекстов ‘острый гвоздь’ и ‘острая игла’ будет равняться единице. А еслив Базе есть десять слов, которые сочетаются с существительным ‘игла’, но не сочетаютсяс существительным ‘нож’ при том, что всего в Базу введено 25 лексем, то пара контекстов‘острая игла’ и ‘острый нож’ получит значение 0.6.С другой стороны, для вектора каждого соответствующего русскоязычногословосочетания (острый гвоздь, острая игла, острый нож и др.) была посчитанакосинусная мера его близости с векторами всех остальных словосочетаний из анкеты.Таким образом, все строки анкеты были попарно сопоставлены друг с другом, причёмдвумя разными способами (на основе типологических сведений vs.
русскоязычных данныхо сочетаемости), поэтому для каждой пары было получено две разных оценки степениблизости. Затем для этих двух мер было подсчитано значение коэффициентов корреляцииПирсона и Спирмена, показывающих, есть ли зависимость между двумя величинами, т.е.есть ли взаимосвязь между значениями показателей дистрибутивного и типологическогосходства.В результате экспериментов было получено достаточно высокое значениекоэффициентов корреляции (в частности, 0.726 для коэффициента корреляции Пирсона,при том что максимальное значение коэффициента равняется 1), что свидетельствует оналичии зависимости между двумя метриками близости, а значит, по крайней мере,косвенно поддерживает гипотезу о значимости понятия фрейма для лексических системестественных языков. Однако эти предварительные эксперименты проводились на оченьограниченном типологическом материале, и полученный результат нуждается в проверке,а сама процедура экспериментов – в дополнительных модификациях.§4.
Новая серия экспериментовВ рамках нашей работы мы провели целую серию новых экспериментов,направленных на анализ сопоставимости двух семантических теорий, дополнительнуюверификацию центрального для фреймового подхода к лексической типологии понятияфрейма, а также подбор оптимальных для наших задач параметров дистрибутивныхмоделей.32Прежде всего, мы внесли некоторые изменения в разработанную в ходепредварительных экспериментов методологию, и провели новую серию экспериментов наматериале семантического поля ‘острый’.
Далее, мы апробировали методику на новыхтестовых данных, использовав результаты типологических исследований качественногопризнака ‘гладкий’ (Кашкин 2013; Kashkin & Vinogradova to appear) и поля глаголовкачания (Шапиро 2015). Помимо этого, в качестве дополнительного эксперимента мыпостроили векторные модели на основе не русского, а английского корпуса, сопоставив ихс результатами типологического исследования поля ‘острый’. И, наконец, мы провелидополнительную серию экспериментов по построению и сопоставлению визуализацийтипологичеких и дистрибутивных пространств. Далее мы подробно обсудим всетехнические детали наших экспериментов и представим полученные результаты.1.