Диссертация (1137502), страница 11
Текст из файла (страница 11)
Формулу 10а) и ортогональный ему (Формула 10б). Затемпараллельному компоненту дается больший вес с помощью коэффициента λ, аортогональный компонент остается неизменным (Формула 10в). Наконец, каждоеслагаемое из уравнения 10в домножается на скалярный квадрат вектора прилагательного(Формула 10г). Итоговый модифицированный вектор существительного используется в43качестве векторного представления всего словосочетания. Значение коэффициента λподбирается так же, как и коэффициенты для аддитивной взвешенной модели (см. выше).В расширительной модели без тренировки для коэффициента λ выбирается значение 2.⃗⃗⃗ ⋅ ⃗⃗⃗ = ⃗⃗⃗ ⋅ ⃗⃗⃗ ⃗⃗,где u⃗ - вектор прилагательного, v⃗ - вектор существительного.Формула 10а.
Компонент вектора v⃗, параллельный вектору u⃗.⃗ = ⃗ − ⃗ = ⃗ −⃗⃗⃗ ⋅ ⃗⃗⃗⃗⃗⃗⃗ ⋅ ⃗⃗⃗Формула 10б. Компонент вектора v⃗, ортогональный вектору u⃗.⃗⃗⃗⃗ ′ = ⃗ + ⃗ = ⃗⃗⃗ ⋅ ⃗⃗⃗⃗⃗ ⋅ ⃗⃗⃗⃗⃗ ⋅ ⃗⃗⃗⃗ + ⃗ −⃗⃗ = ( − 1)⃗⃗ + ⃗,⃗⃗⃗ ⋅ ⃗⃗⃗⃗⃗⃗ ⋅ ⃗⃗⃗⃗⃗⃗ ⋅ ⃗⃗⃗где λ – скалярная величина, вычисляемая на основе обучающего корпуса (векторовнаблюдаемых словосочетаний).Формула 10в. Модифицированный вектор существительного.p⃗ = (λ−1)(u⃗ ⋅ v⃗) u⃗ + (u⃗ ⋅ u⃗)v⃗,Формула 10г.
Вектор словосочетания: расширительная модель композиции.4. Лексическая функция 12 (lexical function) и практическая лексическая функция(practical lexical function, PLF).Вмоделяхлексическойфункцииипрактическойлексическойфункциисуществительное представляется в виде вектора, а прилагательное – в виде матрицы, т.е.прилагательное выступает в роли функции, которая может так или иначе влиять насочетаемость существительного. Матрица для признакового слова рассчитывается наоснове наблюдаемых векторов словосочетаний с участием данного прилагательного.Модель практической лексической функции представляет собой сумму результаталексической функции и вектора прилагательного (см. Формулы 11 и 12, а также Paperno,Pham, & Baroni 2014).Название этой модели неудачно совпадает с широко известным в лингвистике термином лексическаяфункция, введенным А.К.
Жолковским и И.А. Мельчуком (см. Мельчук, Жолковский 1984) для описаниянетривиальной сочетаемости слов, но не имеет с ним практически ничего общего.1244p⃗ = Uv⃗,где p⃗ – это вектор словосочетания, U – матричное представление прилагательного (т.е.собственно «лексическая функция»), v⃗ – вектор существительного.Формула 11.
Лексическая функция.p⃗ = Uv⃗ + u⃗,где p⃗ – это вектор словосочетания, U – матричное представление прилагательного, v⃗ –вектор существительного, u⃗ – вектор прилагательного.Формула 12. Практическая лексическая функция.Все операции над векторами сочетаемости мы проводим с помощью библиотекиDISSECT(DIStributionalSEmanticsCompositionToolkit,http://clic.cimec.unitn.it/composes/toolkit/, Dinu, Pham, & Baroni, 2013), являющейся частьюпроектаCOMPOSES(COMPositionalOperationsinSEmanticSpace,http://clic.cimec.unitn.it/composes/).1.3. Подсчет корреляцииЧтобы определить степень сопоставимости двух семантических пространств(типологического и дистрибутивного), мы берем декартово произведение анкеты самой насебя (т.е.
множество всех возможных пар строк из этой анкеты) и вычисляем для каждойпары значение обеих метрик близости (см. Таблицу 4), а затем вычисляем значениекоэффициента корреляции для метрик типологического и дистрибутивного сходства.Поскольку мы ожидаем, что связь между двумя метриками должна быть линейной, мыиспользуем коэффициент корреляции Пирсона (см. Формулу 13). =∑=1( − )( − )√∑=1(−)2 ∑=1(− )2=(, )√2 2где = (1 , … , ), = (1 , … , ) – две выборки, , – выборочные средние и , 2 2 – выборочные дисперсии, ∈ [−1, 1].Формула 13. Коэффициент корреляции Пирсона.45Пары пунктованкеты‘острый нож’ vs.‘острая коса’‘острый нож’ vs.‘острый нос’‘острый нож’ vs.‘острое зрение’Типологическаяблизость (выборка xm)0.961Дистрибутивнаяблизость (выборка ym)0.9230.4840.9100.6150.907Таблица 4.
Иллюстрация пары выборок, для которых подсчитывался коэффициент корреляцииПирсона (поле ‘острый’). Данные о дистрибутивной близости приведены для модели, построеннойс помощью практической лексической функции.1.4. Базовый алгоритмВ качестве отправной точки для оценки результатов мы использовали самуюпростую дистрибутивную модель, в которой вектора сочетаемости вычислялись не длясловосочетаний, а только для существительных, без учета прилагательных (ср. нож вместоострый нож, стрела вместо острая стрела и т.д.). Это дистрибутивное пространствосопоставлялось с неизменным типологическим.Предполагалось, однако, что уровень корреляции между такими пространствамибудет достаточно высоким, поскольку, как правило, семантика существительного вбольшой мере определяет значение прилагательного, а значит, и связь соответствующегоконтекста с тем или иным фреймом (см.
Рахилина 2010, а также попытки использовать этоявление для решения задачи автоматической семантической дизамбигуации НКРЯ,описанные в Шеманаева и др. 2007).2. Эксперимент 1: признаковые поля ‘острый’ и ‘гладкий’13В первой серии экспериментов мы использовали в качестве тестовых данные олексикализации признаков ‘острый’ и ‘гладкий’ в нескольких языках и статистикусочетаемости соответствующих русских словосочетаний вида «прилагательное +существительное».Для лексикализации прямых значений поля ‘острый’ типологически релевантны дваосновных противопоставления:13Основные результаты этого эксперимента отражены в публикации Ryzhova et al. 2016.461) острота, воспринимаемая тактильно vs.острота, воспринимаемая зрительно(острые инструменты vs.
объекты вытянутой формы);2) острый край vs. острый кончик (режущие инструменты vs. колющие инструментыи объекты вытянутой формы14).Так, например, французское прилагательное tranchant описывает только режущиеинструменты (ножи, лезвия и т.п.), в то время как китайская лексема jianrui сочетаетсятолько с наименованиями колющих инструментов (таких, как ‘стрела’, ‘копье’, ‘шило’), аяпонское слово togatta описывает только объекты острой формы (ср. ‘носок ботинка’),подробнее см. Kyuseva et al.
to appear. Между тем, в русском языке на лексическом уровнеэти фреймы не противопоставлены: прилагательное острый может описывать и режущие(острый нож), и колющие (острая игла) инструменты, а также объекты вытянутой формы(ботинки с острыми носами). И если последний тип употреблений обычно выносится вотдельное значение в рамках словарных статей для слова острый, то значенияфункциональнойостротыколющихирежущихинструментовврусскойлексикографической традиции практически никогда не противопоставляются.В поле отсутствия неровностей на поверхности объекта (‘гладкий’) тоже выделяетсядва базовых противопоставления, дающих три основных фрейма:1) тактильное vs. зрительное восприятие неровностей (ср.
гладкая/скользкая доска vs.ровная стена);2) «функциональное» отсутствие неровностей, приятное или удобное (можетоцениваться как зрительно, так и тактильно) vs. отсутствие неровностей, приводящее кпотере функциональности (ср. гладкая кожа / ровный пол vs. скользкий пол).Для некоторых лексических систем релевантна только первая оппозиция. В такихязыках выделяется лексически ситуация описания поверхностей, у которых отсутствиенеровностей оценивается зрительно, а гладкие и скользкие поверхности (т.е.
такие, чьянеровность определяется тактильно) описываются одной и той же лексемой. Такой типлексикализации засвидетельствован, например, в эрзянском и ненецком языках. В другихязыках, напротив, действует только второе противопоставление, и тогда для описаниягладкихировныхповерхностейвыбираетсяодноитожеслово,адля«нефункциональных» скользких – другое. Именно такая система представлена, например,в марийском (и – с некоторыми оговорками – в китайском), подробнее о типологииКажущаяся логически возможной комбинация ‘линия’ + ‘форма’ не лексикализована ни в одном языкевыборки.1447признака ‘гладкий’ см. (Кашкин 2013; Kashkin & Vinogradova to appear).
В русском языкевсе три типа ситуаций противопоставлены лексически: признак гладкий отвечаетпреимущественно за тактильное восприятие, ровный – зрительное, а прилагательноескользкий описывает ситуации, в которых чрезмерно гладкая поверхность объектазатрудняет его функционирование (см. примеры 1-3 из НКРЯ).(1) У них было свое дерево, платан, и перед тем как идти спать, они проводилипальцами по его гладкой коже ― воздух в темноте свежел, а она оставалась теплая.[Михаил Шишкин. Венерин волос (2004) // «Знамя», 2005](2) Все пригорочки, холмики и впадинки будут срезаны и сглажены, вместо нихпоявится ровная поверхность газона с травой регламентированного зеленого цвета изаданной высоты.