Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 40
Текст из файла (страница 40)
Так, если в корпусе текстовнам ни разу не встретилась определенная комбинация слов, то можно считать, что онавообще не должна встречаться в текстах. Таким образом, если мы встретили ее вреальном тексте, то часть входящих в нее омонимов может быть отброшена.Значение n обычно принимается равным трем, так как биграммы обладаютслишком малой историей и в дальнейшем не дают хороших результатов, а 4-граммыпорождают слишком большое количество вариантов. При порождении n-граммколичество вариантов может быть уменьшено последующей их обработкой. Так,например, может оказаться, что для некоторой пары слов, стоящей в началетриграммы, существует полный набор вариантов для третьего слова, причемвероятность их появления примерно равна.
Это будет означать, что первые два словане определяют третье, и весь набор троек может быть удален как неинформативный.Подобный подход работает лишь в ситуации, когда мы выбираем наиболее вероятныйвариант. При отсеивании наименее вероятных омонимов сам факт наличия подобныхтроек в базе будет означать, что у третьего слова не может быть удалено ни одногоомонима.Приведенный метод позволяет учитывать согласование параметров слов. Длякаждой триграммы можно хранить лишь те значения лексических параметров,которые совпадают у отдельных комбинаций или всех слов в n-грамме. В методеследует различать знаки препинания, не сводя их, например, к одной части речи, таккак роли, например, запятой и двоеточия в предложениях существенно различны.Описанный метод позволяет получить точность снятия омонимии до 95% привыборе единственного наиболее вероятного варианта (при полном снятии омонимии)и порядка 99% (в зависимости от степени снятия) при отсеивании наименеевероятных вариантов (при частичном снятии омонимии).Существует несколько методов, применяющих информацию об n-граммах.Наивный классификатор Байеса – это наиболее простой вид теггера (программыморфологической разметки, возможно, совмещенной со снятием омонимии),обучающегося на эталонном корпусе, который применяется для снятия омонимии с125помощью лексических параметров соседних слов, используя варьируемое окноконтекста.
Классификатор Байеса основывается на том предположении, что всепараметры статистистически не зависимы между собой. В задаче снятия омонимииконтекст, в котором появляется омонимичное слово представляется наборомпараметров (F1;F2; … ; Fn), а значение самого омонимичного слова представляетсяклассом (S). Параметры Fi могут быть бинарными и представлять, появляется или неткакое-либо омонимичное слово с некоторым набором слов слева и справа от него.Для наивного Байесовского классификатора суммарная вероятность появлениякомбинации контекстных параметров с данным словом описывается следующимобразом (более подробно теория по данному вопросу изложена в Часть V.§ 1.3):nP(F1 , F2 ,..., Fn , S ) = P(S )∏ P(Fi | S )(3.1)i =1Любой из параметров, который равен нулю, говорит о том, что наше словоникогда не появляется с определенным значением.
Забегая несколько вперёд, скажем,что такие значения сглаживаются путём присвоения им по умолчанию оченьмаленькой вероятности. В общем случае, каждый параметр Fi может входить ссоответствующим весовым коэффициентом в выражение 3.1. Знаки препинания могутучитываться или нет, в зависимости от конкретной реализации системыавтоматической обработки текста. В системах автоматической обработки тестакапитализация слов, как правило, никогда не учитывается. Окно контекста можетохватывать только левых, только правых или сразу левых и правых соседей слова.Выбор размера окна контекста оптимальным образом - это отдельная задача.Как уже было отмечено, статистическое моделирование естественного языкапредназначено для морфологической разметки текста с помощью закономерностей,которые не могут быть получены в явной аналитической форме.
Здесь возникаетпроблема выбора наиболее подходящей статистической модели q(x), которая быучитывала все особенности обучающей выборки. Таким образом, сама обучающаявыборка является ограничениями, которые накладываются на q(x). Обратимся ктакому понятию как энтропия, которое является основным для теории информации.Энтропия - это мера априорной неопределенности системы.
Энтропия обладаетследующими полезными свойствами: обращается в ноль, когда одно состояниесистемы достоверно, а другие невозможны; при заданном числе состоянийобращается в максимум, когда эти состояния равновероятны68. Согласно принципумаксимальной энтропии, вид модели q(x) подбирается таким образом, чтобымаксимизировать предмет энтропии H(q), не делая никаких дополнительныхпредположений для последовательности из N слов, не представленных в обучающейвыборке.
Принцип максимальной энтропии записывается в следующем виде:H (q) = −∑x q( x) log q( x)(3.2)Средний показатель энтропии для английских текстов составляет 6-10 бит наслово, который может зависеть от вида N-граммной модели и жанра текста. В рамкахзадачи по разметке текста, энтропия – это среднее число бит, нужное, чтобыопределить значение слова в данной обучающей выборке. Показатель связанности(perplexity) – это среднее геометрическое количество слов, которое может оказыватьВ случае N-граммной модели это означает, что вероятность появления N-граммы вычисляется по методумаксимального правдоподобия.68126влияние на неизвестное слово.
Это еще одна стандартная мера для сравнения моделейязыка, которая выражается следующей формулой:PP = 2H(q)(3.3)Следует подчеркнуть, что энтропия это некоторая функция, котораяхарактеризует как саму модель естественного языка, так и имеющуюся обучающуювыборку. Среди двух вероятностных моделей, имеющих одинаковый уровень ошибокпредпочтительнее та, у которой энтропия меньше. Вообще же, количество ошибок иэнтропия не однозначно связаны между собой.В соответствии с принципом максимальной энтропии у нас есть возможностьвыбрать наиболее оптимальную базовую вероятностную модель естественного языка.Но эта базовая модель основана на принципе максимального правдоподобия, которыйне позволяет учитывать неравномерности в обучающей выборке и делать разметкупри неполной информации.69 Разумеется, что от системы по автоматическойобработке текста требуется, чтобы она обрабатывала как можно более широкий кругтекстов, а не только тот, что был представлен в обучающей выборке70. Такимобразом, сглаживание используется, а зачастую просто необходимо, в том случае,когда для обучения доступен небольшой корпус, и есть возможность получитьнулевые вероятности для последовательности слов, не представленных в обучающейвыборке.
Цель сглаживания сделать распределение более равномерным, другимисловами, повысить вероятности для последовательностей слов, которые встречаютсяредко или вообще не встречаются и, соответственно, несколько снизить вероятностидля комбинаций слов, которые часто встречаются. Как правило, методы сглаживанияпозволяют повысить качество работы триграммных тэггеров и, тем более, тэггеров наоснове скрытых марковских моделей высоких порядков.Различные методы сглаживания N-граммной вероятностной модели позволяютподобрать оптимальную71 статистическую модель естественного языка. Проблемувыбора оптимального тэггера попробуем обрисовать на следующем примере.Предположим, что у нас есть обучающее множество X = {x1,x2,…,xN} и нам нужнополучить распределение вероятностей q(x).
В самом простом случае, мы используеммаксимум правдоподобия иполагаем, что q(x) совпадает с эмпирическимраспределением p`(x) = c(x) / N, где c(x) – число раз, которое встречалось слово x, а N– размерность обучающей выборки. Но в таком случае, мы придём к переобучениюмодели и не сможем разбирать N-граммы, не представленные в обучающей выборке.Другими словами, необходимо чтобы q(x) соответствовала только наиболее значимымсвойствам распределения p`(x).Для наглядности, приведем примеры. Предположим, что x = (w1; w2), где w1 иw2 английские слова, которые появляются в некотором большом корпусе английскихтекстов. Таким образом, задача сводится к оценке частоты появления биграмм, вданном случае, в английском языке.
Предположим биграмму, которая не появляется вобучающем множестве – «PIG DOG». Имеем, p(PIG DOG) = 0 , но интуитивно мыхотим, чтобы p(PIG DOG) > 0, т.к. эта биграмма имеет некий шанс появиться. ЕщеТакая модель плохо размечает или вообще не размечает последовать из N слов, не представленных вобучающей выборке.70Теоретически, при наличии представительной обучающей выборки, по предельной теореме перейдем отчастот появления N-грамм к вероятности их появления, и с помощью принципа максимального правдоподобияполучим наиболее оптимальную вероятностную модель автоматической обработки текста.
Имеющимисясовременными средствами на практике такое не достижимо.71Строго говоря, на практике обычно подбирается субоптимальная модель естественного языка.69127один пример, предположим, что слово «Mateo» может появляться только после слова«San» в обучающем корпусе (биграмма «San Mateo»). Таким образом, имеем, что p(w1 Mateo) = 0 для всех w1 ≠ San, но интуитивно, мы хотим, чтобы p(x) > 0 для всех w1,а не только для w1 = San. Мы хотим, чтобы наша модель максимально хорошоразбирала случаи, представленные в обучающей выборке и, также максимальнохорошо разбирала неизвестные случаи.