Диссертация (1137511), страница 10
Текст из файла (страница 10)
Первое издание словаря выпущено в 1998 году. Наиболее поздним на момент написания настоящей работы является дополненноеиздание 2010 года. Объём словаря составляет приблизительно 75 тысяч лексеми 130 тысяч их значений.– Толковый словарь русского языка под ред. С. И. Ожегова и Н. Ю.
Шведовой.Четвёртое издание выпущено в 2006 году и дополнено новым материалом. Всловаре дано толкование приблизительно 80 тысячам лексических значений.46– Большой толковый словарь русского языка под ред. Д. В. Дмитриева впервыеиздан в 2017 году. Словарь составляют приблизительно 6 тысяч словарных статей, дающих толкование приблизительно 35 тысячам значений.– Активный словарь русского языка [1]Подробное сравнение словарей русского языка с точки зрения объема и лексического состава приведено в [74].Таким образом, из всех вышеперечисленных словарей одним из наиболееподходящим по всем вышеперечисленные критериям является Большой толковыйсловарь русского языка под ред. С. А.
Кузнецова. Этот словарь имеет достаточныйобъем: 78170 словарных входов, для лексических значений которых приведено106228 толкования. Он в значительной степени ориентирован на активный лексикон современного русского языка. Толкования и организации словарной статьив этом словаре устроены в соответствии с традиционными принципами организации толкований. Последнее свойство является необходимым для того, чтобыразработанные на материале данного словаря методы, могли быть легко адаптированы к другим словарям.2.5Машиночитаемые словариНеобходимостью для автоматической обработки словаря является его представление в машиночитаемом виде. Электронное представление словаря можетиметь значительные преимущества [53]: быстрый поиск, свободный выбор представления, возможность извлекать избранные части словарных статей, и т.
п. Длярусского языка опубликованы и приняты два государственных стандарта, специфицирующие структуру машинно-читаемых словарей [29].Ещё в 1994 году Иде и Вернуа [69] сформулировали трудности, с которымисталкивается лексикограф при переводе бумажных словарей в электронное представление:– сложности при конвертировании из исходного формата, которые обычно требуют разработки специальных грамматик. [90],– несогласованности и разнообразие в формате написания толкований и словарных помет,47– неполнота информации, так как часть значимой для машинной обработки информации в определениях рассматривается лексикографами общеизвестной ине включается в содержимое словаря.При переводе словаря из бумажного представления в электронное, словарьможет дополняться различными видами информации.Например, в [75] описана процедура замены гиперссылок на лексемы гиперссылками на лексические значения. При этом нужно заметить, что в описываемой работе не все лексемы в словаре подвергались обработке, а лишь лексемы,обозначенные как отсылки в бумажном представлении словаря.
Для настоящейработы необходима дизамбигуация не только отсылок, но и некоторых лексем всловарных толкованиях.Другие примеры обработки описаны в [113], где автор извлекает из словарятри различных вида семантических баз данных.Некоторые из печатных толковых словарей русского языка отсканированы,прошли редактирование и исправление ошибок распознавания, и опубликованыв виде электронных ресурсов. Например, ресурс Академик2 предлагает доступ кпяти толковым словаря общего пользования и более 100 тематическим энциклопедиям. Каждая словарная статья в рамках этого ресурса представлена в виде необработанного текста.Ресурс Словари ABBYY3 , поддерживаемый компанией ABBYY публикует словари, созданные с участием пользователей ресурса. Для публикации словарей на ресурсе разработан язык разметки DSL: Dictionary Specification Language.Язык разметки DSL ориентирован на описание форматирования словарной статьи, нежели на определение структурной разметки.
В языке DSL определеныэлементы разметки: курсив, вложенная статья, ссылка на статью. Язык DSL непредполагает возможности задавать связи между статьями, указывая тип связи.Несмотря на ограниченность средств разметки словаря, язык DSL является одним из лучших, с использованием которых описаны толковые словари для русского языка.Таким образом, для русского языка отсутствуют машиночитаемые словари,пригодные для полностью автоматического построения тезауруса, такие как [120],использованный для построения DanNet [94].2 http://dic.academic.ru/3 http://www.lingvoda.ru/dictionaries/482.6 Принципы выбора толкового словаря для исследованияВ настоящей главе были рассмотрены различные параметры толковых словарей с точки зрения их объема, предназначения и охвата лексики, а также с точкизрения организации словарного входа и информации, содержащейся в словарнойстатье.
На основе этого были сформулированы основные характеристики, которыми должен обладать толковый словарь, необходимый для проведения исследования.Как было показано в разделе 2.4, одним из наиболее подходящих из существующих для русского языка толковых словарей является Большой толковыйсловарь русского языка под редакцией С. А.
Кузнецова. Объем данного словарясоответствует требованиям. Он относится к толковым словарям среднего объема,не является историческим словарем, ориентирован на отражение современноголексикона. Толкования в нем соответствуют традиционным принципам традиционной лексикографии. Они представляют собой неструктурированный текст, чтопозволяет переносить разработанный на материале данного словаря метод на другие традиционные словари.49Глава 3.
Выделение отношений3.1 ВведениеВ настоящей главе описываются эксперименты по извлечению тезаурусныхотношений из текстов толкований и их результаты.Для дальнейшего изложения необходимы следующие уточнения об устройстве входных и выходных данных:а языковыми единицами, между которыми устанавливаются отношения являются лексические значения (ЛЗ);б каждому лексическому значению соответствует толкование;в входом толкового словаря является лексема (в настоящей работе рассматриваются только лексемы-существительные); лексема представлена в словаре графическим словом;г у лексемы может быть несколько значений; следовательно, одному графическому слову соответствует несколько лексических значений;е т. е.
на поверхностном уровне отдельное лексическое значение может бытьидентифицировано парой: [лексема – толкование], например «[НЕБОСКРЁБ –Очень высокое, многоэтажное здание]»; далее, говоря о лексическом значении,будем иметь в виду именно такую пару;ж толкование представляет собой множество лексем в различных грамматических формах; лексическое значение и одно из значений лексемы из толкования могут быть связаны некоторым тезаурусным отношением — это значениеи должен распознавать разрабатываемый алгоритм; о такой лексеме из толкования будем говорить как о семантически связанной с данным ЛЗ.Процедура извлечения отношений включает несколько этапов.1.
Необходимо преобразовать исходный текст словаря в удобное для дальнейшейобработки представление. Результатом преобразования является набор данных, включающий лексемы и их толкования, а именно множество ЛЗ (множество пар [лексема – толкование]), относящихся к лексемам-существительным,извлеченным из словаря.50ШагПодготовка корпусаИзвлечение отношенийДизамбигуацияВходные данныеТекст словаря[(лексема, толкование)]Выходные данные[(лексема, толкование)][(лексическое значение,отношение, лексема)][(лексическое значение, [(лексическое значение,отношение, лексема)]отношение, лексическоезначение)]Рисунок 3.1 –– Технологическая цепочка извлечения отношений.
Здеськвадратными скобками обозначен перечень каких-либо значений, круглымискобками обозначено объединение значений в кортежи. Так, [(лексема,толкование)] обозначает перечень пар, состоящих из лексемы и толкования.2. На втором этапе из толкования извлекается семантически связанная лексема.В соответствии с свойством (3.1) она также может быть многозначна, как, например, многозначна лексема «ЗДАНИЕ» из примера выше.3. На третьем этапе требуется для найденной лексемы выбрать то значение, длякоторого имеет место извлеченное тезаурусное отношение.Вся технологическая цепочка извлечения отношений из толкового словаряможет быть представлена в виде таблицы 3.1Сужая задачу восстановления отношений, мы допускаем следующие упрощения:– задача извлечения отношений ограничивается только словарными данными длясуществительных;– мы ограничиваемся небольшим перечнем типов семантических отношений —главным образом нас интересует отношение гипо-гиперонимии, конкретныйнабор отношений может варьироваться, он приведён для каждого экспериментаотдельно;– мы отказываемся от того, чтобы сразу получить семантическое описание вовсей полноте, и ограничиваемся тем, чтобы предъявить одну лексему или именную группу, входящую в синсет, описывающий референта;– мы отказываемся от цели извлечь все знания о семантических отношениях длянекоторого лексического значения, которые мог бы извлечь из соответствующего толкования эксперт, и ограничиваемся задачей извлечь из каждого толкования хотя бы одно отношение.51Иными словами, наша задача создать автомат, который по словарному толкованию существительного предъявит нам тип отношения и существительное, состоящее с определяемым лексическим значением в отношении данного типа.
Внекоторых случаях автомат может предъявить несколько пар [отношение – слово].И, наконец, в некоторых случаях, автомат может не предъявить ни одной такойпары.В настоящей главе описываются эксперименты, связанные с первым и вторым этапом решения общей задачи. Вначале обсуждаются разные аспекты подготовки данных, обработки толкований, которые являются текстами на ограниченном подмножестве языка. Эксперименты второго этапа — это эксперимент, задающий нижнюю границу качества (извлечение первого существительного в качестве связанной лексемы), а также эксперимент по подбору параметров кластеризации толкований для дальнейшего извлечения отношений в полу-автоматическомрежиме.Настоящая глава начинается с описания подготовки исходных данных в разделе 3.2 Первый эксперимент описан в разделе 3.3.
Далее, в разделе 3.4 описанэксперимент по извлечению отношений на основе машинного обучения с частичным привлечением учителя. В заключении анализируются результаты экспериментов.Описанные в главе эксперименты опубликованы [33; 35].3.23.2.1Исходные данныеБольшой толковый словарь русского языкаБольшой толковый словарь русского языка под редакцией С. А Кузнецова [23] содержит 78170 словарных входов.
Словарные статьи разбиты на лексические значения для основных, переносных значений заголовочного слова. Словарьсодержит 115058 таких лексических значений. Определение лексическому значению может быть задано как толкованием, так и отсылкой к другим лексемам илиих значениям, или иллюстрацией. Словарь содержит 106228 толкований.52Помимо толкования словарная статья включает морфологическую, словоизменительную, словообразовательную, фонетическую, этимологическую информацию. Согласно инструкции, лексические значения расположены в виде трёхуровневой иерархии: омонимы, значения лексем, оттенки значений.