Диссертация (1148722), страница 25

Файл №1148722 Диссертация (Распознавание слов на ранних этапах процесса чтения экспериментальное исследование на материале русского языка) 25 страницаДиссертация (1148722) страница 252019-06-292019-06-29СтудИзба

Распознавание слов на ранних этапах процесса чтения экспериментальное исследование на материале русского языка

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 25)

Однако, для русского языкамы не нашли свободно распространяемого ПО, которое могло бы переводитьорфографическую запись в фонетическую. Обычно такие конвертеры работают на147основе встроенных правил. Несмотря на то, что русский язык занимаетпромежуточное положение между языками с глубинной орфографией и языками спрозрачной орфографией (см.

Глава 2 и [Алексеева, Добрего, 2016]), и в словаряхдля каждого слова не прописывается транскрипция, тем не менее, такие правиласоставить непросто, поскольку русский язык обладает нефиксированнымударением, от которого зависит качество гласного (безударные гласныеподвергаются редукции).Заметим, что в тех случаях, когда мы не рассчитывали значенияпараметров сами, а опирались на другие источники, мы не пытались пересмотретьразличные решения их составителей, которые могут показаться спорными.4.2.1.1.2 Основные проблемы при консолидации источников и пути их решенияВажнейшей задачей при консолидации информации из различныхисточников стало их соотнесение.

При этом мы столкнулись со следующимипроблемами.Во-первых,какужебылоотмеченовыше,вразличныхиспользованных нами источниках приняты разные подходы к системе частей речии к ряду других грамматических характеристик, а также разная нотация для ихобозначения. В данном случае мы приняли решение не пытаться унифицироватьэту информацию, а предоставить пользователю базы возможность оперироватьразными вариантами (см. подробнее п.

Грамматическая информация).Во-вторых, проблемой стало то, что не все леммы из «Частотного словарясовременного русского языка», который был нашим основным источником,содержатся в других использованных нами источниках. Например, хотя в«Грамматическом словаре русского языка» почти вдвое больше лемм, чем вчастотном словаре, 8731 лемма, содержащаяся в нашей базе данных, оказалась непредставлена в «Грамматическом словаре». Все такие случаи было необходимотщательно отслеживать в полуавтоматическом режиме, а затем присваиватьлеммам недостающие параметры.

Так, для упомянутых выше 8731 леммы148информация об ударении, а также часть грамматических характеристик былипроставлены вручную. Такими словами были прежде всего наречия, предлоги,союзы, частицы и междометия, которые не содержатся в «Грамматическомсловаре русского языка», так как являются неизменяемыми частями речи. Крометого, отсутствовали слова, закрепившиеся в русском языке после созданияисходной версии «Грамматического словаря русского языка».В-третьих, возник целый ряд проблем, связанный с функциональнойомонимией. В «Частотном словаре современного русского языка» не разделяютсяфункциональные омонимы, относящиеся к одной части речи (например, такие,как оператор – одушевленное и неодушевленное существительное), а такжеомографы (например, такие, как мука – мука).

Во всех остальных источникахвыделяются функциональные омонимы одной части, но не всегда одинаковымобразом.Это создает проблемы и при соотнесении источников (например, однойлемме в «Частотном словаре» соответствуют две леммы в «Грамматическомсловаре»), и при расчете различных параметров, связанных с функциональнойомонимией и омографией, и при работе с информацией о частотности слов припоиске (очевидно, что, если одушевленное и неодушевленное существительноеоператор не разделены в «Частотном словаре», у нас есть информация только обих суммарной частотности).

О представленных в базе параметрах, связанных сомонимией и омографией, и частотности омонимов разных типов рассказываетсяв разделе 4.2.1.2.4.Проблемы соотнесения источников решались в полуавтоматическомрежиме. На данном этапе проекта мы соотнесли два главных источника:электронную версию «Грамматического словаря» А. А. Зализняка и списоксловоформ с грамматической информацией, полученный из словаря OpenCorporaпосредством морфологического парсера Pymorphy2. Чтобы решить данную задачу,149мы написали скрипт, который соотносит леммы в двух источниках на основесовпадения орфографического представления леммы и части речи.

Если врезультате сравнения мы получали одно-однозначное соответствие, связьустанавливалась в автоматическом режиме. Если нет, то соотнесение проводилосьвручную на основе списка словоформ и грамматического разбора лемм состороны OpenCorpora и словоизменительного индекса и грамматическойинформации со стороны «Грамматического словаря».В итоге нам удалось соотнести 49787 из 52139 лемм из словаряО. Ляшевской и А. Шарова с леммами из словаря Зализняка, из них 47188 былисвязаны автоматически, а остальные вручную.

Приведем пример лемм, которыене удалось соотнести. Слову прут в словаре Зализняка соответствуют два индекса:1b и 1d. Первый используется для леммы со множественным числом пруты,второй – для леммы со множественным числом прутья. В словаре OpenCorporaэти две леммы объединены в одну лемму так, что у нее в парадигме содержитсяпо две формы множественного числа на каждый падеж (пруты и прутья, прутови прутьев и т.д.). Такими случаями мы займемся на следующем этапе развитияпроекта.Если пользователь отмечает характеристики, находящиеся пока в несоотнесенных источниках, то он получает информацию только из некоторыхисточников, вместо остальных параметров он видит помету "N/A" ("not available",«недоступно»). Это помета подразумевает, что в базе данных, вероятно, естьзначение интересующего параметра, но его невозможно показать из-за выборанекоторого другого параметра, который нам кажется более важным.

При скрытиипараметров мы исходили из следующей последовательности приоритетов(описание параметров см. ниже в пункте 4.2.1.2):У лемм: Частотность > Часть речи > Индекс А. А. Зализняка >Фонологическая информация (за исключением сдвига ударения в парадигме) >150Парадигма > Полный грамматический разбор > Конкретные грамматическиехарактеристики (род, число, падеж, вид, ...) > Сдвиг ударения > Количествозначений.У форм: Частотность > Часть речи > Фонологическая информация >Лемма > Грамматическая информация.Приведем пример, как это работает. Например, пользователь хочет узнать,где стоит ударение в форме руки и одновременно получить информацию очастотности.

Информация о частотности идет из источника «Частотнаяграмматика русского языка», а информация об ударении из списка словоформ сударением, созданный А. Усачевым на основе «Грамматического словарярусского языка». Эти два источника на данном этапе развития проекта не быликонсолидированы. А следовательно, в базе нет связей между формой руки, мн.

ч..им. п. и ударением на первый слог и формой руки, ед. ч., род. п. и ударением навторой слог. Чтобы пользователь не получил неверную информацию, скрываемодин из параметров — «ударение» — (в соответствии с нашими приоритетами, см.выше) и предоставляем только частотную характеристику словоформы.Стоит заметить, что данная проблема возникает только в режиме поискаинформации по слову, при подборе слов алгоритм проходит по каждому ресурсуотдельно, так что для этого режима отсутствие связей между источниками неявляется проблемой.Наконец, еще одна задача, которая встала перед нами, была связана с тем,что мы приняли решение учитывать в базе данных букву ё и предоставитьпользователю выбор, считать эту букву равной е или нет. Это важно, например,при определении орфографических соседей (см.

ниже п. Информация о близкихпо написанию и произнесению словах (словах-соседях)) и параметров, связанныхс буквенным составом слова (содержащиеся в слове буквы, отсортированные валфавитномпорядке,первая/последняябуква,позицияоднозначной151идентификации и пр. (см. п. Информация, связанная с орфографическим ифонологическим представлениями).В«Частотномсловаре»используетсязаписьбезбуквыё,в«Грамматическом словаре» она проставлена не во всех словах, где должна быть, ит.д. Соответственно, первое, что мы должны были сделать, — это проставитьбукву ё в используемых нами источниках. Так, при помощи программы "Yo"(http://vgiv.narod.ru/yo/yo.html) мы в полуавтоматическом режиме проставилибукву ё в 1597 из 52139 лемм, взятых из частотного словаря, в 400орфографических представлениях фонетических реализаций, добавленных в базуиз словаря фонетических вариантов, полученных из корпуса CORPRES [Skrelin идр., 2010] и т.д.

Вторая часть задачи заключалась в том, чтобы получить длякаждой релевантной леммы и словоформы представление с буквой ё и без нее,связать их в пару, а затем рассчитать для них все релевантные параметры в двухвариантах: считая ё равной е или нет.4.2.1.2 Доступные параметрыБаза данных содержит 52139 лемм и 1700842 словоформы, образованныеот них. 451 леммы имеют функциональный омоним на уровне части речи:например, добро —это существительное (сделать добро), частица (Что? Добро?— Добро!) и наречие (добро посмотрел).

Таким образом, количество уникальныхс точки зрения орфографического представления лемм составляет 51688 единиц.Количество орфографически уникальных словоформ — 963257. Такое сильноесокращениеполучаетсяиз-заширокоизвестногодлярусскогоязыкаморфологического синкретизма.4.2.1.2.1 ЧастотностьStimulStat предоставляет информацию о частотности, измеряемой в ipm(item per million, т.е.

количество употреблений на миллион) для всех 52139 леммиз главного источника базы («Частотного словаря русского языка») и для 355935152словоформ, из которых 252091 являются уникальными с точки зренияорфографическогопредставления.Мытакжесамостоятельнорассчиталинатуральный и десятичный логарифм частотностей, так как предыдущиеэксперименты [Duyck и др., 2004; Keuleers и др., 2012; Kliegl и др., 2004] показалилогарифмическую зависимость между частотностью и скоростью обработки словав различных задачах, исследующих лексический доступ. Мы рассчитали такие жемеры для словоформ, имеющих идеальную и реальную фонематическую запись.Но из-за того, что таких слов достаточно мало, рассчитанные показателичастотности могут в большей степени использоваться для определения того, какоепроизношение высокочастотного слова является наиболее распространенным.4.2.1.2.2 Информация, связанная с орфографическим и фонологическимпредставлениямиБаза данных StimulStat предоставляет информацию о реальной и идеальнойфонематической записи только для форм, включенных в словарь фонематическихвариантов (см.

Характеристики

Тип файла

PDF-файл

Размер

4,6 Mb

Материал

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

СПбГУ

Список файлов диссертации

raspoznavanie-slov-na-rannih-jetapah-processa-chtenija-jeksperimentalnoe-issledovanie-na-materiale-russkogo-jazyka.rar

Автореферат.pdf

Выписка из протокола заседания диссертационного совета.pdf

Диссертация.pdf

Информация об официальном оппоненте 2.pdf

Информация об официальном оппоненте.pdf

Отзыв ведущей организации.pdf

Отзыв на автореферат 2.pdf

Отзыв на автореферат 3.pdf

Отзыв на автореферат.pdf

Отзыв научного руководителя.pdf

Отзыв официального оппонента 2.pdf

Отзыв официального оппонента.pdf

Прочти меня!!!.txt

Сведения о ведущей организации.pdf

Сведения о результатах публичной защиты.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.