Диссертация (1148722), страница 24

Файл №1148722 Диссертация (Распознавание слов на ранних этапах процесса чтения экспериментальное исследование на материале русского языка) 24 страницаДиссертация (1148722) страница 242019-06-292019-06-29СтудИзба

Распознавание слов на ранних этапах процесса чтения экспериментальное исследование на материале русского языка

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 24)

Чтобы решить эту20Исследуемые в данной главе вопросы были рассмотрены в наших статьях [Алексеева, Слюсарь,Чернова, 2015; Алексеева, Слюсарь, Чернова, 2017; Alexeeva, Frolova, Slioussar, 2017; Alexeeva, Slioussar, Chernova,2016; Alexeeva, Slioussar, Chernova, 2018]. Работы выполнены в соавторстве. Автороство разделено, согласиеавторов на использование результатов и материалов публикации в тексте диссертации получено.141проблему, для ряда языков были созданы базы данных в виде компьютерныхпрограмм или интернет-приложений. Среди них English lexicon project [Balota идр., 2007], N-Watch [Davis, 2005], eDom [Armstrong, Tokowicz, Plaut, 2012] и MRCdatabase [Coltheart, 1981] для английского языка; DlexDB [Heister и др., 2011] длянемецкого; CELEX Lexical Database [Baayen, Piepenbrock, Van Rijn, 1995] дляголландского, английского и немецкого; Lexique2 [New и др., 2004] дляфранцузского, а также сформированная на основе CELEX и Lexique база WordGen[Duyck и др., 2004] для генерации псевдослов и кросс-лингвистическая база дляпоиска соседей CLEARPOND [Marian и др., 2012]; BuscaPalabras [Davis, Perea,2005] и EsPal [Duchon и др., 2013] для испанского; EHME [Acha и др., 2014] и EHitz [Perea и др., 2006] для баскского; GreekLex [Ktori, Heuven van, Pitchford, 2008]и GreekLex2 [Kyparissiadis и др., 2017] для греческого; Aralex [Boudelaa, MarslenWilson, 2010] для арабского; the Malay Lexicon Project [Yap и др., 2010] длямалайского; KelemetriK [Erten, Bozsahin, Zeyrek, 2014] для турецкого; the BrazilianPortuguese Lexicon [Estivalet, Meunier, 2015] для бразильского вариантапортугальского языка и др.

Однако никакого аналогичного ресурса для русскогоязыка ранее не разрабатывалось.В связи с этим основной целью данной части диссертационногоисследования было восполнить этот пробел, создав столь необходимый ресурс наматериале русского языка. В результате была создана база StimulStat, а такжепользовательский интерфейс, позволяющий легко получить значения включенныхв базу параметров для заданного списка слов или словоформ, а также отобратьслова или формы по желаемым характеристикам.

Он находится в свободномдоступе на посвященном базе сайте http://stimul.cognitivestudies.ru.БазаStimulStatсодержитпараметры,связанныесчастотностью,буквенным и фонемным составом, просодическими особенностями, полисемией иомонимией, грамматическими характеристиками лемм и словоформ, наличиемблизких по написанию и произнесению слов (т.н. слов-соседей типа сетка-секта)142и др.

(см. подробнее п. Доступные параметры) Некоторые параметры были взятыиз различных источников – в этом случае преимущество базы заключается ввозможности учитывать их одновременно – другие были рассчитаны присоздании базы. Всего в базе данных содержится более 52 тыс. лемм и более 1,7млн. словоформ, образованных от данных лемм. Пользовательский интерфейс(включая значения параметров, все сопроводительные тексты, комментарии иинструкции) представлен на русском и английском языках.Основноевниманиеразработчиковбольшинствабазданныхсосредоточено на частотных характеристиках слов и характеристиках, связанныхс буквенным составом, мы же данной работе стремились по возможности учестьсамые разные параметры, которые, согласно имеющейся литературе, могутсыграть важную роль для лингвистических и психологических исследований.4.2 РАЗРАБОТКА БАЗЫ ДАННЫХ НА РУССКОМ ЯЗЫКЕ4.2.1 Описание базы StimulStat4.2.1.1 Консолидация информации из различных источников4.2.1.1.1 Использованные источникиПри создании базы данных использовалась информация из следующихисточников:• «Частотный словарь современного русского языка» [Ляшевская, Шаров,2009]• Проект«Частотнаяграмматикарусскогоязыка»(http://web-corpora.net/freaky_frequency/freq_main.html) [Ляшевская, 2013; Ляшевская идр., 2013]• «Грамматический словарь русского языка», третье издание [Зализняк, 1987];143• «Новыйсловарьрусскогоязыка.Толково-словообразовательный»[Ефремова, 2000];• Словарь OpenCorpora, версия 05.10.2015 [Бочаров и др., 2009; Bocharov идр., 2013], полученный посредством морфологического парсера pymorphy2[Korobov, 2015];• Список словоформ с ударением, созданный А.

Усачевым на основе«Грамматическогословарярусскогоязыка»(http://www.speakrus.ru/dict/#paradigma) [Усачев, 2004];• База данных «Глагол и действие» [Акинина и др., 2014; Akinina и др., 2015];• Словарь фонетических вариантов, полученных из корпуса CORPRES,разработанного в Лаборатории экспериментальной фонетики СПБГУ[Скрелин и др., 2014; Skrelin и др., 2010].Наиболее важным параметром для психолингвистических исследованийявляется частотность. Так, известно, что частотные слова распознаются быстрее иточнее в задачах лексического выбора, называния слов, распознавания слов наслух с зашумлением и др.

[Altmann, 1998; Grainger, 1990]. Кроме того, при чтениитекста люди тратят меньше времени на высокочастотные слова, чем нанизкочастотные [Rayner, 1998; Rayner, Castelhano, Yang, 2009], частотность словявляется основным параметром в моделях распознавания слов при чтении[Coltheart, Rastle, 1994; Paap и др., 1982].

Таким образом, в качестве базовогоисточника для проекта StimulStat был взят «Частотный словарь современногорусского языка» [Ляшевская, Шаров, 2009]. Этот словарь был создан на основеподкорпуса Национального корпуса русского языка (http://www.ruscorpora.ru),объем подкорпуса составляет 92 миллиона словоупотреблений. Словарь содержит52139 лемм русского языка, охарактеризованных по частотности, измеряемой вipm (item per million, т.е. количество употреблений на миллион), и по частеречнойпринадлежности.144Русский язык — это язык с богатой морфологией, поэтому ключевымпараметром для исследований на русском языке является не только частотностьлемм, но и частотность словоформ. Чтобы получить словоформы (полнуюпарадигму) с их грамматическими характеристиками (см.

ниже п. Грамматическаяинформация) для всех лемм из базового источника, мы воспользовалисьморфологическим анализатором Pymorphy2 (https://pymorphy2.readthedocs.org)[Korobov,опирающимся2015],насловарьпроектаOpenCorpora(http://www.opencorpora.org) [Bocharov и др., 2013]. Всего в базе данных хранится1700842 словоформы. Словарь OpenCorpora распространяется под своднойлицензией, кроме того, он включает существенное количество слов русскогоязыка (389423 леммы и 5100270 форм21). В связи с этим мы предпочли данныйморфологический анализатор другому широко используемому на русском языкеморфологическомупарсеруMyStem2[Segalovich,2003].Онизначальноразработан как внутренний ресурс компании Яндекс, и его морфологическийсловарь не доступен широкой аудитории.Информацияочастотностяхсловоформ,основаннаянаданныходномиллионного подкорпуса Национального корпуса русского языка со снятойморфологической неоднозначностью, была предоставлена О.

Н. Ляшевской 22 ,одним из разработчиков корпуса и руководителем проекта «Частотная грамматикарусскогоязыка»(http://web-corpora.net/freaky_frequency/freq_main.html)[Ляшевская, 2013]. Это — единственный источник частотностей для словоформ сморфологическойснятойнеоднозначностью.Из1700842словоформ,представленных в базе, 355935 единиц получили информацию о частотности.21Ссылки взяты с сайта проекта (http://opencorpora.org/dict.php), запрос был осуществлен 29 декабря 201722Мы выражаем огромную благодарность О. Ляшевской за предоставленный источник.года.145Также в базу в полуавтоматическом режиме были добавлены сведения из«Грамматического словаря русского языка» [Зализняк, 1987].

В этом словарепредставлено более 100000 слов. Были добавлены, в частности, информация оразличныхсловоизменительныхособенностях(преждевсего,индексы,разработанные А. А. Зализняком для обозначения словоизменительных классов),атакжеразличныеграмматическиехарактеристики.ТакжесловарьА. А. Зализняка предоставляет информацию о месте ударения у лемм. Припроставлении ударений в словоформах мы опирались на список словоформ сударением, созданный А. Усачевым на основе «Грамматического словарярусского языка» (http://www.speakrus.ru/dict/#paradigma).Затем в базу, также в полуавтоматическом режиме, было добавлено числозначений для многозначных слов из «Нового толково-словообразовательногословаря русского языка» [Ефремова, 2000].

В этом словаре около 120 000 слов.Так как сведения о полисемии, представленные в разных словарях, отличаются,мы хотели бы в дальнейшем добавить и другие источники.Кроме того, для относительного небольшого числа глагольных лексембыли включены сведения о субъективном возрасте усвоения и представимостисодержания из базы данных «Глагол и действие» (http://www.neuroling.ru) [Akininaи др., 2015]. Эта база была разработана в Научно-учебной лабораториинейролингвистики НИУ ВШЭ на основании экспериментального исследования, вкотором приняло участие 100 респондентов. Так как одна из функций базы — этоконсолидация информации из различных источников, нас не смущает, чтобольшинство представленных в базе слов останется неразмеченными по этимпараметрам: важно, что их можно учитывать хотя бы для части слов параллельнос другими характеристиками.Наконец, в базу данных была добавлена информация о реальной иидеальной фонемной транскрипции на основе словаря фонетических вариантов,146полученныхизкорпусаCORPRES,разработанноговЛабораторииэкспериментальной фонетики СПБГУ [Skrelin и др., 2010].

Корпус включает всебя 60 часов начитанной восемью дикторами речи, словарь составлен на основе105093 словоупотреблений, размеченных фонематически с учетом некоторыхявлений аллофонного варьирования (в частности изменения качества гласного взависимости от положения ударения). В словаре представлено два видафонематической разметки: идеальная и реальная. Идеальная транскрипциясоздана в полуавтоматическом режиме и отражает произношение по правиламрусского языка, в то время как полученная вручную реальная транскрипцияпоказывает то, как в действительности диктор произнес то или иное слово.Приведем пример, слово лето содержит одну идеальную /l' e0 t a4/ и три реальных/l' e0 t a4/, /l' e0 t e4/ и /l' e0 t y4/ транскрипций в словаре.

Реальные транскрипцииотличаются друг от друга качеством заударного гласного. В базе данных мыиспользуемспособзаписифонемнойтранскрипции,разработанныйвЛаборатории экспериментальной фонетики СПбГУ. Фонемы разделяютсяпробелами: /k o0 t/ кот. Обозначения фонем можно посмотреть на специальнойстраничке: http://stimul.cognitivestudies.ru/ru_stimul/phoneme_notation/.Всего в словаре 9965 уникальных пар «словоформа в орфографическойзаписи – словоформа в идеальной фонематической транскрипции» и 26778 пар«словоформаворфографическойзаписи–словоформавреальнойфонематической транскрипции». Эти пары были внесены в базу данных, послечего для них был рассчитан целый ряд параметров, о которых пойдет речь вразделе «Информация, связанная с орфографическим и фонологическимпредставлениями».Как указано выше, база данных содержит небольшое количествословоформ, обладающих фонетической разметкой.

Характеристики

Тип файла

PDF-файл

Размер

4,6 Mb

Материал

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

СПбГУ

Список файлов диссертации

raspoznavanie-slov-na-rannih-jetapah-processa-chtenija-jeksperimentalnoe-issledovanie-na-materiale-russkogo-jazyka.rar

Автореферат.pdf

Выписка из протокола заседания диссертационного совета.pdf

Диссертация.pdf

Информация об официальном оппоненте 2.pdf

Информация об официальном оппоненте.pdf

Отзыв ведущей организации.pdf

Отзыв на автореферат 2.pdf

Отзыв на автореферат 3.pdf

Отзыв на автореферат.pdf

Отзыв научного руководителя.pdf

Отзыв официального оппонента 2.pdf

Отзыв официального оппонента.pdf

Прочти меня!!!.txt

Сведения о ведущей организации.pdf

Сведения о результатах публичной защиты.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.