Диссертация (1148722), страница 24
Текст из файла (страница 24)
Чтобы решить эту20Исследуемые в данной главе вопросы были рассмотрены в наших статьях [Алексеева, Слюсарь,Чернова, 2015; Алексеева, Слюсарь, Чернова, 2017; Alexeeva, Frolova, Slioussar, 2017; Alexeeva, Slioussar, Chernova,2016; Alexeeva, Slioussar, Chernova, 2018]. Работы выполнены в соавторстве. Автороство разделено, согласиеавторов на использование результатов и материалов публикации в тексте диссертации получено.141проблему, для ряда языков были созданы базы данных в виде компьютерныхпрограмм или интернет-приложений. Среди них English lexicon project [Balota идр., 2007], N-Watch [Davis, 2005], eDom [Armstrong, Tokowicz, Plaut, 2012] и MRCdatabase [Coltheart, 1981] для английского языка; DlexDB [Heister и др., 2011] длянемецкого; CELEX Lexical Database [Baayen, Piepenbrock, Van Rijn, 1995] дляголландского, английского и немецкого; Lexique2 [New и др., 2004] дляфранцузского, а также сформированная на основе CELEX и Lexique база WordGen[Duyck и др., 2004] для генерации псевдослов и кросс-лингвистическая база дляпоиска соседей CLEARPOND [Marian и др., 2012]; BuscaPalabras [Davis, Perea,2005] и EsPal [Duchon и др., 2013] для испанского; EHME [Acha и др., 2014] и EHitz [Perea и др., 2006] для баскского; GreekLex [Ktori, Heuven van, Pitchford, 2008]и GreekLex2 [Kyparissiadis и др., 2017] для греческого; Aralex [Boudelaa, MarslenWilson, 2010] для арабского; the Malay Lexicon Project [Yap и др., 2010] длямалайского; KelemetriK [Erten, Bozsahin, Zeyrek, 2014] для турецкого; the BrazilianPortuguese Lexicon [Estivalet, Meunier, 2015] для бразильского вариантапортугальского языка и др.
Однако никакого аналогичного ресурса для русскогоязыка ранее не разрабатывалось.В связи с этим основной целью данной части диссертационногоисследования было восполнить этот пробел, создав столь необходимый ресурс наматериале русского языка. В результате была создана база StimulStat, а такжепользовательский интерфейс, позволяющий легко получить значения включенныхв базу параметров для заданного списка слов или словоформ, а также отобратьслова или формы по желаемым характеристикам.
Он находится в свободномдоступе на посвященном базе сайте http://stimul.cognitivestudies.ru.БазаStimulStatсодержитпараметры,связанныесчастотностью,буквенным и фонемным составом, просодическими особенностями, полисемией иомонимией, грамматическими характеристиками лемм и словоформ, наличиемблизких по написанию и произнесению слов (т.н. слов-соседей типа сетка-секта)142и др.
(см. подробнее п. Доступные параметры) Некоторые параметры были взятыиз различных источников – в этом случае преимущество базы заключается ввозможности учитывать их одновременно – другие были рассчитаны присоздании базы. Всего в базе данных содержится более 52 тыс. лемм и более 1,7млн. словоформ, образованных от данных лемм. Пользовательский интерфейс(включая значения параметров, все сопроводительные тексты, комментарии иинструкции) представлен на русском и английском языках.Основноевниманиеразработчиковбольшинствабазданныхсосредоточено на частотных характеристиках слов и характеристиках, связанныхс буквенным составом, мы же данной работе стремились по возможности учестьсамые разные параметры, которые, согласно имеющейся литературе, могутсыграть важную роль для лингвистических и психологических исследований.4.2 РАЗРАБОТКА БАЗЫ ДАННЫХ НА РУССКОМ ЯЗЫКЕ4.2.1 Описание базы StimulStat4.2.1.1 Консолидация информации из различных источников4.2.1.1.1 Использованные источникиПри создании базы данных использовалась информация из следующихисточников:• «Частотный словарь современного русского языка» [Ляшевская, Шаров,2009]• Проект«Частотнаяграмматикарусскогоязыка»(http://web-corpora.net/freaky_frequency/freq_main.html) [Ляшевская, 2013; Ляшевская идр., 2013]• «Грамматический словарь русского языка», третье издание [Зализняк, 1987];143• «Новыйсловарьрусскогоязыка.Толково-словообразовательный»[Ефремова, 2000];• Словарь OpenCorpora, версия 05.10.2015 [Бочаров и др., 2009; Bocharov идр., 2013], полученный посредством морфологического парсера pymorphy2[Korobov, 2015];• Список словоформ с ударением, созданный А.
Усачевым на основе«Грамматическогословарярусскогоязыка»(http://www.speakrus.ru/dict/#paradigma) [Усачев, 2004];• База данных «Глагол и действие» [Акинина и др., 2014; Akinina и др., 2015];• Словарь фонетических вариантов, полученных из корпуса CORPRES,разработанного в Лаборатории экспериментальной фонетики СПБГУ[Скрелин и др., 2014; Skrelin и др., 2010].Наиболее важным параметром для психолингвистических исследованийявляется частотность. Так, известно, что частотные слова распознаются быстрее иточнее в задачах лексического выбора, называния слов, распознавания слов наслух с зашумлением и др.
[Altmann, 1998; Grainger, 1990]. Кроме того, при чтениитекста люди тратят меньше времени на высокочастотные слова, чем нанизкочастотные [Rayner, 1998; Rayner, Castelhano, Yang, 2009], частотность словявляется основным параметром в моделях распознавания слов при чтении[Coltheart, Rastle, 1994; Paap и др., 1982].
Таким образом, в качестве базовогоисточника для проекта StimulStat был взят «Частотный словарь современногорусского языка» [Ляшевская, Шаров, 2009]. Этот словарь был создан на основеподкорпуса Национального корпуса русского языка (http://www.ruscorpora.ru),объем подкорпуса составляет 92 миллиона словоупотреблений. Словарь содержит52139 лемм русского языка, охарактеризованных по частотности, измеряемой вipm (item per million, т.е. количество употреблений на миллион), и по частеречнойпринадлежности.144Русский язык — это язык с богатой морфологией, поэтому ключевымпараметром для исследований на русском языке является не только частотностьлемм, но и частотность словоформ. Чтобы получить словоформы (полнуюпарадигму) с их грамматическими характеристиками (см.
ниже п. Грамматическаяинформация) для всех лемм из базового источника, мы воспользовалисьморфологическим анализатором Pymorphy2 (https://pymorphy2.readthedocs.org)[Korobov,опирающимся2015],насловарьпроектаOpenCorpora(http://www.opencorpora.org) [Bocharov и др., 2013]. Всего в базе данных хранится1700842 словоформы. Словарь OpenCorpora распространяется под своднойлицензией, кроме того, он включает существенное количество слов русскогоязыка (389423 леммы и 5100270 форм21). В связи с этим мы предпочли данныйморфологический анализатор другому широко используемому на русском языкеморфологическомупарсеруMyStem2[Segalovich,2003].Онизначальноразработан как внутренний ресурс компании Яндекс, и его морфологическийсловарь не доступен широкой аудитории.Информацияочастотностяхсловоформ,основаннаянаданныходномиллионного подкорпуса Национального корпуса русского языка со снятойморфологической неоднозначностью, была предоставлена О.
Н. Ляшевской 22 ,одним из разработчиков корпуса и руководителем проекта «Частотная грамматикарусскогоязыка»(http://web-corpora.net/freaky_frequency/freq_main.html)[Ляшевская, 2013]. Это — единственный источник частотностей для словоформ сморфологическойснятойнеоднозначностью.Из1700842словоформ,представленных в базе, 355935 единиц получили информацию о частотности.21Ссылки взяты с сайта проекта (http://opencorpora.org/dict.php), запрос был осуществлен 29 декабря 201722Мы выражаем огромную благодарность О. Ляшевской за предоставленный источник.года.145Также в базу в полуавтоматическом режиме были добавлены сведения из«Грамматического словаря русского языка» [Зализняк, 1987].
В этом словарепредставлено более 100000 слов. Были добавлены, в частности, информация оразличныхсловоизменительныхособенностях(преждевсего,индексы,разработанные А. А. Зализняком для обозначения словоизменительных классов),атакжеразличныеграмматическиехарактеристики.ТакжесловарьА. А. Зализняка предоставляет информацию о месте ударения у лемм. Припроставлении ударений в словоформах мы опирались на список словоформ сударением, созданный А. Усачевым на основе «Грамматического словарярусского языка» (http://www.speakrus.ru/dict/#paradigma).Затем в базу, также в полуавтоматическом режиме, было добавлено числозначений для многозначных слов из «Нового толково-словообразовательногословаря русского языка» [Ефремова, 2000].
В этом словаре около 120 000 слов.Так как сведения о полисемии, представленные в разных словарях, отличаются,мы хотели бы в дальнейшем добавить и другие источники.Кроме того, для относительного небольшого числа глагольных лексембыли включены сведения о субъективном возрасте усвоения и представимостисодержания из базы данных «Глагол и действие» (http://www.neuroling.ru) [Akininaи др., 2015]. Эта база была разработана в Научно-учебной лабораториинейролингвистики НИУ ВШЭ на основании экспериментального исследования, вкотором приняло участие 100 респондентов. Так как одна из функций базы — этоконсолидация информации из различных источников, нас не смущает, чтобольшинство представленных в базе слов останется неразмеченными по этимпараметрам: важно, что их можно учитывать хотя бы для части слов параллельнос другими характеристиками.Наконец, в базу данных была добавлена информация о реальной иидеальной фонемной транскрипции на основе словаря фонетических вариантов,146полученныхизкорпусаCORPRES,разработанноговЛабораторииэкспериментальной фонетики СПБГУ [Skrelin и др., 2010].
Корпус включает всебя 60 часов начитанной восемью дикторами речи, словарь составлен на основе105093 словоупотреблений, размеченных фонематически с учетом некоторыхявлений аллофонного варьирования (в частности изменения качества гласного взависимости от положения ударения). В словаре представлено два видафонематической разметки: идеальная и реальная. Идеальная транскрипциясоздана в полуавтоматическом режиме и отражает произношение по правиламрусского языка, в то время как полученная вручную реальная транскрипцияпоказывает то, как в действительности диктор произнес то или иное слово.Приведем пример, слово лето содержит одну идеальную /l' e0 t a4/ и три реальных/l' e0 t a4/, /l' e0 t e4/ и /l' e0 t y4/ транскрипций в словаре.
Реальные транскрипцииотличаются друг от друга качеством заударного гласного. В базе данных мыиспользуемспособзаписифонемнойтранскрипции,разработанныйвЛаборатории экспериментальной фонетики СПбГУ. Фонемы разделяютсяпробелами: /k o0 t/ кот. Обозначения фонем можно посмотреть на специальнойстраничке: http://stimul.cognitivestudies.ru/ru_stimul/phoneme_notation/.Всего в словаре 9965 уникальных пар «словоформа в орфографическойзаписи – словоформа в идеальной фонематической транскрипции» и 26778 пар«словоформаворфографическойзаписи–словоформавреальнойфонематической транскрипции». Эти пары были внесены в базу данных, послечего для них был рассчитан целый ряд параметров, о которых пойдет речь вразделе «Информация, связанная с орфографическим и фонологическимпредставлениями».Как указано выше, база данных содержит небольшое количествословоформ, обладающих фонетической разметкой.