Диссертация (1148722), страница 26
Текст из файла (страница 26)
выше и [Skrelin и др., 2010]). Параметры, выведенные изорфографической записи, доступны как для лемм, так и для форм. При поискенеобходимойинформациинеобходимоотметить,какоепредставление(орфографическое, идеальное фонематическое или реальное фонематическое)интересует пользователя.Рассмотрим доступные параметры:• длина в буквах для орфографической записи и длина в фонемах при поискепо транскрипциям;• позицияоднозначнойидентификацииилипозицияворфографической/фонематической записи, начиная с которой словооднозначно распознается, т.е. других слов с таким же начальным сегментомнет (т.н. word uniqueness point) [Marslen-Wilson, Tyler, 1980]. Позицияоднозначной идентификации, как показано ранее, считается одним из153факторов, которые влияют на скорость реакции в задачах лексическогорешения и называния [Kwantes, Mewhort, 1999; Lindell, Nicholls, Castles,2003], а следовательно является важным параметром, который необходимоучитывать в психолингвистических исследованиях.• первая и последняя буква/фонема;• запись слова в обратном порядке (например, дас для слова сад).
Обратнаязаписьсловаполезнаприотборестимуловдляэкспериментов,исследующих морфологические особенности слов. На данный моментпользователь не может непосредственно найти в базе данных слова,имеющие тот или иной аффикс в виду отсутствия информации о делении наморфемы. Но он может отобрать слова по другим релевантным параметрам(например, частотность и длина), а потом отсортировать их по обратнойзаписи.
Слова с одинаковыми аффиксами сгруппируются вместе. Именнопо этой причине Грамматический словарь А. А. Зализняка [Зализняк, 1987]использует в качестве словарной единицы обратную запись слова.• отсортированный список всех букв/фонем или уникальных букв/фонем,содержащихся в слове (например, клмооо и клмо для слова молоко);• различные параметры, связанные с делением на слоги и ударением:o количество слогов (по количеству гласных), например, в слове мореударение падает на первый слог и на второй по счету символ с началаслова;o границы слогов согласно модели Л. В. Бондарко [Бондарко, 1977]:например, для слова молоко границы слогов будут обозначены как2_4, то есть слоги заканчиваются после второго и четвертого символа(подход Л. В.
Бондарко предполагает, что все слоги в русском языкеявляются открытыми за исключением слогов, заканчивающегося на jи слогов, которые стоят в конце слова). В будущем мы предполагаемреализовать другие подходы к слогоделению, а также расширитьколичество слов, имеющих фонематическую разметку, чтобы при154отборе слов по параметрам данной группы было возможно в большейстепени ориентироваться на произношение;o слоговая структура (запись, в которой гласные обозначаютсясимволом V, согласные – C, буквы ь и ъ – F);o место первичного и вторичного ударения в слогах и в символах;o наличие сдвига ударения в словоизменительной парадигме (например,в форме им.
п. ед. ч. форма рука имеет ударение на окончании, в товремя как в форме вин. п. ед. ч. ударение переходит на корень: руку.При этом в других словах такого сдвига нет: страна - страну).Все параметры в этом пункте за исключением места ударения былирассчитаны нами самостоятельно.4.2.1.2.3 Грамматическая информацияБлагодаря морфологическому анализатору Pymorphy2, построенному наоснове словаря OpenCorpora, а также частеречной информации из «Частотногословаря современного русского языка» на сайте можно осуществлять поиск почасти речи, числу, роду, падежу, одушевленности, виду, переходности,наклонению, залогу, времени, лицу, личным и неличным формам (для глагола),степени, разрядам (для прилагательных) и др.Также следует отметить, что в русистике существуют разные мненияотносительно количества частей речи в русском языке.
Спорными классамиявляются неличные формы глагола, степени прилагательных, местоименныеслова. В частности, подход к частям речи в «Частотном словаре современногорусского языка» [Ляшевская, Шаров, 2009] и в проекте OpenCorpora отличается.В первом выделяются пять основных частей речи (существительные, глаголы,прилагательные, наречия и количественные числительные) и четыре служебных(предлоги, союзы, частицы и междометия). Также в качестве отдельных частейречи в этом источнике выступают предикативы (например, жаль, хорошо),155местоимения-существительные,местоимения-прилагательные,местоимения-наречия, местоимения-предикативы, вводные слова и порядковые числительные.Словарь OpenCorpora включает те же основные и служебные части речи. Такжеотдельнымичастямиречисчитаютсяместоимения-существительныеипредикативы (как и в «Частотном словаре»), но при этом в состав отдельныхчастейречивходяттакженеличныеформыглагола,краткаяформаприлагательного и компаратив (они отличаются от глаголов и прилагательныхсоответственноморфологическимиисинтаксическимисвойствами).Местоименные и порядковые прилагательные входят в состав прилагательных,местоименные наречия — в состав наречий, местоименные предикативы — всостав предикативов, а вводные слова — в состав союзов.
В связи с такойразницей в подходах мы решили реализовать на сайте возможность поиска подвум нотациям.Базаданныхпредоставляетвозможностьискатьпоотдельнымграмматическими характеристикам, получить полный грамматический разбор, атакже посмотреть все формы, входящие в парадигму того или иного слова. Крометого, StimulStat включает грамматический разбор и словоизменительные индексыпо словарю А. А.
Зализняка [Зализняк, 1987]. Эти индексы отражают различныеособенностисловоизменительныхпарадигм:падежныеокончания,наличие/отсутствие чередований, сдвиг ударения и др. Для лемм сайт показываетграмматические характеристики начальной формы. Для форм возможно получитьинформацию о лемме, в парадигму которой она входит.4.2.1.2.4 Информация об омонимах, омографах и их частотностиВ базе данных собрана информация о леммах и формах, которыепредставляют собой различные типы омонимов и омографов.
В этом вопросе мыполагались прежде всего на «Новый толково-словообразовательный словарьрусского языка» [Ефремова, 2000], в котором специальным образом выделенылеммы, которые являются омонимами или омографами (например, мука / мука).156Однако, что касается омонимов, то словарь Т. Ф. Ефремовой не разграничиваетследующие варианты: (а) омонимы в семантическом отношении (брак как‘семейный статус’ и как ‘испорченный товар’); (б) функциональные омонимы,относящиеся к различным частям речи (например, o — предлог и междометие); (в)омонимы, относящиеся к одной части речи, но отличающиеся некоторымихарактеристиками (например, оператор – одушевленное и неодушевленноесуществительное).Омонимы первого типа не обозначены ни в каком другом источнике, аомонимы остальных двух типов можно выделить на основе информации очастеречной принадлежности из «Частотного словаря современного русскогоязык»иограмматическиххарактеристиках,полученныхприпомощиморфологического парсера Pymorphy2, основанного на словаре OpenCorpora.Таким образом, в базе данных можно осуществлять поиск как по омонимам изсловаря Т.
Ф. Ефремовой, так и по перечисленным выше функциональнымомонимам23. Также StimulStat предоставляет возможность искать по омографам изсловаря Т. Ф. Ефремовой и по омографам, полученным на основе информации оместе ударения из «Грамматического словаря русского языка» [Зализняк, 1987].Что касается орфографически идентичных словоформ, то возможны 4варианта в зависимости от совпадения между ними места ударения ипринадлежности к одной и той же парадигме: (а) словоформы принадлежат кодной парадигме и имеют ударение на одном и том же слоге (например, кошке —дательный/предложный падеж, единственное число от слова кошка), такназываемые омонимичные формы одного слова; (б) словоформы принадлежат кодной парадигме, но имеют ударение на разных слогах (например, форма руки, мн.23Для поиска функциональных омонимов различных частей речи, мы использовали нотацию изЧастотного словаря современного русского языка.157ч..
им. п. и форма руки, ед. ч., род. п. входят в парадигму слова рука), такназываемые омографичные формы одного слова; (в) словоформы принадлежат кразным парадигмам, но имеют ударение на одном и том же слоге (например,быстро – форма ср. р. прилагательного быстрый и наречие быстро), такназываемые омонимичные формы разных слов; (г) словоформы принадлежат кразным парадигмам и имеют ударение на разных слогах (например, форма тушу— это форма ед. ч.. вин. п. слова туша, а форма тушу — это форма ед. ч., 1 л.наст.
вр. слова тушить), так называемые омографичные формы разных слов. Всеэти 4 варианта представлены в базе данных.Наконец, рассмотрим вопрос, как выводить для омонимов информацию очастотности. Начнем с омонимичных форм одного слова (например, кошке –дательный/предложный падеж, единственное число). Для лингвистическойработы может быть важна как общая частотность такой орфографической записи,так и частотность каждого из вариантов. Так как в проекте «Частотнаяграмматика русского языка» [Ляшевская, 2013] омонимия снята, в базе естьинформация о частотности для каждого варианта.