Диссертация (1148722), страница 29
Текст из файла (страница 29)
Без пересчета среднее количество соседей с заменой на однусловоформу равняется 3,1 единице, однако при использовании более короткогосписка частотных словоформ (равного по объему списку для проектаCLEARPOND) этот показатель становится меньше — 1,6 (SD —1,9; диапазон —0–17). Он практически совпадает с данными для испанского языка (1,5), большепо сравнению с данными для голландского, французского и немецкого языков(около 1 соседа с заменой на одну словоформу в среднем для каждого языка) именьше по сравнению с данными для английского языка (около 2 в среднем).169Таблица 12.
Количество соседей различных типов на одну лемму или форму в базе данных StimulStat (учитываются все леммы иформы, которые входят в соседства соответсвующего типа)snstnsansdnspnswnsbinstrinsMЛеммыSDДиапазонMФормыSDДиапазон3,92,12,52,13,910,362,913,73,20,31,70,33,261,3153,236,04,82,12,92,2N/AаN/Aа1014,2157,42,40,31,30,4N/AаN/Aа2759,5535,12–292–32–302–42–182–34642–30992–11792–422–52–262–6N/AаN/Aа2–827602–30396Обозначения: М – среднее значение, SD – стандартное отклонение,N/A – недоступно, sns – соседи с заменой одной буквы, tns – соседи сперестановкой двух букв, ans – соседи с вставкой одной буквы, dns –соседи с удалением одной буквы, pns – соседи, представляющие собой слова, которые целиком включены в ключевое слово, wns – соседи, представляющие собой слова, которые имеют в качестве своейчасти ключевое слово, bins – соседи, представляющие собой слова,которые имеют в той или иной позиции общую биграмму, trins – соседи, представляющие собой слова, которые имеют в той или инойпозиции общую триграмму; а – информация о соседях типа pws иwns для форм не хранится в базе данных из-за большого объема вычислений, а рассчитывается по запросу пользователя для каждойконкретной словоформы или набора параметров.Интересно, что в проекте the English Lexicon Project, который опирается насписок из 40481 словоформ, это показатель равняется 1,2.
То есть при увеличенииобъема корпуса для английского языка, среднее количество соседей с заменой наодну словоформу падает. Для русского языка ситуация обратная, чтопредставляется довольно интересной кросс-лингвистической разницей. Мыпредполагаем, что эта разница вызвана тем, что соседи в английском языкеотличаются друг о друга корневыми буквами, а в русском языке соседи с заменойобразуются в большей степени за счет словообразовательных (например,приставкипо-идо-)исловоизменительных(например,окончаниясуществительных –е, -ы, -а и -у) аффиксов.
Производные и неначальные формы вцелом встречаются в текстах реже, поэтому при увеличении опорного частотногосписка, увеличивается и количество соседей.170Среднее количество соседей с вставкой и удалением для словоформ (см.Таблицу 11) составляет 0,6. Если взять подкорпус объемом в 27571 единицу (дляболее адекватного сравнения с проектом CLEARPOND), то этот показательуменьшится: для соседей с вставкой —0,3 (SD —0,9; диапазон — 0–15), длясоседей с удалением — 0,3 (SD —0,9; диапазон — 0–4).
Эти числа практическисовпадают с данными для голландского, немецкого и испанского языков изпроекта CLEARPOND (по 0,4 для обоих типов) и чуть меньше, чем дляанглийского (по 0,5 для обоих типов) и французского языков (по 0,6 для обоихтипов).Данные по количеству соседей с перестановкой, вставкой и удалением длялемм доступны для греческого языка [Ktori, Heuven van, Pitchford, 2008]. Базаданных для греческого языка содержит 35304 леммы. Уровняв объемы, мыполучили, что в русском языке 2% лемм имеет соседей с перестановкой, 4,6% —соседей с вставкой и 6,4% — соседей с удалением. Для греческого языка первыйпоказатель ниже (0,6%), а остальные два выше (8,0% и 9,7% соответственно).Остальные данные, представленные в таблицах 10, 11 и 12, необсуждаются в статьях, посвященных базам данных для других языков.4.2.4 Дополнительные материалыВ дополнительной части исследования была поставлена цель получитьсведенияочастотностиразличныхграмматическиххарактеристиксуществительных русского языка, опираясь на подкорпус Национального корпусарусского языка со снятой неоднозначностью.
Одной из задач было определить,насколько частотны формы существительных разного рода, в разных числах ипадежах, одушевленных и неодушевленных, как эти характеристики зависят отсловоизменительных парадигм (склонения и типа основы) и как они коррелируютдруг с другом. Вторая задача заключалась в том, чтобы определить частотность171форм с различными окончаниями (в зависимости от падежа, числа, рода исклонения и вне зависимости от них).Собранные сведения о частотности были объединены в небольшую базуданных.
Она выложена на сайте проекта на странице "Дополнительныематериалы".Очевидно, что, если нужно сравнить, скажем, частотность двух падежей,несложно сделать запрос в Национальном корпусе русского языка, не пользуясьникакой базой. База нужна для того, чтобы получить общую картину (например,частотности интересующих падежей на фоне всех падежей), а также иметьвозможность впоследствии включить в сравнение новые факторы, скажем, числоили одушевленность. Ведь, хотя различные системы автоматического анализа,разработанные для русского языка, основаны на такого рода статистике,соответствующая информация пока не представлена в открытом доступе вобобщенном виде. Также важно отметить, что существует несколько проектов,посвященных исследованию частотности падежных и других форм в русскомязыке (например, [Копотев, 2008]).
Однако они направлены прежде всего наописание особенностей парадигм отдельных слов.Сведения о частотности грамматических форм с учетом разныхсловоизменительных классов лексем и о частотности окончаний необходимы дляцелого ряда теоретических и экспериментальных лингвистических исследований,в особенности для всего спектра подходов, ориентированных на употребление, атакже для любых моделей, описывающих ментальный лексикон носителя: ккакому бы направлению они ни относились, частотность всегда играет в них туили иную важную роль.
Причем сведения подобного рода могут бытьвостребованы как сами по себе (например, исследуя, как представлены вментальном лексиконе грамматические категории рода, числа, падежа, важно172знать частотность различных граммем), так и для решения вспомогательных задач,скажем, при подборе стимулов для психолингвистических экспериментов.4.2.5 Применение базы данных StimulStatБаза данных StimulStat использовалась для подбора стимулов во всехэкспериментах, описанных в данном диссертационном исследовании. Приведемеще один пример, не связанный с областью визуального распознавания слов.4.2.5.1.1 Экспериментальное исследование Принципа возможного слова наматериале русского языкаИсследование, на котором мы хотели бы остановиться, было проведеноучастниками данного проекта С.
В. Алексеевой и Н. А. Слюсарь совместно состуденткой СПбГУ А. М. Фроловой. В нем изучался Принцип возможного словапри сегментации устной речи на русском языке. В области восприятия устнойречи одной из центральных является проблема сегментации непрерывногоречевого потока: на данный момент не существует не только общепринятой точкизрения, но даже общепринятого подхода к решению этой проблемы.
Принципвозможного слова был предложен Д. Норрисом [Norris и др., 1997; Norris и др.,2001] и играет важную роль в нескольких влиятельных моделях распознаванияречи.Идея, лежащая в основе этого принципа, заключается в следующем: делаяпредположение о том, что в том или ином месте в речевом потоке проходитсловесная граница, мы должны следить за тем, чтобы остаток хотя бытеоретически мог быть словом. Изначально этот принцип был сформулирован дляанглийского языка, в котором нет слов, состоящих из одного согласного звука.Д. Норрис с коллегами показал, что, когда участники эксперимента слышатфрагменты, в которых содержатся слова, они быстрее и с меньшим количествомошибок обнаруживают эти слова, если для этого надо отсечь слог, который неявляется словом английского языка, но мог бы им быть, чем, когда надо отсечь173один согласный звук.
При этом различий между разными типами слоговобнаружено не было, хотя открытые слоги с ненапряженным гласным не бываютв английском языке самостоятельными словами.Затем данные в пользу психолингвистической реальности этого принципабыли получены на материале ряда других языков, в том числе, например, языкасесото [Cutler, Demuth, McQueen, 2002]. Примечательно, что в сесото, одном изязыков банту, слова должны состоять как минимум из двух слогов. Тем не менее,оказалось, что носителям сесото одинаково просто вычленять слова изфрагментов, отделяя один слог, который даже теоретически не может быть в этомязыке словом, или два, но труднее отделить один согласный звук. Исходя из этихи других подобных данных было сделано предположение об абсолютнойуниверсальности Принципа возможного слова.Однако важно понять, как обстоит дело в языках, где словоформы необязательносодержатгласные.Результатыпредыдущихисследованийпротиворечивы.
А. Эль Айссати с коллегами [El Aissati, McQueen, Cutler, 2012]обратился к рифскому, одному из берберских языков, в котором многие слова несодержат гласных, и показал, что Принцип возможного слова в этом языке неработает. Кроме того, А. Хануликова с коллегами [Hanulikova, McQueen, Mitterer,2010] исследовала словацкий язык, где есть предлоги, состоящие из одногосогласного звука.
Хотя в ходе исследования возник ряд методологическихпроблем, связанных, прежде всего, с тем, что в словацком фиксированноеударение на первом слоге, авторы пришли к общему выводу, что Принципвозможного слова работает в этом языке.Целью проведенного нами исследования на материале русского языкабыла попытка установить, с чем связаны различные результаты, полученные длярифского и для словацкого: с релевантными различиями между этими двумяязыками (в первом слова без гласных намного более многочисленны и174разнообразны) или с вышеупомянутыми методологическими проблемами.