Диссертация (1148722), страница 28
Текст из файла (страница 28)
Если учесть, что короткие слова встречаются в текстах чаще искорректировать среднюю длину леммы на частотность, то значение этогопараметра уменьшится до 5,5.В статьях о похожих базах данных для других языков, перечисленных вОбзоре литературы к Глава 4, также приводятся средние значения для некоторыхпараметров, но кросс-лингвистическое сравнение затруднено разницей в выбореисходных источников.
Для преодоления этих сложностей была создана базаданных CLEARPOND [Marian и др., 2012], которая опирается на тексты,составленные из субтитров к фильмам для пяти языков (английского,французского, немецкого, голландского и испанского). На основе этих текстовдля каждого языка было выделено 27751 наиболее частотное слово (в данномслучае имеется в виду словоформа, так как авторы не пишут об этапе выделениялемм). Этот порог был установлен следующим образом: для каждого языка быливыделены слова с частотностью, превышающей 0,34 ipm, затем был определенсамый короткий список (27751 слово для английского), и это значение былоиспользовано для других языков.Таблица 9.
Описательная статистика лемм и форм в базе данных StimulStatМЛеммыSDДиапазонМФормы с частотамиSDДиапазонДлина в буквахДлина в слогахЧастотность9,1 (5,5)а3,5 (2,1)а18,53,2 (3,3)а1,4 (1,3)a291,99,2 (5,4)а3,9 (2,3)а3,82,8 (3,2)а1,3 (1,4)а126,2ПозицияуникальнойидентификациибМесто ударенияв буквахвМесто ударенияв слогахв7,22,61–340–150,4–35,801,82–21N/A5,4 (3,2)а2,4 (2,0)а1–212,4 (1,5)а1,1 (0,8)а1–9МВсе формыSDДиапазон10,44,5N/A2,91,5N/A1–340–15N/AN/A1–310–130,2–38,107,4N/A10,52,82–325,2 (3,6)а2,3 (2,0)а1–175,52,21–212,3 (1,7)а1,0 (0,8)а1–82,41,11–9Обозначения: М – среднее значение, SD – стандартное отклонение, N/A – недоступно; а – с учетом частотности; б – Мырешили не рассчитывать позицию уникальной идентификации для подмножество форм, имеющих частотную информацию; в– слова, состоящие из одной согласной, не учитывались при расчете средних значений, связанных с местом ударения.164В статье, описывающей базу данных CLEARPOND приводятся следующиезначения средних частотностей форм для каждого языка: 30,9 ipm дляфранцузского, 32,6 ipm для голландского, 32,7 ipm для английского, 33,7 длянемецкого и 33,9 для испанского.
Для русского языка, как видно из таблицы 9, эточисло значительно меньше. Однако размер базы данных для русского языка напорядок больше. В связи с этим чтобы провести более точное сравнение мыпосчитали средние значения некоторых параметров для 27751 наиболее частотнойсловоформы из базы данных StimulStat. Результат средней частотности дляукороченного списка слов — 29,4 ipm (SD —379,5; диапазон — 3,2–38107,4)практически совпадают с данными из проекта CLEARPOND [Marian и др., 2012],особенно если учесть, что в основе CLEARPOND лежат тексты, представляющиесобой субтитры к фильмам, а частотности в StimulStat основаны на газетных ихудожественных текстах.
Среднее значение частотности 40481 словоформы вдругом проекте для английского языка (the English Lexicon Project) [Balota и др.,2007, с. 20], частотности для которого взяты из Частотного списка Х. Кучеры иВ. Френсиса [Kučera, Francis, 1967], основанного на художественных и газетныхсписков, практически не отличаются от наших результатов: 29,7 ipm.Информация о средней частотности лемм доступна для греческого языка—33,9 ipm [Ktori, Heuven van, Pitchford, 2008]. Это число значительно больше,чем для русского языка— 18,5 ipm (см. Таблицу 9), но в базе для греческого языкахранится меньше лемм (35304 единицы), чем в базе для русского языка (51688уникальных единиц).
После пересчета (мы взяли только 35304 самые частотныелеммы из базы данных StimulStat, чтобы уровнять количество лемм для подсчета сгреческим) среднее значение частотности выросло до 26,8 ipm (SD —352,9;диапазон — 1–35801,8).Далее рассмотрим среднюю длину слов в символах. При описании базыданных CLEARPOND мы можем найти следующие цифры для длины словоформ:7,9 символа для французского, 8,4 для голландского, 7,3 для английского, 8,3 для165немецкого и 7,9 для испанского. Что касается русского языка, то, как можновидеть в таблице 9, показания средней длины больше, чем отмеченные выше (какв отношении форм, обладающих частотной информацией, так и в отношении всехсловоформ).
Однако, если снова сократить объем частотных форм для русскогоязыка до объема базы данных CLEARPOND, то средняя длина слова будет равна7,6 (SD —2,5; диапазон — 1–24). Средняя длина словоформы в проекте the EnglishLexicon Project —8,0. Таким образом, широко известное мнение, что в русскомязыке слова длиннее, чем в английском и других европейских языках, неподтверждается.Что касается средней длины леммы, то здесь можно обратиться к статье огреческом языке [Ktori, Heuven van, Pitchford, 2008].
Авторы приводят следующиечисла: 9,0 и 5,1 (во втором случае длина нормирована на частотность). Этизначения в целом совпадают с данными о русском языке: 9,1 и 5,7 (см. Таблицу 9),но если выровнять объемы двух баз (выбрав только 35304 наиболее частотныхлеммы из базы данных StimulStat), то для русского языка эти показателинесколько уменьшатся: 8,7 (SD —3,0; диапазон — 1–31) и 5,4 (SD —2,5; диапазон— 1–24) соответственно.Информация о средней длине словоформы в слогах представлена только встатье, описывающей базу данных для малайского языка [Yap и др., 2010].Авторы приводят значения этого показателя не только для малайского языка (3,0слога в среднем на одну словоформу), но и для других языков: 2,5 дляфранцузского и английского языков, 3,4 для немецкого и 3,5 для голландского.Однако эти показатели рассчитаны для корпусов разных размеров: малайский —9592 слов, французский —38335 слов, английский — 38477 слов, немецкий —50658 и голландский —117867 слов.Как видно из таблицы 9, значение этого параметра несколько выше (3,9).Однако если мы пересчитаем данный показатель, выровняв объемы баз, то мы166получим следующие значения: 2,8, 3,2, 3,2, 3,3 и 3,5 соответственно.
Такимобразом, средняя длина в слогах в русского языке схожа со значениями,полученными для немецкого и голландских языков и слегка превышаетпоказатели, найденные для французского и английского языков. Мы считаем, чтоменьшее количество слогов на словоформу в последних двух упомянутых языкахвызвано тем, что в этих языках широко распространены дифтонги инепроизносимые буквы. Что касается малайского языка, то среднее значениедлины в слогах для него чуть выше, чем в русском языке.
И нам сложно выявитьдля этого причины. Возможно, дело в открытой системе слогов, характерной длямалайского языка.Средние значения позиции однозначной идентификации не обсуждаютсяавторами баз данных для других языков. Что касается позиции ударения, тоданная информация представлена в статье по греческому языку [Ktori, Heuven van,Pitchford, 2008]. Однако, мы не сможем сравнить ее напрямую, так как вгреческомязыкеместоударениярассчитывалосьсконцаслова.Этонеудивительно, ведь по правилам чтения ударение в греческом языке можетпадать только на один из трех последних слогов.Далее перейдем к характеристикам орфографических соседств, соседиразличных типов были впервые рассчитаны для русского языка.В таблице 10 предоставлена информация о количестве соседств разныхтипов, представленных в базе данных StimulStat, а также о количестве и процентелемм и словоформ, задействованных в этих соседствах.167Таблица 10. Количество орфографических соседств и количество слов, входящих в них, для лемм и словоформ из базы данныхStimulStatТип соседстваОрф.
уникальные леммы (51688)КоличествоКоличество слов всоседствсоседствахОрф. уникальные формы (963257)КоличествоКоличество слов всоседствсоседствахsnstnsansdnspnswnsbinstrins1228064224093346445921417566362561070407217657311694510193N/AбN/Aб89505151615241 (29,5%)1130 (2,2%)5077 (9,8%)5077 (9,8%)47380 (91,7%)47380 (91,7%)51645 (99,9%)51175 (99,0%)819965 (85,1%)30718 (3,2%)648223 (67,3%)648223(67,3%)N/AбN/Aб963227 (99,9%)962835 (99,9%)Обозначения: sns – соседства с заменой одной буквы, tns – соседства с перестановкой двух букв, ans –соседства с вставкой одной буквы, dns – соседства с удалением одной буквы, pns – соседства, в которых слова целиком включены в другие слова, wns – соседства, в которых слова имеют в качестве своейчасти другие слова, bins – соседства, состоящие из слов, имеющие в той или иной позиции общую биграмму, trins – соседства, состоящие из слов, имеющие в той или иной позиции общую триграмму; а– процент слов, имеющих соседей такого типа, указан в скобках; б – информация о соседях типа pwsи wns для форм не хранится в базе данных из-за большого объема вычислений, а рассчитывается позапросу пользователя для каждой конкретной словоформы или набора параметров.Таблица 11 показывает, насколько соседи того или иного типараспространены среди всех уникальных лемм и словоформ.
Таблица 12показывает средний размер соседств различных типов.168Таблица 11. Количество соседей различных типов на одну лемму или форму в базе данных StimulStat (учитываются все леммы иформы из базы данных)snstnsansdnspnswnsbinstrinsMЛеммыSDДиапазонMФормыSDДиапазон0,80,020,070,072,52,5433,1102,62,00,20,50,32,032,4551,9197,63,10,030,60,6N/AаN/Aа8520,41974,12,50,21,20,7N/AаN/Aа12444,44018,90–280–20–290–30–170–34630–30980–11780–410–40–250–5N/AаN/Aа0–827590–30395Обозначения: М – среднее значение, SD – стандартное отклонение,N/A – недоступно, sns – соседи с заменой одной буквы, tns – соседис перестановкой двух букв, ans – соседи с вставкой одной буквы, dns– соседи с удалением одной буквы, pns – соседи, представляющие собой слова, которые целиком включены в ключевое слово, wns – соседи,представляющие собой слова, которые имеют в качестве своей части ключевое слово, bins – соседи, представляющие собой слова, которые имеют в той или иной позиции общую биграмму, trins – соседи,представляющие собой слова, которые имеют в той или иной позиции общую триграмму; а – информация о соседях типа pws и wns дляформ не хранится в базе данных из-за большого объема вычислений,а рассчитывается по запросу пользователя для каждой конкретнойсловоформы или набора параметров.Числа, представленные в таблице 11 относительно словоформ можносравнить с данными о соседях из проекта CLEARPOND (с поправкой на объемчастотного списка).