Диссертация (1148722), страница 28

Файл №1148722 Диссертация (Распознавание слов на ранних этапах процесса чтения экспериментальное исследование на материале русского языка) 28 страницаДиссертация (1148722) страница 282019-06-292019-06-29СтудИзба

Распознавание слов на ранних этапах процесса чтения экспериментальное исследование на материале русского языка

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 28)

Если учесть, что короткие слова встречаются в текстах чаще искорректировать среднюю длину леммы на частотность, то значение этогопараметра уменьшится до 5,5.В статьях о похожих базах данных для других языков, перечисленных вОбзоре литературы к Глава 4, также приводятся средние значения для некоторыхпараметров, но кросс-лингвистическое сравнение затруднено разницей в выбореисходных источников.

Для преодоления этих сложностей была создана базаданных CLEARPOND [Marian и др., 2012], которая опирается на тексты,составленные из субтитров к фильмам для пяти языков (английского,французского, немецкого, голландского и испанского). На основе этих текстовдля каждого языка было выделено 27751 наиболее частотное слово (в данномслучае имеется в виду словоформа, так как авторы не пишут об этапе выделениялемм). Этот порог был установлен следующим образом: для каждого языка быливыделены слова с частотностью, превышающей 0,34 ipm, затем был определенсамый короткий список (27751 слово для английского), и это значение былоиспользовано для других языков.Таблица 9.

Описательная статистика лемм и форм в базе данных StimulStatМЛеммыSDДиапазонМФормы с частотамиSDДиапазонДлина в буквахДлина в слогахЧастотность9,1 (5,5)а3,5 (2,1)а18,53,2 (3,3)а1,4 (1,3)a291,99,2 (5,4)а3,9 (2,3)а3,82,8 (3,2)а1,3 (1,4)а126,2ПозицияуникальнойидентификациибМесто ударенияв буквахвМесто ударенияв слогахв7,22,61–340–150,4–35,801,82–21N/A5,4 (3,2)а2,4 (2,0)а1–212,4 (1,5)а1,1 (0,8)а1–9МВсе формыSDДиапазон10,44,5N/A2,91,5N/A1–340–15N/AN/A1–310–130,2–38,107,4N/A10,52,82–325,2 (3,6)а2,3 (2,0)а1–175,52,21–212,3 (1,7)а1,0 (0,8)а1–82,41,11–9Обозначения: М – среднее значение, SD – стандартное отклонение, N/A – недоступно; а – с учетом частотности; б – Мырешили не рассчитывать позицию уникальной идентификации для подмножество форм, имеющих частотную информацию; в– слова, состоящие из одной согласной, не учитывались при расчете средних значений, связанных с местом ударения.164В статье, описывающей базу данных CLEARPOND приводятся следующиезначения средних частотностей форм для каждого языка: 30,9 ipm дляфранцузского, 32,6 ipm для голландского, 32,7 ipm для английского, 33,7 длянемецкого и 33,9 для испанского.

Для русского языка, как видно из таблицы 9, эточисло значительно меньше. Однако размер базы данных для русского языка напорядок больше. В связи с этим чтобы провести более точное сравнение мыпосчитали средние значения некоторых параметров для 27751 наиболее частотнойсловоформы из базы данных StimulStat. Результат средней частотности дляукороченного списка слов — 29,4 ipm (SD —379,5; диапазон — 3,2–38107,4)практически совпадают с данными из проекта CLEARPOND [Marian и др., 2012],особенно если учесть, что в основе CLEARPOND лежат тексты, представляющиесобой субтитры к фильмам, а частотности в StimulStat основаны на газетных ихудожественных текстах.

Среднее значение частотности 40481 словоформы вдругом проекте для английского языка (the English Lexicon Project) [Balota и др.,2007, с. 20], частотности для которого взяты из Частотного списка Х. Кучеры иВ. Френсиса [Kučera, Francis, 1967], основанного на художественных и газетныхсписков, практически не отличаются от наших результатов: 29,7 ipm.Информация о средней частотности лемм доступна для греческого языка—33,9 ipm [Ktori, Heuven van, Pitchford, 2008]. Это число значительно больше,чем для русского языка— 18,5 ipm (см. Таблицу 9), но в базе для греческого языкахранится меньше лемм (35304 единицы), чем в базе для русского языка (51688уникальных единиц).

После пересчета (мы взяли только 35304 самые частотныелеммы из базы данных StimulStat, чтобы уровнять количество лемм для подсчета сгреческим) среднее значение частотности выросло до 26,8 ipm (SD —352,9;диапазон — 1–35801,8).Далее рассмотрим среднюю длину слов в символах. При описании базыданных CLEARPOND мы можем найти следующие цифры для длины словоформ:7,9 символа для французского, 8,4 для голландского, 7,3 для английского, 8,3 для165немецкого и 7,9 для испанского. Что касается русского языка, то, как можновидеть в таблице 9, показания средней длины больше, чем отмеченные выше (какв отношении форм, обладающих частотной информацией, так и в отношении всехсловоформ).

Однако, если снова сократить объем частотных форм для русскогоязыка до объема базы данных CLEARPOND, то средняя длина слова будет равна7,6 (SD —2,5; диапазон — 1–24). Средняя длина словоформы в проекте the EnglishLexicon Project —8,0. Таким образом, широко известное мнение, что в русскомязыке слова длиннее, чем в английском и других европейских языках, неподтверждается.Что касается средней длины леммы, то здесь можно обратиться к статье огреческом языке [Ktori, Heuven van, Pitchford, 2008].

Авторы приводят следующиечисла: 9,0 и 5,1 (во втором случае длина нормирована на частотность). Этизначения в целом совпадают с данными о русском языке: 9,1 и 5,7 (см. Таблицу 9),но если выровнять объемы двух баз (выбрав только 35304 наиболее частотныхлеммы из базы данных StimulStat), то для русского языка эти показателинесколько уменьшатся: 8,7 (SD —3,0; диапазон — 1–31) и 5,4 (SD —2,5; диапазон— 1–24) соответственно.Информация о средней длине словоформы в слогах представлена только встатье, описывающей базу данных для малайского языка [Yap и др., 2010].Авторы приводят значения этого показателя не только для малайского языка (3,0слога в среднем на одну словоформу), но и для других языков: 2,5 дляфранцузского и английского языков, 3,4 для немецкого и 3,5 для голландского.Однако эти показатели рассчитаны для корпусов разных размеров: малайский —9592 слов, французский —38335 слов, английский — 38477 слов, немецкий —50658 и голландский —117867 слов.Как видно из таблицы 9, значение этого параметра несколько выше (3,9).Однако если мы пересчитаем данный показатель, выровняв объемы баз, то мы166получим следующие значения: 2,8, 3,2, 3,2, 3,3 и 3,5 соответственно.

Такимобразом, средняя длина в слогах в русского языке схожа со значениями,полученными для немецкого и голландских языков и слегка превышаетпоказатели, найденные для французского и английского языков. Мы считаем, чтоменьшее количество слогов на словоформу в последних двух упомянутых языкахвызвано тем, что в этих языках широко распространены дифтонги инепроизносимые буквы. Что касается малайского языка, то среднее значениедлины в слогах для него чуть выше, чем в русском языке.

И нам сложно выявитьдля этого причины. Возможно, дело в открытой системе слогов, характерной длямалайского языка.Средние значения позиции однозначной идентификации не обсуждаютсяавторами баз данных для других языков. Что касается позиции ударения, тоданная информация представлена в статье по греческому языку [Ktori, Heuven van,Pitchford, 2008]. Однако, мы не сможем сравнить ее напрямую, так как вгреческомязыкеместоударениярассчитывалосьсконцаслова.Этонеудивительно, ведь по правилам чтения ударение в греческом языке можетпадать только на один из трех последних слогов.Далее перейдем к характеристикам орфографических соседств, соседиразличных типов были впервые рассчитаны для русского языка.В таблице 10 предоставлена информация о количестве соседств разныхтипов, представленных в базе данных StimulStat, а также о количестве и процентелемм и словоформ, задействованных в этих соседствах.167Таблица 10. Количество орфографических соседств и количество слов, входящих в них, для лемм и словоформ из базы данныхStimulStatТип соседстваОрф.

уникальные леммы (51688)КоличествоКоличество слов всоседствсоседствахОрф. уникальные формы (963257)КоличествоКоличество слов всоседствсоседствахsnstnsansdnspnswnsbinstrins1228064224093346445921417566362561070407217657311694510193N/AбN/Aб89505151615241 (29,5%)1130 (2,2%)5077 (9,8%)5077 (9,8%)47380 (91,7%)47380 (91,7%)51645 (99,9%)51175 (99,0%)819965 (85,1%)30718 (3,2%)648223 (67,3%)648223(67,3%)N/AбN/Aб963227 (99,9%)962835 (99,9%)Обозначения: sns – соседства с заменой одной буквы, tns – соседства с перестановкой двух букв, ans –соседства с вставкой одной буквы, dns – соседства с удалением одной буквы, pns – соседства, в которых слова целиком включены в другие слова, wns – соседства, в которых слова имеют в качестве своейчасти другие слова, bins – соседства, состоящие из слов, имеющие в той или иной позиции общую биграмму, trins – соседства, состоящие из слов, имеющие в той или иной позиции общую триграмму; а– процент слов, имеющих соседей такого типа, указан в скобках; б – информация о соседях типа pwsи wns для форм не хранится в базе данных из-за большого объема вычислений, а рассчитывается позапросу пользователя для каждой конкретной словоформы или набора параметров.Таблица 11 показывает, насколько соседи того или иного типараспространены среди всех уникальных лемм и словоформ.

Таблица 12показывает средний размер соседств различных типов.168Таблица 11. Количество соседей различных типов на одну лемму или форму в базе данных StimulStat (учитываются все леммы иформы из базы данных)snstnsansdnspnswnsbinstrinsMЛеммыSDДиапазонMФормыSDДиапазон0,80,020,070,072,52,5433,1102,62,00,20,50,32,032,4551,9197,63,10,030,60,6N/AаN/Aа8520,41974,12,50,21,20,7N/AаN/Aа12444,44018,90–280–20–290–30–170–34630–30980–11780–410–40–250–5N/AаN/Aа0–827590–30395Обозначения: М – среднее значение, SD – стандартное отклонение,N/A – недоступно, sns – соседи с заменой одной буквы, tns – соседис перестановкой двух букв, ans – соседи с вставкой одной буквы, dns– соседи с удалением одной буквы, pns – соседи, представляющие собой слова, которые целиком включены в ключевое слово, wns – соседи,представляющие собой слова, которые имеют в качестве своей части ключевое слово, bins – соседи, представляющие собой слова, которые имеют в той или иной позиции общую биграмму, trins – соседи,представляющие собой слова, которые имеют в той или иной позиции общую триграмму; а – информация о соседях типа pws и wns дляформ не хранится в базе данных из-за большого объема вычислений,а рассчитывается по запросу пользователя для каждой конкретнойсловоформы или набора параметров.Числа, представленные в таблице 11 относительно словоформ можносравнить с данными о соседях из проекта CLEARPOND (с поправкой на объемчастотного списка).

Характеристики

Тип файла

PDF-файл

Размер

4,6 Mb

Материал

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

СПбГУ

Список файлов диссертации

raspoznavanie-slov-na-rannih-jetapah-processa-chtenija-jeksperimentalnoe-issledovanie-na-materiale-russkogo-jazyka.rar

Автореферат.pdf

Выписка из протокола заседания диссертационного совета.pdf

Диссертация.pdf

Информация об официальном оппоненте 2.pdf

Информация об официальном оппоненте.pdf

Отзыв ведущей организации.pdf

Отзыв на автореферат 2.pdf

Отзыв на автореферат 3.pdf

Отзыв на автореферат.pdf

Отзыв научного руководителя.pdf

Отзыв официального оппонента 2.pdf

Отзыв официального оппонента.pdf

Прочти меня!!!.txt

Сведения о ведущей организации.pdf

Сведения о результатах публичной защиты.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.