Диссертация (Лексические единицы повседневной разговорной речи пути лексикографического описания их функционирования), страница 10
Описание файла
Файл "Диссертация" внутри архива находится в папке "Лексические единицы повседневной разговорной речи пути лексикографического описания их функционирования". PDF-файл из архива "Лексические единицы повседневной разговорной речи пути лексикографического описания их функционирования", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.
Просмотр PDF-файла онлайн
Текст 10 страницы из PDF
Handbook of Standards… 1997: 79).Действительно, пожалуй, одним из важнейших свойств корпуса является егодоступность для многих исследователей, что в настоящее время полностьюпоменяло требования к научным работам различного рода: обращениек корпусу того или иного языка становится необходимым условиемполучения наиболее полной картины функционирования того или иногоязыкового явления.Если говорить о современном этапе развития корпусной лингвистики,то сейчас активно проводятся исследования языка и речи на всех уровнях:лексики, морфологии, синтаксиса, дискурса в целом и т. п. В качествеопределенной тенденции отмечают увеличение интереса к изучению устнойречи, что сопровождается работой над созданием соответствующихкорпусов.Интереслингвистоввызываеттакжепроблемасозданиямультилингвальных корпусов.Нельзя не упомянуть и о практической значимости корпусныхисследований.
Именно работа с корпусами позволила ученым значительнопродвинуться в таких сферах, как компьютерный перевод, созданиеискусственного интеллекта, автоматическое распознавание и синтез речии мн. др. (см. Полевая лингвистическая практика 2007: 18-21).На протяжении долгого времени русский язык оставался одним изкрупнейших языков, не имеющих своего корпуса текстов, доступных дляисследователей.
Существовали отдельные лингвистические базы данных илипросто записи, но они не обладали, во-первых, сбалансированнымхарактером, а во-вторых, не содержали разметки, что затрудняло работус ними.В настоящий момент наиболее известными корпусами русского языкаявляются следующие:1) Тюбингенский корпус (университет г. Тюбингена, Германия);452) Корпус текстов русских газет конца XX века (Лаборатория общейи компьютерной лексикологии и лексикографии филологическогофакультета МГУ им. М. В. Ломоносова);3) Хельсинский аннотированный корпус ХАНКО (Отделение славянскихи балтийских языков и литератур Хельсинского университета,Финляндия);4) Корпус русского литературного языка КРЛЯ (Санкт-ПетербургскийгосударственныйуниверситетиИнститутлингвистическихисследований РАН);5) НациональныйкорпусрусскогоязыкаНКРЯ(Ассоциация«Национальный корпус русского языка» в рамках программы РАН«Филология и информатика»);6) Корпус «Рассказы о сновидениях», представляющий речь детейи подростков (проект А.
А. Кибрика и В. И. Подлесской).Разумеется, корпусы русского языка не исчерпываются даннымиресурсами. Долгое время самым известным оставался Уппсальский корпус,созданныйшведскимисловоупотреблений, безучеными-русистамилемматизациииисодержащийморфологической1 млн.разметки.В дальнейшем он лег в основу Тюбингенского корпуса. Из других проектовследует упомянуть следующие:1) Машинныйфондрусскогоязыка(Институтрусскогоязыкаим. В. В. Виноградова РАН);2) Параллельныйрусско-финскийкорпус(университетг. Тампере,Финляндия);3) Фонетический фонд русского языка, созданный под руководствомЛ. В.
Бондарко(СПбГУ)иК. Саппока(университетг. Бохума,Германия);4) МеждународныйбанкданныхподетскойречиCHILDES,осуществляемый под руководством американского ученого Б. МакВинни;465) Звуковойкорпусрусскогоязыка(филологическийфакультетСПбГУ) 13.Для исследования речевого лексикона стоит использовать корпусы,содержащие образцы устной речи. Из перечисленных шести наиболееизвестных корпусов только два («Национальный корпус русского языка»и корпус «Рассказы о сновидениях») содержат устные тексты. Именнопоэтомуонииспользованияпредставляютихнаибольшийматериаловдляинтерессточкилексикографическогозренияописаниясовременной речи.1.2.1.
Корпус устных текстов Национального корпуса русского языкаНациональныйкорпусрусскогоязыка(далееНКРЯ)—этоотвечающий современным требованиям корпус современного русскогоязыка. В настоящее время корпус частично представлен в электронной формеи его объем составляет более 120 млн. словоупотреблений.НКРЯ представляет собой Интернет-ресурс, созданный благодарясотрудничествумосковскихразработчиковпоисковойлингвистическойипетербургскихсистемысоставляющейлингвистов,Яндекс.проектаявляютсяатакжеКоординаторамиЕ.
В. Рахилинаи В. А. Плунгян в Москве и В. Б. Касевич и Н. Н. Казанский в СанктПетербурге.НКРЯ представляет собой действительно огромный лингвистическийматериал,которыйподразделяетсянанесколькоподкорпусов,различающихся не только по принципу отбора материала, но и по степениегоаннотированности.Можновыделитьследующиетипытекстов,нашедших отражение в данном корпусе:1) письменные тексты различных жанров (художественная литература,публицистика, научно-популярные тексты, бытовые тексты и пр.),представляющие литературный русский язык;2) устные диалектные тексты;13См.
о нем подробнее раздел 2.2 настоящей работы.473) устные тексты, отражающие современную речевую ситуацию.Особый интерес, с точки зрения лексикографического описаниясовременной разговорной речи, представляет последний тип источников,представленный в «Корпусе устных текстов» (далее — КУТ). Е. А. Гришинаи С. О. Савчук выделяют следующие особенности корпуса устных текстовНКРЯ:1) КУТ содержит подлинные целые тексты объемом более 7,5 млн.словоупотреблений;2) объем текстов позволяет судить о частотности или случайностиявления, а также получать статистические данные о закономерностяхфункционирования единиц;3) представленные тексты являются разнородными с точки зренияполовозрастного, социального, профессионального состава говорящих,а также времени и географии записей (Москва, Московская область, СанктПетербург, Саратов, Самара, Таганрог, Воронеж, Новосибирск, Ульяновск,Екатеринбург, Кировская область);4) временной диапазон, охваченный текстами, составляет около 70 лет,если вести отсчет от транскприптов кинофильмов 1930-х годов.
Еслиговорить о записях собственно устной речи, то они велись с 1956 г. по весну2008 г., что позволило осуществить ряд исследований, направленных навыявление изменений в устной речи. Большая часть относится все жек современномупериоду—2003-2006 гг,около400 тыс.словоупотреблений — к 1990-м годам, 260 тыс. — 1970-ые гг., 160 тыс. —1980-ые гг., 160 тыс. — до 1970 г.;5) устная речь, представленная в КУТ, относится к разным сферамфункционирования:этоиразговорно-бытовая,инаучная,и публицистическая, и официально-деловая, и производственно-техническая,и другие сферы общения;486) постепениспонтанноститекстыКУТможноотнестик квазиспонтанным, включающим интервью, репродуцирование чужой речи,монологи на известную тему и пр.;7) уникальным компонентом КУТ является подкорпус кино, включающийтранскрипты игровых и мультипликационных фильмов (Гришина, Савчук2009: 130-133).Основными источниками при создании КУТ стали:1) записи устной речи, опубликованные в различных хрестоматиях,составленныхнаучнымиМ.
В. Китайгородской,коллективамиА. С. Герда,подруководствомО. А. Лаптевой,Н. Н. Розановой,Е. А. Земской и др.;2) неопубликованные записи, собранные в исследовательских центрах;3) стенограммыбеседсоциологов,предоставленныефондом«Общественное мнение»;4) записи устных текстов, выполненные сотрудниками корпуса.Структуру КУТ см. в табл.
1.1 (Гришина, Савчук 2009: 133-134):Состав корпуса устных текстов НКРЯСферафункционированияУстная публичная речьИтого в КУТ14Устная непубличная речь14Тип текстаБеседаИнтервьюДискуссияЛекцияпарламентскиеслушанияКонференциякруглый столРассказПрочиеРазговортелефонныйразговорРассказПересказМикродиалогПрочиеТаблица 1.1Количествословоупотреблений1064750305775192030611663686640Соотношение (в%)27,17,848,932,24897249177755851815473930076583752799901,21,31,96,152,076,610473401253325435129166,21,63,31,8Допускается отнесение текста к нескольким типам.49Итого в КУТРечь киноИтого в КУТКинодрамаКинокомедияКинодетективКиноповестьКинофантастикадетское киноПрочие7619666619631049043256423233992283812233797294427281939410,023,537,29,18,538,310,438,0Система аннотирования в «Национальном корпусе русского языка»варьируется в зависимости от подкорпуса.
Как и все тексты НКРЯ, «Корпусустных текстов» содержит большинство типов разметки: морфологическую15,семантическую 16 и метаразметку17. Однако лингвистическая аннотацияустных текстов этим не исчерпывается. Большое количество искаженныхформ, характерных для устной речи (например, щаз, здрасьте и пр.), вызвалонеобходимость разработки сохраняющей разметки, которая позволяетработать с ними. Была также добавлена социологическая разметка —характеристика словоупотребления с точки зрения пола и возрастаговорящего, что позволяет получить социолингвистическую информацию.1.2.2. Корпус «Рассказы о сновидениях»Корпус «Рассказы о сновидениях» состоит из 129 рассказов детейи подростков от 7 до 17 лет.
Это достаточно небольшой по объему блокматериалов (около 14 тысяч словоупотреблений), однако его вполне можносчитать репрезентативным с точки зрения представленности русскогоустного дискурса, поскольку к этому возрасту формируются основныенавыки использования языка и речи. Корпус представляет устнуюспонтаннуюмонологическуюречьопределенногокоммуникативногосценария — рассказа на свободную тему (о своем сновидении). Суммарнаяпродолжительность звучания — 6974,6 секунды, т. е. чуть меньше двух часов(Рассказы о сновидениях 2009).Морфологическая разметка заключается в приписывании каждой словоформе ряда помет, указывающих на ту илииную грамматическую характеристику.16Семантическая разметка отражает семантические характеристики той или иной лексемы (например, разряд и пр.)17Метаразметка заключается в снабжении текста максимально полным библиографическим описанием.1550Данный корпус содержит экстралингвистическую и фонетическуюразметки.