Диссертация (1168800), страница 25
Текст из файла (страница 25)
Одним из критериев репрезентативности корпуса является егообъем. По современным требованиям универсальный языковой корпус долженсостоять из текстов общим объемом не менее 100 млн слов (о репрезентативномобъеме корпуса см., напр., [Nelson 2010; Reppen 2010]). Кроме того, в корпусеразличные фрагменты речевой действительности должны быть представленыпропорционально их представленности в языке [Nelson 2010: 60; Богоявленская2016:163; Ганиева 2007:105], «относительная частота явления в корпусе должна бытьблизка его относительной частоте в проблемной области» [Баранов 2014: 247].Поэтому важна тщательная выборка текстов при составлении корпуса.По характеру отбора текстов различают два типа корпусов:- общеязыковые корпуса;-корпуса,относящиесяккакому-либоподъязыку,втерминологииУ. Э.
Френсиса – сознательно смещенные корпуса [Фрэнсис 1983: 334] (текстыопределенного жанра, стиля, язык определенной социальной группы, «учебныйкорпус» и др.).Корпуса второго типа создаются для отражения какого-либо культурного илилингвистического феномена. Примерами таких корпусов в русском языке могутслужить Корпус русских публицистических текстов второй половины XIX века,120Электронная библиотека русских народных говоров, Санкт-Петербургский корпусагиографических текстов, подкорпуса Национального корпуса русского языка:Корпус поэтических текстов, Газетный корпус (корпус современных СМИ), Корпусустной речи и др.
Для английского языка это Medical Web Corpus (база интернеттекстовмедицинскойнаправленности),BritishLawReports(базаCorpusюридической документации), Brexit Corpus (база текстов на тему выходаВеликобритании из состава Евросоюза) и др.Задачам нашего исследования отвечает общеязыковой (универсальный)корпус. Большинство крупных языков мира имеет свои национальные корпуса.Для решения различных лингвистических задач необходимо, чтобы текстысодержали в себе дополнительную информацию, или разметку (аннотацию).Наличиеразметкиопределяетширотуисследовательскихвозможностей,предоставляемых корпусом. Так, текстам приписываются экстралингвистическиеметки: сведения об авторе, год и место издания, жанр, тематика, тип текста.Большую ценность для ученых представляет также собственно лингвистическаяразметка, содержащая информацию о лексических, грамматических и прочиххарактеристиках слов в текстах.
Большинство крупных корпусов содержатморфологическуюразметку,включающуюинформациюочастеречнойпринадлежности слова и его грамматических категориях. Благодаря наличиюморфологическойразметкимысмогливыбратьдлярассмотрениятолькосуществительные, номинирующие лиц по труду. Особенно облегчила работуразметка в английском языке, где распространен такой способ словообразования какконверсия, что приводит к наличию большого числа омонимичных форм уразличных частей речи (напр., сущ.
advocate – адвокат, гл. advocate – выступать вподдержку; сущ. butcher – мясник, гл. butcher – забивать скот). Помимоморфологической, выделяют также синтаксическую и семантическую разметку.Безусловно, ввиду значительного объема массива текстов, лингвистическая разметкаосуществляется автоматически.Однако при всем многообразии существующих сегодня типов аннотацииисследование метафорической системы языка не может опираться на размеченные121корпуса, поскольку «концептуальное отображение не привязано ни к какойлингвистической форме» [Stefanowitsch 2006: 2]. О сложностях идентификацииметафор в корпусах см., напр., [Charteris-Black 2004; Deignan 2005; Хахалова,Третьякова2014].словоупотребленийСемантическаянеразметкапредставляетсямногомиллионныхвозможной.Существуеткорпусныхрядработ,предлагающих параметры для автоматической аннотации метафор и облегченияпоиска переносных употреблений в корпусе (см., напр., [Бадрызлова, Керимов,Шехтман 2013; Deignan 2005, 2006; Sardinha 2011; Stefanowitsch 2006; Steen и др.2010]).
Однако такая разметка пока не реализована ни в одном общеязыковомкорпусе. Идентифицировать метафору, которая относится не столько к сфере формы,сколько к сфере мышления человека, пока может только исследователь, поэтомуработа по отбору метафорических употреблений существительных трудовойдеятельности проводилась нами вручную.Исследования метафор на базе корпусов текстов широко распространены всовременной лингвистике (см., напр., [Баранов 2014; Баранов и др.
2004; Бардовская2013; Будаев 2010б; Allan 2006; Charteris-Black 2004; Chun 2002; Deignan 2005;Stefanowitsch 2006]).Одним из наиболее известных корпусов английского языка являетсяБританский национальный корпус / British National Corpus (BNC), насчитывающийоколо 100 млн словоупотреблений. На сайте Национального корпуса русского языкаэтот корпус назван «общепризнанным образцом», на который «ориентированымногие другие современные корпуса». BNC является представительным и включаетустные и письменные тексты британского варианта английского языка. Основнойобъем BNC представлен текстами за период с 1980 по 1993 гг. Поскольку цельнашего исследования – изучение метафорики на современном этапе развития языка,база BNC не подходит нам в качестве источника языкового материала.Еще одним авторитетным корпусом английского языка является Оксфордскийкорпус английского языка / Oxford English Corpus (OEC), используемый создателямиОксфордскогословаряанглийскогоязыка(OxfordEnglishDictionary)испециалистами Издательства Оксфордского университета (Oxford University Press) в122лингвистических исследованиях.
Объем корпуса составляет более 2,5 млрдсловоупотреблений из различных вариантов английского языка: британского,американского, австралийского, канадского и пр. Функция сортировки даетвозможность проводить работу только с одной или несколькими разновидностямиязыка. OEC состоит из массива текстов различной стилистической и жанровойпринадлежности, созданных в XXI веке, а поэтому наилучшим образом отвечаетнашим требованиям.По количеству корпусов и по их объему русский язык современно уступаетанглийскому языку, а поэтому возможности выбора не столь велики, как хотелосьбы.Наиболее авторитетным универсальным корпусом русского языка являетсяНациональный корпус русского языка (НКРЯ), объем которого в настоящее времясоставляет более 600 млн слов.
Тексты, входящие в НКРЯ, датируются серединойXVIII – началом XXI века. НКРЯ, как сказано на официальном сайте корпуса,«характеризуется представительностью, или сбалансированным составом текстов.Это означает, что корпус содержит по возможности все типы письменных и устныхтекстов,представленныев данномязыке(художественныеразных жанров,публицистические, учебные, научные, деловые, разговорные, диалектные и т.п.),и что все эти тексты входят в корпус по возможности пропорционально их долев языке соответствующего периода».Поскольку мы исследуем современное состояние языка и выбранные дляисследования корпусы – OEC и НКРЯ - охватывают разные хронологическиепромежутки, в область изучения включены только такие тексты из НКРЯ, которыесоответствуют материалу OEC, т.е.
были опубликованы с 2000 года по настоящеевремя.Отметим, что и при лексикографическом, и при корпусном исследовании мысознательно обращались только к материалам собственно английских (британских)источников, и исключали тексты, ориентированные на другие варианты английскогоязыка. Поэтому в OEC нас интересовал только массив текстов, созданныхносителями британского варианта английского языка.123В процессе анализа мы руководствовались рядом стратегий, которыепозволили представить объективную картину функционирования метафор трудовойдеятельности в двух языках.Необходимо было решить, какое количество вхождений лексемы в корпусокажетсярепрезентативнымдляизученияметафорики,посколькурепрезентативность выборки определяет достоверность полученных результатов.Репрезентативный объем выборки позволяет выявить метафоры с низкой частотой, атакже определить, является ли рассматриваемое метафорическое значение типичнымдля языка или индивидуально-авторским.
Логично предположить, что разныеметафоры имеют разную частоту употребления, поэтому в каждом отдельном случаедостаточным для исследования окажется разный объем выборки. На наш взгляд,правильнее исходить не из фиксированного количества вхождений лексемы вкорпус, а из количества встретившихся метафорических употреблений даннойлексемы. Как правило, достаточным мы считали массив текстов, где встретилось от7 до 15 метафорических употреблений существительного со значением трудовойдеятельности.Еслиприизучении1000иболеесловоупотреблений,зафиксированных корпусом, не удавалось обнаружить метафорических значений, томы считали, что единица практически не используется в метафорическом значении,что, впрочем, не исключает возможности ее окказионального использования в томили ином контексте.Важным аспектом корпусного изучения метафоризации существительныхтрудовой деятельности стало для нас рассмотрение не только тех существительных,которыеимеютметафорическиевторичныезначения,отраженныевлексикографических источниках, но также тех номинаций, у которых в словаре незафиксированы метафорические лексико-семантические варианты.
Такой подходпозволяетвыявитьпредставленнойвразличиясловарях,междуиметафорическойданнымиосистемойметафоризацииязыка,указанныхсуществительных, полученными при изучении корпусных материалов. При выборесуществительных для анализа мы руководствовались списком, составленным вначале работы на основе сплошной выборки из словарей.124Необходимо еще раз отметить, что мы понимаем метафору широко, поэтомувключаем в исследование не только словоупотребления, имеющие формальныепризнаки метафоры, но также сравнительные конструкции, устойчивые сочетания.На основе анализа корпусного материала для русского и английского языковбыли составлены таблицы метафор трудовой деятельности, в которые вошлилексемы, отобранные в ходе работы со словарями, а также лексемы, обнаруженные вкорпусах.
В данных таблицах содержится информация о том, насколькометафорическоезначение,обнаруженноеприанализематериаловкорпуса,соответствует лексикографическим данным. Для каждой лексемы указан процентметафорических употреблений относительно общего числа вхождений даннойлексемы в корпус. Таблица №14.1, составленная для русского языка, содержит 213метафор, Таблица №14.2, включающая англоязычные единицы, – 165 метафор.Описанные таблицы приведены в Приложении 2.Когда мы сопоставили эти таблицы с теми, которые были составлены наоснове материалов лексикографии, то оказалось, что учет данных корпусов позволилдобавить 25 русских существительных трудовой деятельности к списку такихсуществительных, ранее выявленных на основе анализа словаря Т.