Диссертация (1098648), страница 23
Текст из файла (страница 23)
Упражнения, основанные на академическом списке, предлагаются автором Т. Коббом (TomCobb) на сайтеCompleteLexicalTutor (http://www.lextutor.ca). Так, обучающийся может ввеститекст своей письменной работы и увидеть, как распределяются или в какуюгруппу частотности академического списка слов попадают использованные имслова. Также можно упомянуть три корпуса, доступных онлайн: TheCorpusofContemporaryAmericanEnglish (COCA), корпус современно-го американского английского языка, 400 млн. словоупотреблений, пополняющийся на 2 млн. словоупотреблений в год; The Time Magazine Corpus, корпус материалов журнала Time, 100 млн.словоупотреблений; MICASE (Michigan Corpus of Academic Spoken English), специализиро-ванный Мичиганский корпус академического устного английского языка, 1,8 млн.
словоупотреблений (Reppen 2010).2.1.2. Разработка методически-ориентированногоэкспериментального регионоведческого корпуса (ЭРУК)Важной особенностью совокупности языковых данных, организованной вкорпус, является идея, в соответствии с которой собираются эти данные. Так, в118названии «Британский национальный корпус» слово «национальный» означаетв первую очередь «характеризующий британский национальный вариант английского языка», т.е. идея составления корпуса заключалась в максимальнополной репрезентации этого варианта языка (Плунгян 2005).Следует еще раз обратить внимание на то, что компиляция корпуса, вопервых, подчиняется определенной концепции.
Таким образом, при компиляциикорпуса нам следует ответить на вопрос: что будет отражать или репрезентировать наш корпус? Во-вторых, для того чтобы просто коллекция текстов сталакорпусом, необходим филологически компетентный корпусный менеджер, который ответит на вопрос, как будет происходить подсчет и автоматический вывод результатов. По этим двум причинам тексты и систему поиска данных, например, в Интернете нельзя признать профессионально-ориентированнымкорпусом.
Тексты Интернета ориентированы на интересы пользователей Интернета, а не на профессиональные интересы обучаемых. Система поиска и вывода данных тоже не создавалась для решения лингвистических и методическихзадач.Такимобразом,мыподошликопределениюметодически-ориентированного корпуса предметной области: это такой корпус, тексты которого должны адекватно отражать предметную область, а автоматический подсчет (лингвостатистика), поиск и вывод информации должны позволять решатьзадачи изучения профессионального дискурса в целях обучения иностранномуязыку.
Обратимся к принципам отбора текстов в методически-ориентированныйкорпус предметной области.2.1.3. Принципы отбора текстов в экспериментальный корпусПринципы отбора текстового материала в методически-ориентированныйкорпус, прежде всего, должны соотноситься с дидактическими и методическими принципами, поскольку основной целью составления данного корпуса является выявление и обучение профессиональной лексике. Часть текстов корпуса119также используется как лингвистический материал, подлежащий усвоению.
Всвязи с этим необходимо также учитывать, для развития каких видов речевойдеятельности и каких навыков, рецептивных или продуктивных, будут использоваться материалы корпуса. Во-вторых, необходимо также учитывать общиепринципы составления корпуса текстов. Любой корпус составляется в определенных целях — эти цели определяют его дизайн. Наш корпус составлялся сцелью выделения профессионально значимой лексики, что означает, что корпусдолжен адекватно репрезентировать профессиональный дискурс. Это подводитнас к первому принципу отбора текстов: принципу репрезентативности. Свойство репрезентативности присуще любому корпусу.
Более того, «именно этосвойство, по замыслу основоположников корпусной лингвистики, превращаетнабор текстов на машинном носителе в уникальное словесное единство —корпус текстов»(McEnery, Wilson 1999, цит. по: Рыков2002: с. 390). Идея проведения исследований на корпусе текстов зиждется на том, что корпус должен смаксимальной объективностью представить разнообразие изучаемого явления(Там же). Корпусные инструменты в результате сплошного анализа материалапомогают исследовать и отбирать наиболее репрезентативные в функциональном отношении употребления (Гвишиани 2008).Именно такой отбор позволиттрансформировать массу лингвистического материала, разрозненные фактывупорядоченные компоненты содержания обучения, сформулированные в минимумах.Существует несколько путей достижения репрезентативности, при этомвполне очевидно, что ни один корпус не может достигнуть абсолютной репрезентативности, поскольку абсолютная репрезентативность предусматривает исчерпывающую коллекцию всех текстов, отражающих параметры исследуемогоявления, и на практике является недостижимой.
В действительности собираетсяадекватная коллекция текстов, исходя из конкретных условий и доступностиэтих текстов. Для этого составителям корпуса необходимо учесть ряд конкурирующих факторов и найти ответ на ряд вопросов: каким образом отбирать об-120разцы текстов, сколько образцов включать в корпус, какой длины должны бытьтексты, насколько большим должен быть сам корпус, разбивать ли корпус нажанры / регистры, и если да, то какие жанры должны быть включены, должныли в корпусе быть представлены устный и письменный дискурс равномерно,насколько важны ошибки в выборке и др. (Biber et al. 1999). Как мы видим,часть из этих вопросов совпадает с теми вопросами, на которые отвечает преподаватель, подбирая учебные материалы.Авторы LGWSE (Ibid.) указывают, что в компиляции корпуса существуютдве полярные тенденции, в зависимости от того, насколько важны ошибки в выборке, какие ресурсы есть в распоряжении составителей в отношении времени,доступности текстового материала и затрат.
Одни корпусы репрезентируютмного жанров, их тексты тщательно редактируются, большое внимание придается рандомизации выбора в рамках жанра, длине абзацев. Составление такихкорпусов, обычно небольших, содержащих от 50 до 200 тыс. словоформ, является очень трудоемким процессом, в результате которого получается так называемый «чистый» корпус. Примером «чистого» корпуса может служить БНК —очень аккуратный по выборке, сбалансированный корпус. Вместе с тем БНКотносится к большим корпусам. Противоположная тенденция состоит в том, чтособираются очень большие корпусы текстов, более 100 млн. словоупотреблений, в которых нет системы в репрезентации жанров, тексты не редактируются(например, текст может попадаться дважды или из текста не извлечены какие-тоспецсимволы, таблицы, номера страниц и другая информация)и не рандомизируются специально, так как составители исходят из предположения о том, чточем больше выборка, тем меньше погрешность.
Таким образом, идея отбора такого корпуса текстов заключается в том, что если собирается достаточно многотекстов, то они репрезентируют данный жанр достаточно полно и достоверноза счет их количества. Тексты в корпус отбираются оппортунистически, изимеющихся в наличии: новости, книги крупных издательств и т.д. Этот способявляется эффективным и быстрым. В создании Лонгмановского корпуса (LSWE121Corpus) использовался усредненный подход. Этот 40-миллионный корпус былпризван репрезентировать письменную и устную английскую речь и служил аутентичным материалом для примеров в принципиально новой книге по грамматике устного и письменного английского языка (Biber et al. 1999).Данный корпус составлялся для того, чтобы систематически репрезентировать различные регистры.
Особое внимание уделялось четырем основным регистрам (жанрам): разговор (conversation), литературная проза (fiction), новости(news) и академическая проза (academic prose). Два дополнительных жанрапредставляют неспонтанную речь, т.е. более формальные по сравнению с бытовыми ситуациями источники, такие как: лекции, семинары, проповеди, дебаты,тексты новостных репортажей, включая освещение спортивных событий, публичные выступления и нелитературная проза (non-fiction) для неспециалистовпо различным темам (биографии, бизнес, экономика, искусство, история, цивилизация, лингвистика, социолингвистика, математика, мифология, философия,религия, политика, спорт, путешествия).