Диссертация (1098648), страница 21
Текст из файла (страница 21)
Следует подчеркнуть, чторабота с программным инструментом WordSmith, вообще говоря, специальныхзнаний по дисциплине «Математическая статистика» не требует.104В нашем случае ключевые слова вычисляются сравнением частотности(количеством вхождений) слова в исследуемом тексте (корпусе) с частотностьютого же слова в тестовом (опорном) корпусе. В исследуемом тексте (корпусе)обрабатываются все слова, за исключением тех слов, которые сам исследовательможет поместить в так называемый StopList, т.е.
исключить, исходя из каких-тосвоих соображений (например, исследователь может исключить имена собственные).Если одно из самых частотных слов, определенный артикль the, имеет частотность 5 % (иными словами, встречается каждым двадцатым) в исследуемомтексте (корпусе) и частотность 6 % в опорном корпусе, то он не будет считаться«ключевым», несмотря на то что он, скорее всего, будет самым частотным словом в обоих корпусах: в исследуемом и тестовом. Для подсчета величины«ключевого характера» (keyness) программа обрабатывает четыре значения: количество вхождений (частотность) искомого слова в исследуемом тексте (корпусе), количество вхождений (частотность) исследуемого слова в опорном корпусе, количество всех слов в исследуемом тексте (корпусе) и, наконец, количество всех слов в опорном корпусе.
Для подсчетов в программе предусмотренодве стандартных процедуры: логарифмическая функция правдоподобия (Dunning’s LogLikelihoodfunction (Dunning 1993; Oakes 1998: 172, оба цит. по:); классическая процедура «хи-квадрат» (chi-square) с поправкой Йетса.Рассмотрим очень коротко, для примера, первый метод.
Вероятность позволяет предсказать неизвестные результаты, которые основываются на известных параметрах. А вот оценить неизвестные параметры в случае, когда известны результаты, позволяет правдоподобие. Иными словами, правдоподобие —это обратная по отношению к вероятности функция, отвечающая на вопрос, насколько правдоподобен выбранный параметр при полученных результатах.
Длявычислений удобнее использовать не саму функцию правдоподобия, а ее логарифм. Чаще всего требуется найти максимум функции правдоподобия, для чего105требуется вычислять производную функции. Логарифм — функция монотонновозрастающая, поэтому логарифм от функции достигнет максимума в той жеточке, что и сама функция. С другой стороны, логарифм произведения являетсясуммой, что упрощает дифференцирование.
Для вычислений строится так называемая таблица частотности 2х2 (см. таблицу 1), где :«а» — частотность искомого слова в исследуемом корпусе;«c» — общее количество слов в исследуемом корпусе;«b» — частотность искомого слова в опорном корпусе;«d» — общее количество слов в опорном корпусе.Та б л и ц а 1Таблица частотности 2х2Исследуемый текст Опорный корпус(корпус)ВсегоЧастотность искомогословаaba+bКоличество слов всего,не считая искомогоc-ad−bc+d−a−bКоличество слов всегоcdc+dЗначения «a» и «b» — это наблюдаемая частотность (О). Необходимо подсчитать ожидаемую частотность (E).Делается это по следующей формуле:В нашем случае N1 = c, N2 = d,E1 = c∙(a + b) / (c + d), E2 = d∙(a + b) // (c + d)∙b и мера логарифмической функции правдоподобия будет считаться последующей формуле:106Или применительно к нашему случаю таблицы 2х2:G2=2((a∙ln(a / E1))++ (b∙ln(b / E2))), где ln — натуральный логарифм.Эта мера, по сути, есть количественное представление разницы между наблюдаемой частотностью искомого слова в исследуемом корпусе и ожидаемойчастотностью на основе частотности слова в опорном корпусе.
Чем больше значение меры G2, тем больше разница в частотности, или «ключевой характер»слова.Для определения статистической значимости параметра G2, или, другими, словами малой вероятности случайного возникновения, значение G2 соотносится с хи-квадрат распределением с одной степенью свободы. Значение статистической значимости (величина «р») говорит нам, как часто вычисленноенами G2 может получиться случайно. Например, значение параметра G2 6,63может получиться случайно в одном случае из ста.
Это означает, что статистическая значимость (р) значения G2 равна 0,01. Таким образом, КС не являютсяслучайностью, а основаны на апробированных, стандартных процедурах математической статистики.Выводы по главе IВ данной главе был проанализирован существующий опыт анализа и отбора лексики, рассмотрена эволюция исходных положений, принципов и критериев отбора, сформулирована необходимость привлечения корпусных технологийк отбору профессиональной лексики. Для этого на первом этапе исследованиянами был изучен опыт составления корпусов в отношении и адекватной репрезентации изучаемого типа дискурса, в частности дискурса предметной областиспециальности регионоведения. Также были рассмотрены лексические навыкии умения, изучены лингводидактические основы обучения с опорой на корпус и107лексического подхода, современные взгляды на обучение лексическим средствам общения.В связи с поставленными целями, для уточнения характера искомых ЛЕбыло проведено теоретическое исследование в области классификации ЛЕ врусле корпусной лингвистики.
Нами также была проделана определенная исследовательская работа по уточнению структуры лексических средств общенияобучаемых, определены количественные и качественные показатели словарногозапаса специалиста-регионоведа, исследованы методы научного отбора статистически значимых слов профессионального дискурса с помощью корпуса. Врамках корпусного похода возможно: выявление ключевых слов, создание на их базе профессиональнозначи-мого лексического минимума; формирование и совершенствование лексических навыков и уменийс помощью материалов корпуса; выявление самых частотных в профессиональном дискурсе колло-каций, вероятностная оценка коллигаций; методическое использование педагогически-ориентированных инстру-ментов корпуса по предъявлению ЛЕ в нужной сочетаемости и в самомвероятном грамматическом окружении.На основании проведенного анализа можно сделать следующие выводы:1.Разработанные на сегодня корпусные технологии имеют необходимый идостаточный ресурс для того, чтобы решение проблемы отбора лексикидля профессиональных целей было существенно оптимизировано и поставлено в соответствие с существующим научным аппаратом корпуснойлингвистики.
Можно с уверенностью заключить, что корпусные технологии обладают большим и еще нереализованным лингводидактическим потенциалом, который должен внедряться в учебный процесс, в особенности108при решении проблем профессионального обучения иностранному языку ввысшей школе.2.Кроме того, анализ корпусных исследований показывает, что статистические закономерности языковой системы и вокабуляра обучаемого выводятпроблемы отбора лексикализованных единиц для профессионального обучения на передний план. Это связано с тем, что, начиная с уровняв 5–6 тыс.общеупотребительных единиц, существенное приращение в пониманиипрофессиональных текстов на иностранном языке может быть достигнутолишь при тщательном отборе ЛЕ. Таким образом, инвестирование усилий встатистическую оценку больших массивов профессиональных текстов вцелях выделения самой необходимой лексики более чем оправдано на рубеже II–III курсов обучения в вузе, т.е. при переходе от общего английскогоязыка к профессионально-ориентированному.3.Признавая важную роль корпуса в отборе профессиональной лексики, мытакже пришли к заключению, что корпусный потенциал не исчерпываетсялишь квантитативными методами оценки лексики.
Обучение с опорой накорпус обладает дополнительными нераскрытыми методическими ресурсами, возможностями для расширения аудиторных приемов работы с опорой на педагогически-ориентированные корпусные инструменты. Следуетотметить, что богатый иллюстративный материал корпусов помогает инкапсулировать лингвистические сведения для предъявления и отработкиЛЕ в учебном процессе.4.В рамках обучения с опорой на корпус можно задействовать несколькосовременных методических подходов.
В частности, индуктивный подходимеет ряд существенных преимуществ с точки зрения смены ролей обучаемого, который перестает быть объектом обучения и становится субъектом учебного процесса, и преподавателя, который выступает в роли консультанта и куратора.5.Работа с самими корпусными данными, многочисленными «живыми»речевыми употреблениями позволяет формировать лексические навы-109ки правильного употребления трудно усваиваемой лексики в случаях значительного интерферирующего влияния родного языка.6.Особую роль совокупность языковых данных в корпусном формате играетввыявлениикомбинаторныхвозможностейпрофессионально-ориентированной лексики, т.е.