Диссертация (1098648), страница 19
Текст из файла (страница 19)
Каждый из этих показателей устойчивости или силы коллокации имеет свои особенности.Так, Д. Байбер, С. Конрад и Р. Реппен отмечают, что самый простой путьопределения коллокационной пары опирается на относительную частотность,которая дает самые распространенные коллокационные ассоциации (Biber, Conrad, Reppen 1998). Однако следует учитывать, что самыми частотными коллокациями искомого слова будут слова с высокой частотностью вообще, которые всилу своей высокой частотности, скорее всего, часто сочетаются и с другимисловами тоже, таким образом, не являясь особенностью именно данного искомого слова, а простой случайностью. Поэтому одним из вариантов сортировкиможет быть показатель взаимной информации (MI).
Этот показатель отражает95так называемое притяжение между двумя словами, или вероятность того, чтоесли одно слово появляется в строке, слово, составляющее с ним коллокацию,появится в ближайшей окрестности искомого слова.БАЯ и БНК располагают функцией подсчета показателя взаимной информации (MI), который может быть как положительным, так и отрицательным.Чем выше показатель, тем выше устойчивость коллокации. Показатель взаимной информации рассчитывается в корпусе автоматически и указывает на возможную сочетаемость. Так, «solveproblem» имеет высокий MI,а «solvethe» –низкий, несмотря на то, что артикль «the» встречается в окрестности глагола«solve» значительно чаще в силу высокой абсолютной частотности определенного артикля.
Этот метод, однако, тоже имеет свой недостаток, посколькуотдает приоритет необычным словам, что приводит к тому, что необычные комбинации получают высокий показатель, притом, что такие комбинации могутбыть специфичны только для данного корпуса (Hunston, Laviosa2000).Еще одной функцией выявления коллокаций является t-показатель, который измеряет вероятность появления слова как парного в сочетании с какимлибо другим словом. В отличие от показателя взаимной информации (MI),tпоказатель измеряет притяжение сочетающегося с изучаемым слова, но не наоборот. Таким образом, список таких слов будет содержать большое количествограмматических слов, которые важны для существования изучаемого слова.
Сдругой стороны, изучаемое слово никак не влияет на существование грамматических слов. Ни один из вышеперечисленных способов и показателей нельзявыделить как самый лучший в определении коллокаций. Таким образом, самымрациональным подходом является комбинация способов, которая позволит оценить все перспективы в выявлении и оценке значительности коллокации(Barnbrook1996).Следует отметить, что сила коллокации — величина не дискретная, а непрерывная. Для выявления сочетаемости ключевых слов мы либо пользовалисьматериалами ЭРУК, либо обращались к материалам больших корпусов, с учетом их разбивки на жанры.
Эти данные затем использовались для составления96упражнений или для организации самостоятельной работы обучаемых с опоройна корпус. Механизм поиска коллокаций, ЛГК изложен в п. 2.3.2.1.3.3. Понятие ключевых слов и их функцииКак отмечалось ранее, одной из целей составления небольших методически-ориентированных корпусов является изучение особенностей того типа дискурса, или той предметной области, которую репрезентирует данный корпус. Вкорпусной лингвистике разработан целый набор инструментов для проведениятакого рода исследований.
Одним из них является выделение КС.Если обратиться к истокам термина «ключевые слова», то можно проследить его употребление, во-первых, в процедурах извлечения информации(Information Retrieval) при управлении базами данных текстов.Термин также использовался Р. Вильямсом (Williams 1983) для обозначения слов, важных с точки зрения определенной культуры.
В опытах Дж. АндораКС выделялись на основании интуитивных ощущений испытуемых о том, какиеслова или словосочетания доминируют по встречаемости в тексте. Далее испытуемым предлагалось подумать над своими ассоциациями, связанными с этимисловами, запустив «социо-культурно обусловленные схемы знаний»или «фреймы» читателей. Дж.Андор (Andor 1989) пришел к выводу, что ассоциации, вызванные исследуемыми словами, в определенной степени соответствуют тональности текста и подготавливают читателя к восприятию связности текста.Таким образом, выстраивается связь между КС и другими словами, не обязательно упомянутыми в тексте: это связь между текстом и мышлением, текстоми культурой (Scott,Tribble 2006).Термин «ключевые слова» стал использоваться потому, что во многих языках метафора «ключ» или «ключевой» естественна, интуитивно осознается икажется очевидной. Однако внешняя простота маскирует сложность термина.Термин означает, что слова обладают свойством «быть ключевым» не в языке97вообще, а лишь в определенном тексте.
Эти слова важны и отражают главнуюидею текста(Ibid.: с. 56).Лингвистика текста уже обращалась к подобным вопросам ранее. Например, Т.А. Ван Дейк и В. Кинч анализировали содержание текста, рассматриваяиерархию пропозиций как определяющих его структуру. Метод авторов состоялв разбиении текста на составляющие его пропозиции и выделении из их числамакропропозиций — пропозиций, связанных с наибольшим количеством другихпропозиций в тексте. При этом способ выражения пропозиций не имел значения, поскольку они оценивались авторами на концептуальном уровне. Фактически иерархию выделенности пропозиций и можно считать иерархией свойствабыть ключевым (Scott, Tribble 2006).
Таким образом, пропозиции с наибольшимколичеством связей по тексту отражали, более чем другие, суть текста(Kintsch,van Dijk 1978 / Ван Дейк, Кинч 1988).M. Хоуи также выделяет главное в тексте на основе связей, оперируя непропозициями, а предложениями (Patterns of Text… 2001). Автор искал в текстеэлементы, которые бы имели наибольшее количество связей с другими элементами текста. Хоуи определял связь как какое-либо повторение, не обязательнопословное, но обладающее концептуальной основой. К повторениям причислялись синонимы, грамматические варианты, гипонимы, меронимы, антонимыслова. Однако, по замыслу автора, одних лишь повторений было недостаточно.Действительно важные предложения связаны с другими или отсылают к другимпредложениями текста минимум три раза.
Если затем извлечь из текста лишьвыделенные предложения, то из них можно составить адекватную аннотациютекста (summary) (Hoey 2005). В обоих исследованиях концептуальные повторения означают важность и помогают определить главную мысль текста (Scott,Tribble 2006: с. 56).В нашем исследовании мы говорим о КС в определении М. Скотта (Scott2012).Это — статистическое, базирующееся на корпусах текстов, выявлениесамых важных слов в тексте, слов, которые отражают смысл и суть текста. Сточки зрения реализации, определение ключевых слов в тексте является по сути98методом сравнения частотности слов в двух коллекциях текстов: большой(справочной)и малой (изучаемой).В результате сравнения выделяются ключевые слова, которые являются словами с необычной частотностью: либо неожиданно частотные, либо неожиданно редкие.
Процедура определения осуществляется программным продуктом WordSmith (WS).Иллюстрируя важность ключевых слов, О’Киффи, Маккарти и Картер(O’Keeffeet al. 2007) отмечают, что в обычном большом корпусе, таком как, например, LIBEL Corpus, определенный артикль является одним из самых частотных слов, что является вполне ожидаемым результатом. Если составить списокслов по одной лекции по экономике из этого же корпуса, то мы опять увидимопределенный артикль в числе самых частотных. Однако если мы сравним список слов по лекции и список слов большого корпуса с использованием функции«keyword», одного из упомянутых программных продуктов, мы получим те слова, которые являются неожиданно частотными в изучаемом тексте.
К этим словам применяется термин «keyness» — свойство быть ключевым, — т.е. такиеслова рассматриваются как специфические для данного текста, контекста.Авторы также приводят список КС, полученный в результате сравнениялекции по экономике и общего корпуса академического английского языка. Вчисло необычно частотных попали такие слова как: tax, income, system, average,basic, rate, supply, poor, thousand, impact, equity, under, both, figures, higher, percent, rates, ordinary, sixty, marginal, scheme, labour, terms, cost, characterized,workers, systems, negative. Часть слов принадлежит к терминологическому слоюлексики в области экономики.
В целом список адекватно отражает спецификуизучаемого текста, а процедура позволяет определить ключевой вокабуляр наотдельно взятом тексте или на корпусе специализированных текстов.Метод определения КС М. Скотта тоже основывается на подсчете повторений. Принцип заключается в том, что словоформа, повторяющаяся снова и снова в тексте, с большой вероятностью может оказаться важным словом в нем.Вкулинарном рецепте пирога вполне могут встретиться такие слова как «мука»,«сахар», «яйца», «пирог». Т.е. здесь мы говорим о простом, пословном количе-99стве повторений, которое соотносится с вероятностным ожиданием.