Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 23
Текст из файла (страница 23)
[158; 162]). Мыв своем исследовании языка и речи идем от реализации, от имеющегося в нашемраспоряжении материала.Рассматриваем все связанные сочетания двух и более лексических единиц,которые выделяются нами из текста на основании статистических критериев и/илиэкспериментов с информантами. Выделяемые единицы представляют собойнеоднородное множество, требующее интерпретации (см. главу 2). Возвращаемся ктеме «единица и контекст» уже на витке, приближающемся к конкретным текстам(своего рода связка между главой 2 и 4):минимальный контекст, в котором реализуются лексические и морфологосинтаксические явления;текстовый контекст, включающий в себя фрагменты текста вплоть до текстацеликом;контекст, предполагающий учет текстов определенного типа (заданногофункционального стиля, отобранной коллекции текстов и т.д.)72Неоднословнные связанные сегменты выступают, прежде всего, какструктурные составляющие текста или однородных коллекций (например, сюжетов).Анализ этих структурных составляющих позволяет исследовать структуру текстаи/или текстов.
Единицы и контекст(-ы) анализируются во взаимодействии: контекст икоммуникативная задача определяют выбор единиц анализа. Тематически однороднаяколлекция (сюжет) изучается методами, пришедшими из лингвистики текста(дискурса).Нами оценивались следующие данные:o полученные в ходе вычислительных экспериментов:o список наиболее связанных n-грамм по коллекции;o список наиболее связанных n-грамм по подколлекции (подколлекцияявляется тематически более однородной, чем исходная коллекция);o отдельные тексты, представленные в виде последовательности связанныхсочетаний («сегментов» в терминологии автора программы).o полученные в ходе эксперимента с информантами отдельные тексты,представленные в виде последовательности связанных сочетаний.Подтвердились следующие гипотезы:o с увеличением степени однородности (коллекция→ однороднаяколлекция→текст) характерными становятся более длинные n-граммы;o с увеличением степени однородности (коллекция→ однороднаяколлекция→текст) увеличивается число конструкций (в соотношенииконструкция vs.
типовая коллокация), увеличивается число предикативныхсочетаний;o набор связанных сочетаний, подсчитанных для каждого текста отдельно входе вычислительного эксперимента, сходен с набором сочетаний,полученных в ходе экспериментов с информантами,o набор связанных сочетаний, выделенный в ходе экспериментов синформантами, содержит несколько больше предикативных сочетаний, чемнабор связанных сочетаний, сформированный в ходе вычислительногоэксперимента.Такое исследование предполагает сочетание вычислительного эксперимента иэксперимента с информантами. В ходе вычислительного эксперимента мерысовместной встречаемости определяется на основании видоизмененной меры Дайса(Dice) [19]: 2 * f ( x, y ) Dice' ( x, y ) = log 2 f ( x) + f ( y) ,где f(x) и f(y) – частота встречаемости слов x и y в коллекции, а f(x,y) – частотасовместной встречаемости слов x и y.Процесс вычислительного эксперимента можно коротко описать следующималгоритмом.
Сначала для всех пар слов по всей коллекции считается коэффициентДайса. Затем для каждого конкретного текста, представляющего собой цепочку словили, вернее, цепочку пересекающихся пар (слово х с предшествующим словом ислово х с последующим словом), осуществляется «сборка» связанных сегментов. Припоследовательном прохождении от слова к слову в каждом тексте уже известнысоответствующие значения меры Дайса для всех пересекающихся пар.
На основаниизначений этой статистической меры слова объединяются в связанные группы сучетом ближайшего контекста (принимается решение о том, надо ли присоединить73текущее слово к предыдущему). Слово не присоединяется к предыдущему, еслизначение коэффициента Дайса для данной пары ниже порогового, или если оно ниже,чем среднее арифметическое того же коэффициента для левой и правой пары. Во всехостальных случаях слово присоединяется.
Связанный сегмент может включать неболее семи слов (мы ни разу не приблизились к этому порогу). В результате такоговычислительного эксперимента мы получаем набор связанных сочетаний,подсчитанных для каждого текста отдельно, а затем объединенный в некое подобиечастотного словаря связанных сочетаний. Программа, реализующая этот алгоритм,доступна для скачивания с сайта ее создателя: http://donelaitis.vdu.lt/~vidas/tools.htm.Используемая мера выделяет связанные сегменты (как коллокации, так иконструкции), характеризующиеся информационной ценностью на материалеоднородной коллекции текстов (ср.
[20; 21]). Свое предположение мы провериличерез сопоставление с результатами, полученными с помощью стандартныхстатистических мер MI и t-score, с ключевыми словами, выделяемыми на основаниикоэффициента важности tf-idf (этот коэффициент позволяет оценить степеньважности слова по отношению к той или иной коллекции (подколлекции)) и рядомдополнительных методик. Выдвинутое предположение об информационнойзначимости связанных сегментов, выделяемых с помощью меры Дайса на материалетематически однородной коллекций текстов, подтверждается в ходе предыдущихисследований с использованием меры MI (напр., [159; 161]). При рассмотренииуказанных сегментов в рамках единичных текстов (по результатам вычислительногоэксперимента и эксперимента с информантами) будем называть их значимымиструктурными составляющими текста (значимыми для анализа текстов).Материалом послужили тексты и/или коллекции:o тексты портала Лента.ру за 2010 год - 40000 текстов общим объемом около 9,5млн.
токенов (т.е. словоупотреблений и знаков препинания);o два сюжета (или кластера), т.е. две небольших коллекции тематическиоднородных текстов, полученных с помощью ресурса «Галактика Зум»61:приезд А. Шварцнеггера в Москву - 360 текстов, около110 тыс.токенов,назначение С. Собянина - 660 текстов, 170 тыс. токенов,все тексты кластеров берутся из новостного потока, они близки повремени появления и посвящены одному событию;o три текста о А. Шварцнеггере (из Лента.ру, РИАН, Газета.ру) и два текста оСобянине (Лента.ру, РИАН) для экспериментов с информантами.Конечно, эти тексты (наряду со прочими текстами кластеров) использовалисьи в вычислительных экспериментах, т.ч.
задача состояла в сопоставлениирезультатов этих двух экспериментов для каждого рассматриваемого текста.Крайне важен этап выбора конкретных новостных сюжетов (кластеров), а далеесреди них – наиболее представительных текстов. Конечно, все мы знаем, чторезультаты кластеризации текстов не всегда нас полностью удовлетворяют. Дляисследования выбирается «чистый и компактный» кластер сравнительно большогообъема, состоящий из максимально тематически однородных текстов. Отбиралиськластеры с информационно значимым сюжетом (по субъективной оценке), имеющиечетко выстроенный сюжет (основное действующее лицо (или лица), основное61 Этот материал любезно предоставлен нам Александром Антоновым и Станиславом Баглеем, ГалактикаZoom: galaktika-zoom.ru, http://www.webground.su74действие, сопровождающие действующие лица и/или организации, сопровождающиедействия, время, место и т.д.).
О других характеристиках скажем чуть ниже.В эксперименте с информантами – эксперименте по шкалированию – принялоучастие около 20 студентов СПбГУ и РГПУ им. А.И.Герцена, получающихгуманитарное образование62. Эксперимент с информантами представлял собой оценкусвязности между текстоформами (пробельными словами) в тексте в шкале от 0 до 5,где 5 – соответствовало максимальной, а 0 – минимальной степени связности.
Ванкете информанту предлагался текст с «пробелами для заполнения» и инструкция,требующая оценить «степень связности между словами или словом и знакомпрепинания в шкале от 0 до 5 баллов. «0» соответствует минимальной силесвязности, а «5» – максимальной силе связности. Проставьте эти баллы (от 0 до 5)во ВСЕ позиции, между ВСЕМИ словами и/или словами и знаками препинания».Информантам отдельно не объяснялся принцип оценки связности, они должны былидействовать, опираясь на интуитивные представления о связности и, конечно, на своютекстовую базу знаний. Экспериментатор не навязывает информанту предпочтение,например, синтаксического или лексико-семантического подхода, однако полученныеданные позволяют судить о том, что информанты в целом справляются споставленной задачей.
Усредненные данные по группе информантов, представилинепротиворечивую оценку степени связности между словами. На основании этихданных можно выстраивать сколь угодно длинные цепочки слов в соответствии сустанавливаемым пороговым значением связности. Эмпирически мы подобралипороговое значение, равное 3,7 баллам.
Если полученное число было больше, чем 3,7,пару слов рассматривали как связную, если меньше – как не связную.Носитель языка имеет интуитивные представления о неслучайновстречающихся сочетаниях слов: текстовые базы по текстам разных функциональныхстилей, по текстам разных тематик или по текстам, посвященным определенной теме.На основании этого знания адресат воспринимает каждый конкретный текст какнепротиворечащий некоторой текстовой базе адресата (в качестве ее аналога привычислительном эксперименте выступают коллекции и подколлекции текстов разнойстепени однородности). Тематически однородные кластеры представляли достаточнообсуждаемые события, поэтому нельзя было предположить, что информанты незнакомы с этими темами.
Эксперимент проводился примерно через месяц послеописываемых событий, так что эти темы не могли быть забыты.Наибольший интерес представляет анализ данных, полученных на материалекластеров для словоформ. При интерпретации данных по рассматриваемым сюжетаммы опирались на данные, полученные на материале двух сюжетов и пяти указанныхтекстов, однако для иллюстрации возможностей предлагаемого метода приведемрезультаты только двух текстов: одного текста о А. Шварценергере и одного текста оС.