Калиткин, Карпенко, Михайлов, Тишкин, Черненков - Математические модели природы и общества - 2005 (947500), страница 68
Текст из файла (страница 68)
Действительно. весьма правдоподным представляется допущение о толю, что поведение «качества» документа г)ч как функции двух аргументов — объема гХч и степени релсвантностн до проблеме Р, имеет следующую особенность; при фиксированном значении 1'ВХч) с увеличением степени релевантности д проблеме Р якачество» документа возрастает; напротив, при Ве1(г)о) = соцвс с ростом объема документа гуч его «качествоь снижается. Поэтому, если упорядочить документы ЛХ„ по степени релевантности проблеме, разбив их на группы. соответствующие последовательным значениям степени релевантности— 1, 2, 3, ...
и затем в каждой из полученных групп упорядочить документы по объему, то, фиксируя группу с достаточно большим значением степени релевантности и извлекая из нее документы в порядке увеличения их объема, начиная с минимального, можно ожидать появления в первую очередь «достаточно качественныхь документов. Нетрудно заметить, что без развитых средств лингвистического анализа текстов, полнота поиска документов ЛХ„, относящихся к рубрике г, недостижима.
То, что данное обстоятельство приводит к определенным ограничениям возможности выбора документов ЛХ„з из множества ЛХ, на самом деле не столь существенно. Важно лишь, чтобы и при таких ограничениях в документах ЛХ,г были затронуты все наиболее значимые, актуальные аспекты проблемы Р, получившие свое освещение в заданном массиве сообщений СМИ вЂ” ЛХ,.
Однако, согласно принятому здесь подходу это задача аналитика, которую необходимо иметь в виду при каждой из выполняемых им процедур: и при выявлении, накоплении новых элементов знания о проблеме Р, и при синтезе полученного знания в единую систему, и, наконец, при редукции системы знаний о проблеме к когнитивным структурам Кз и Кз, представляющим эту систему в формализованной модели. В последнем случае в качестве методической основы формирования Кз, Кз целесообразно исходить из положений, развитых в работах лингвистов и изложенных, например, в 12], 13). 328 Рл. Рй Моделирование взаилюсвлзей проблем при обработке текстов Согласно этим положениям, основными смыслообразующими компонентами системы знаний о проблеме являются аргументно-предикатные структуры, представляющие в естественном языке ситуации, связанные с событиями, процессами, действиями, характеризующими эту проблему.
Центральное место в таких структурах занимает предикатор (глагол, отглагольное существительное и т.д.), представляющий само действие. Сюда же входят имена или именные группы (на аргументных местах прсдикатора), называющие участников ситуации, выполняющих в ней определенные роли: например, действующего лица, объекта, на который направлено действие, инструмента, которым данное действие совершается и т.д. При этом количество и характер ролей всецело определяется семантикой предикатора. Таким образом, если при решении поставленной задачи ориентироваться на поиск документов по описаниям ситуаций, в состав Кз следует включать пары, образованные именами основных участников ситуаций и соответствующими предикаторами: чем более точно будут подобраны указанные элементы пар для включения в когнитивную структуру проблемы, тем применение инструментария окажется более эффективным.
1.2. Выявление значимых рубрик. Пусть в течение некоторого месяца поступает Х статей, каждая из которых относится к одной или нескольким рубрикам. Некоторой й-й рубрике (й = 1, 2,...,а) ставится в соответствие число статей Аь попавших в эту рубрику. Г!ри этом в Лгь = Л', > Х. (1) ь.—..! При ежемесячном рубрицировании поступающих статей для У-й рубрики определяется относительная частота оь(!) ггь (!) = —,, .~'ь У,. ' (2) где 1 — число наблюдаемых временных тактов, (1 = 1, 2, ..., р). Совокупность наблюдений аь(!) (далее обозначенных а,) образует временной ряд: % —" у~+ег (3) где у, детерминированная неслучайная компонента динамического ряда, е~ — стохастичсская случайная компонента. Поскольку построение прогнозного значения относительной частоты производится только для ответа на вопрос о возможном изменении тенденции в первом месяце после наблюдаемого периода (прогноз на один шаг вперед по времени) случайной компонентой пренебрегаем, а в качестве аппроксимирующей функции выбираем линейную: у~ =а„+а, .1, где ао, а| — параметры, определяемые методом наименьших квадратов, ! —.
время (! = 1,2, ...,р), р — число временных тактов. Э Е Проблемы и их предсшиелеиие е моделях поиски Качество модели прогнозирования (3) определяется на основе свойств ряда остатков: (5)  — р , 1 = 1, 2...., р, т.е. величины расхождений на участке аппроксимации между фактическим уровнями ш и их расчетными значениями р о Соответствие ряда остатков нормальному закону распределения важно с точки зрения правомерности построения интервала прогноза. Основными свойствами ряда остатков является их симметричность относительно тренда и преобладание малых по абсолютной величине ошибок над большими. В этой связи определяется близость к соответствуюшим параметрам нормального закона распределения коэффициентов асимметрии — Ле и эксцесса Эь наблюдений около модели, т.
е. (6) Ле<1,5 В, Эь < 1,5 Ье, (10) (1! ) то считается, что закон распределения ряда остатков не противоречит нормальному закону. В случае когда Ля ) 2 . В или Эь ) 2 . 5, распределение ряда не соответствует нормальному закону, и построение доверительных интервалов прогноза неправомочно.
В случае попадания Л, и Эь в зону неопределенности (между полутора и двумя среднеквадратическими отклонениями) может быть использован ЙВ-критерий. (Е „,— Е „,) (12) Я Если эти коэффициенты близки к нул|о или равны нулю, то ряд остатков распределен в соответствии с нормальным законом. Для оценки степени их близости к нулю вычисляют средние квадратические отклонения: (8) (р-ь 1) (р+ з) ' 24р (р — 2) (р — 3) (9) (р + !, '(р -ь 3)(р + 5) Если выполняются соотношения; ЗЗО 1л. Л.
Моделировияие взиилюсвлзей проблем при обриботке текстов ! ОО "" по т 1~ ' сга'О ! п! = и! ~1и сга'!. (13) (11) Здесь серединами интервалов являются точечные оценки а„' и а',. рассчитанные с помощью метода наименьших квадратов. Величина 1,— теоретическое значение критерия Стьюдента при уровне значимости, равном 5%, и числе степеней свободы и = р — 2.
Стандартные ошибки коэффициентов регрессии вычисляются по следующим формулам а аао = (15) (16) Несмещенная оценка дисперсии а- случайной составляющей з Р в' = 2 (Р,— )г„), г=! (17) где р, — фактические значения динамического ряда, р„— тсорс- тИЧЕСКИЕ ЗНаЧЕНИЯ, РаССЧИтаННЫЕ ПО УРаВНЕНИЮ РЕГРЕССИИ, 1„1ар— фактические значения и среднее значение фактора времени.
Верхняя и нижняя границы доверительного интервала в точке прогноза на один такт вперед будут равны ! р„—. ив+ а, 1 1р(с, О+ а, ! 1рв!), Уа ело + !л! 1Р (аа'О + аа'! 1Р ' !) . (18) Непопадание фактического значения относительной частоты в довери- тельный интервал (д„ уа) служит индикатором нарушения тенденции либо проявлением сезонности. В этом случае рубрику можно отнести к группе значимых рубрик.
где Еи,„— максимальный уровень ряда остатков, Еаш, — минимальный уровень ряда остатков, Я вЂ” среднее квадратическое отклонение остатков. Если значение этого критерия попадает между табулированными границами с заданным уровнем значимости, то гипотеза о нормальном распределении ряда остатков принимается. Подчинение ряда остатков нормальному закону позволяет построить доверительный интервал пропюзируемого значения относительной частоты, т.е. определить допустимые отклонения прогноза от основной тенденции. Для решения этой задачи построим интервальные оценки параметров регрессии ОО и а! (2) в формах: Э 2 естиноеление связей межсЛу знслнимыми рубрикими Если подчинение ряда остатков нормальному закону не подтверждается, также возможно использование границ интервала прогноза в форме (18), хотя в этом случае на результаты анализа не распространяется свойство надежности.