Формирование сервиса построения образа автора как когнитивная технология (1187434), страница 4
Текст из файла (страница 4)
Так, например, фраза имеющая структуру JJ NN(прилагательноес существительным) имеет в качестве альтернативы всякую фразу, имеющую20структуру типа JJ? NN - знак ? означает, что прилагательное может встречатьсяа может и не быть в структуре фразы.Все правила альтернатив, используемые для сравнения фраз в данной работе:● JJ NN = JJ? NN● VB NN = JJ NN? | VB NN● NN = JJ | NN | JJ NNДля повышения точности сравнения могут быть использованы механизмыобобщения: для выбранного слова могут быть получены 10 наиболееиспользуемых синонимов и для каждого из этих синонимов(при подставлении вфразу) также вычисляется подобие со второй фразой. В качестве значенияфункции подобия выбирается максимальное значение среди всех подобий.S core = M ax{ConceptN etSim{phraseP art termi , phrase}}3.3.1.3. Правила сравнения грамматических структур.1.
Сравнение форм вида глагол-существительное(VerbNounClause VNC).Для начала выбираются все части предложения, которые содержат связиглаголов к существительным. Для сравнения двух VNC используетсяследующая процедура:● Сначала определяем являются ли глаголы синонимами илипринадлежат схожим концептам(используя ConceptNet).● Если глаголы схожи в значении, то мы сравниваемсуществительные, с которыми эти глаголы связаны поаналогичному принципу.● Если какие-то из существительных схожи по значению, мы21сравниваем их прилагательные и наречия по тому же принципу.2.
Сравнение форм, состоящих из существительных(NounClauses - NC).Мы считаем ERR формой, состоящей из существительных, если онасодержит только существительные. В связи с этим рассмотрим 2 случая:● Если оба ERR состоят из существительных, мы сравниваем всесуществительные между собой. Подобие глаголов увеличиваетзначение функции подобия для этих ERR.● Если только входное ERR состоит из существительных, тогда всесуществительные входного ERR сравниваются с существительнымииз ERR из данных для обучения.3. Сравнение прилагательных и наречий.Мы сравниваем свободные прилагательные и наречия из ERR, т.к.
к этомушагу только несвязанные прилагательные и наречия осталисьнеучтенными в функции подобия. После того, как была вычисленафункция подобия между двумя ERR, необходимо решить является этоподобие семантическим или подобием по ключевым словам. Подобиесчитается семантическим, если выполнено одно из следующихутверждений:1. Эмоциональные VNC(глагол имеет эмоциональную окраску) оказалисьполностью подобны - т.е.
и глаголы, и его существительные, и ихприлагательные и наречия оказались подобны.2. Все существительные оказались подобны и оба ERR могутрассматриваться как формы состоящие только из существительных.3. Прилагательные и наречия подобны и оба ERR не имеют другихкомпонентов(нет VNC & NN).224. Все слова в обоих ERR подобны(то же самое предложение) или входноеERR является частью ERR из набора для обучения.Если одно из вышеуказанных условий было выполнено, то подобие считаетсясемантическим, иначе - подобием по ключевым словам.3.3.2.
Альтернативная вероятностная классификация.В качестве запасного метода классификации мы используем вероятностныеалгоритмы - APA(Alternative probabilistic algorithm). Если предложение былоотвергнуто kNN-классификатором, то предлагается следующий набор действий.Для каждого слова входного предложения, которое требуется классифицироватьвычисляется следующая величина - эмоциональная вероятность среди данныхдля обучения:P (E, w) = log(#Sentences with emotion E that contain the word w / # total sentencesthat contain w) , где E п ринимает значения каждой из эмоций по Экману, а w каждое из слов входного предложения.
Данная величина вычисляется дляпредложений из данных для обучения. После вычисления всех значений мыполучаем 6 * (количество слов во входном предложении(ERR)) эмоциональныхвероятностей, т.е. фактически для каждого слова входного предложения мыимеем распределение значений его эмоционального контекста. Теперьнеобходимо причислить такое предложение к одному из тэгов. Для этогопросуммируем вероятностные вклады для каждой эмоции для всех словпредложений и возьмем максимум по этим вкладам. Строго данноерассуждение может быть описано так:|ERR|E result (ERR) = maxE ( ∑ P (E, wn ) / |ERR|) , где E - множество эмоций поn=1Экману, |ERR| - количество слов во входном ERR.23Такой алгоритм также может отвергнуть ERR, если ни одно из слов ненаходится в датасете для обучения. Такую проблему можно решить, обращаяськ большему скоплению данных, нежели данные для обучения, например, кхранилищу Интернета.Для начала в любом поисковом движке(Google, например) вводятся слова,составляющие ERR предложения без указания каких-либо эмоций.Записывается число вхождений, возвращаемое движком.
Далее аналогичнаяпроцедура проводится для всех слов из ERR и каждой из эмоций по Экману итакже записывается число вхождений. Очевидно, что для комбинации ERR +эмоция число вхождений будет всегда меньше, чем просто для ERR.Результирующий тэг вычисляется по следующим формулам:P ′ (E, ERR) = log(#Query hits f or ERR + E / #Query hits f or ERR)E result (ERR) = maxE (P ′ (E, ERR))3.4. Классификация ERR.Для обучения классификатора использовались данные Aman 2007 [12, 13], вкоторых каждое предложение размечено одной из 6 эмоций классификацииЭкмана. Датасет состоит из эмоционально богатых предложений, собранных изразличных блогов и размеченных эмоциями по Экману. Этот набор данныхбыло решено выбрать, поскольку блоги предоставляют большое различиестилейнаписанияитем.Такимобразом,предложенияхорошодифференцированы по тематикам и используют множество разноплановыхфраз.Необходимо отметить, что для данного датасета потребовалась предварительнаяобработка с целью исправления опечаток и прочих недочетов данных.24Для данного эксперимента метод kNN-классификации использовался спараметром k = 1.Данные из датасета делятся на две равные части: первая часть - данные длянепосредственно обучения и вторая часть - данные для оценки качестваалгоритма.После обучения классификатора(т.е.
агрегации данных ERR для данных дляобучения) проводится проверка алгоритма. Т.е. для тех предложений, длякоторых известна их эмоциональная окраска, проводится классификацияалгоритмом и сравнивается реальная окраска предложения с результатомклассификации.ДляэтогобылаиспользованавтораячастьданныхAman-датасета.Для большей точности для обучения использовались предложения до 10 словдлиной, поскольку более длинные предложения могут содержать несколькоэмоциональных частей, которые более сложны для анализа и могут бытьпротиворечивыми.
Оценка качества алгоритма проводилась на предложениях от10 до 15 слов длиной. С учетом этих соображений данные для обучениясоставили 500 предложений длиной до 10 слов. Данные для оценк качествасоставили также 500 предложений длиной от 10 до 15 слов.ЭмоцияPrecisionRecallF-scoretrue positive /(true positive +false positive)true positive /(true positive +false negative)Радость0.890.920.91Грусть0.840.810.83Отвращение0.790.780.79Злость0.820.760.7925Удивление0.800.750.77Страх0.910.840.88Рис 9. Таблица результатов классфикации.По таблице видно, что результаты классификации получаются достаточнохорошими и данный классификатор может быть использован для реальныхданных.3.5.
Построение образа автора.После оценки качества алгоритма можно приступать к анализу реальныхданных. Для анализа личности необходим текст или совокупность текстовобъемом не менее 1400 слов, написанный человеком, личность которого хочетсяпроанализировать.Важнымусловиемхорошегорезультатаявляютсяэмоционально насыщенные тексты, в которых человек активно высказываетсвое мнение по разным темам.Личностный портрет человека в системе “Большой пятерки” формируетсяпутем отображения множества размеченных предложений из входных текстовво множество черт “Большой пятерки”.Необходимо также обратить внимание, что не каждое предложение средивходных данных обязательно будет размечено одной из эмоций Экмана. Частьпредложений могут быть отвергнуты классификаторов вообще или оказатьсябезэмоциональными.
Такие предложения составляют отдельную группу ипросто удаляются перед началом отображения. Большое количество удаленныхпредложений может быть как следствием недостаточно высокого качествавходных данных, так и следствием безэмоциональности индивида. Для26уточнения по какой из причин было удалено много предложений необходимодополнительное исследование, поэтому в рамках данной работы система простоих отбрасывает без выяснения корня проблемы. Если более половиныпредложений оказались удалены, то система показывает предупреждение о том,что вероятность неточности результата высока ввиду низкого качества входныхданных.Далее будет описан алгоритм отображения.Входными данными для алгоритма отображения являются размеченныепредложения из текстов, выбранных для анализа. Таким образом, для каждойэмоциипоЭкмануможноподсчитатьколичествопредложений,соответствующих ей.
Вспомним какие эмоции включает данная классификация:радость, грусть, удивление, отвращение, злость и страх. То есть этиэмоции(для каждой из которых может быть подсчитано процентное содержаниесреди всех) необходимо отобразить на другое множество - множествохарактеристик “Большой пятерки”. Напомним также какие это характеристики:экстраверсия,нейротизм,доброжелательность(способностьсогласию),добросовестность(сознательность)иприйтикоткрытостьопыту(интеллект).В качестве результата отображения для каждой из характеристик “Большойпятерки” будет указано процентное содержание данной характеристики вличностном портрете исследуемого человека - т.е. число от 0 до 100.Для получения корректного отображения из одного пространства признаков вдругое, необходимо использовать таблицу эмоций, определяющих каждую изчерт “Большой пятерки”.
Для нахождения синонимичных эмоций используетсядерево эмоций WordNet-Affect. Также для уточнения отображения будет27использован график корреляции между чертами “Большой пятерки” иэмоциями,полученныйврамкахработы[18]Рис 10. Таблица связей “Большой пятерки”28Рис 11. Корреляция черт “Большой пятерки” и эмоций.Первой характеристикой является экстраверсия. Интроверсия - экстраверсия распространенный в психологии критерий категоризации или показательизмерения черт личности.