Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 59

Файл №1185448 Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf) 59 страницаАвт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448) страница 592020-08-252020-08-25СтудИзба

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 59)

12. Исходныйпорядок нейронов на картеX( Z 7Ž± Ž Q~ S ,где len – это число узлов на каждой стороне сетки, С –константа, g 1000⁄lnX7Ž±Z.Пороговому значению ошибки E присвоим значение0,0000001.Запустим алгоритм SOM.В результате было выполнено 1384 итерации, итоговые координаты документовв двумерном пространстве карты следующие: d1 (0;0), d2 (5;9), d3 (5;0), d4 (9;1), d5(9;5), d6 (0;5). Левый верхний узел карты – координаты (0;0). Сама карта, построеннаяс помощью вычисления матрицы расстояний между нейронами, представлена на рис.13.Рис.

13. Самоорганизующаяся карта для примера из шести документовПо цвету ячеек на карте видим, что образовалось три кластера:1 = {d1,d6}; 2 = {d3,d4,d5}; 3 = {d2}.Вычислительная сложность. Алгоритм имеет квадратичную сложность почислу документов – œX|'| |"|V Z.§ 2.7.Экспериментальная оценка результата классификации безучителяРазбиение документов на кластеры оценивают путём вычисления мер качества,которые бывают двух видов:а) внешние меры, сравнивают созданное системой разбиение документов с«эталонным» разбиением;б) внутренние меры, автоматически анализируют внутренние свойства, присущиеконкретному массиву документов.208Внешние меры.

Ключевым понятием в сравнении «эталонного» иавтоматически полученного разбиения является анализ сходства предсказанийэкспертов и предсказаний системы относительно принадлежности каждой парыдокументов одному или разным кластерам. Для каждой пары документов , , где, ∈ , на основе знания о двух разбиениях * и , ( * получено от экспертов, –алгоритмом кластеризации) необходимо составить таблицу следующего вида:,,,принадлежат одномукластеру в *принадлежат одномукластеру впринадлежат разнымкластерам в,принадлежатразным кластерам в *acbdДальнейший анализ полученной таблицы аналогичен описанному в § 1.9:вычисляют меры качества, заданные формулами (35)-(40), применяют микро-, макроусреднение.Внутренние меры. Внутренние меры предназначены как для сравненияразбиения на кластеры разными алгоритмами, так и одним и тем же алгоритмом, но сразными значениями входных параметров.

Примером второго случая являетсяпопытка автоматически установить, какое количество кластеров приведёт коптимальному в определённом смысле разбиению. Внутренние меры строятся наоснове предположения, что оптимальное разбиение обладает свойствамикомпактности и отделимости. Компактность означает, что члены одного кластерадолжны быть настолько близкими друг другу, насколько это возможно. Отделимость– что сами кластеры должны достаточно далеко отстоять друг от друга.Приведём примеры трёх внутренних мер: для чёткого плоского, нечёткогоплоского и иерархического разбиения.

Подробнее об этих и других мерах можноузнать, например, из работы [8].Внутренняя мера чёткого плоского разбиения. Индекс Дана DI:(55)min δ (ci , c j )DI (C ) =где+ , .,|l1 | Bl2 Bкластерами;ΔX # Z2{}i≠ jmax ∆(cl )1≤l ≤ N c,C = c1 ,..., c NC – множество кластеров; õ_∑:k∈l1 ,:é∈l2∑„ ∈ : ÷j+:$2 ,l$$ .$³ 2 |l |´$?(+ $) , $r . –мера|ž|;расстояниямежду– мера диаметра кластера.rci – вектор центроида кластера ci.Оптимальному разбиению данных соответствует максимальное значениеиндекса Данна.Внутренняя мера нечёткого разбиения. Модифицированный коэффициентразбиения MPC:| |(56)a`g X| |Z 1 C .209a`g X| |Z1C`g X| |Z| |+1 C `g X| |Z.,| |C11| |(57)| | | |A A üV ,E, E,где 0 = a`g X| |Z = 1,,PC(| |) – коэффициент разбиения, | | = `g X| |Z = 1;ü – элемент матрицы нечёткого разбиения.Оптимальному разбиению данных соответствует максимальное значениемодифицированного коэффициента разбиения.Внутренняя мера иерархического разбиения. Кофенетический коэффициенткорреляции (CPCC), для вычисления которого необходимо сформироватькофенетическую матрицу SC.

Каждым элементом данной матрицы является номеруровня в иерархии кластеров, на котором документы di и dj впервые встретились водном кластере. Мера CPCC оценивает степень сходства кофенетической матрицы SCи действительной матрицы близости документов коллекции S.N −1 | N(58)(1 M ) ∑ ∑ (sij scij − µ S µ S )DCPCC (C ) =гдеDCi =1 j =i +1N D −1 N D (1 M ) ∑ ∑ sij2 − µ Si =1 j =i +1(-1 ≤ CPCC ≤ 1; M =N D −1 N D) (1 M ) ∑ ∑ (sci =1 j =i +12ijN D ( N D − 1); õ%2− µ SC ,)|"|;sij и scij – (i, j)-ые значения матриц S и SC соответственно;1µS =MNDND∑ ∑si =1 j = i +1ij, µ SC1=MNDND∑ ∑ sci =1 j =i +1ij– здесь средние значения матриц S и SCсоответственно.Чем ближе к нулю значение CPCC, тем ниже сходство между матрицами.§ 2.8.Выбор метода классификации без учителяОбзор экспериментальных исследований.

В области классификации безучителя сложилась не такая благоприятная среда для сравнительного анализаэкспериментов, как в области классификации с учителем. В первую очередь этосвязано с высокой трудоёмкостью формирования тестовых данных. В соответствии сопределением внешних критериев необходимо, чтобы эксперт заранее оценил( ( ( | | Z*X| | – 1 Z Z/2 Z пар документов, что является непосильной задачей дляреальных коллекций документов, содержащих десятки тысяч документов и более.Неизвестны готовые наборы данных для экспериментов, и большинство коллективовпроводят эксперименты на собственных данных и применяют собственные методикидля оценки, что затрудняет сравнительный анализ разных алгоритмов по результатамиз различных публикаций.Таким образом, главным основанием для выбора алгоритма кластеризацииявляется знание о его теоретических характеристиках и оценка пригодности длярешения частной задачи разбиения текстов.210Подход к поиску разбиения.

Алгоритмы, применяющие теоретико-графовыйподход, к ним относятся рассмотренные иерархические агломеративные алгоритмы,имеют как минимум квадратичную сложность вычислений, что делает ихмалопригодными для приложений, где на первом месте стоит производительностьсистемы. С другой стороны, этот вид алгоритмов может приносить выигрыш вэффективности, то есть в качестве классификации, поскольку имеет глобальнуюсходимость, детерминирован и частично лишен таких недостатков многих плоскихалгоритмов как, например, необходимость заранее знать число кластеров.Итеративные алгоритмы, пытающиеся улучшить изначальное разбиение массивадокументов путем оптимизации некоторой целевой функции, к ним относятсяалгоритм k-средних и его модификации, имеют линейную вычислительнуюсложность, что делает их привлекательными для реализации в составе программнойсистемы.

И не смотря на их теоретическую локальную сходимость, нередкопоказывают приемлемый уровень эффективности системы. Однако эти алгоритмычувствительны к шуму. Если известно, что массив документов содержит большойпроцент шума, то следует применять либо модификации k-средних, либоиерархические алгоритмы, либо алгоритмы, специально спроектированные дляборьбы с шумом, например, плотностный алгоритм DBSCAN.

У последнего имеетсяещё одно преимущество относительно k-средних – это распознавание кластеровпроизвольной формы. Но достичь этого возможно только при удачном подборепараметров плотности, что на практике не всегда удаётся. В вопросе количестванастроечных параметров и важности способа их инициализации самыминеприхотливыми являются иерархические агломеративные алгоритмы, которые вобщем случае не используют никаких дополнительных параметров.Нечёткие алгоритмы, относящие документы к нескольким кластерамодновременно, имеют преимущество над чёткими в тех приложениях, где природаданных подразумевает такую нечёткость.

Они имеют те же недостатки, что и ихчёткие предшественники, например, сказанное в этом подразделе про алгоритм kсредних верно и для алгоритма нечётких c-средних.И, наконец, если приложение требует визуализировать полученные кластеры, тоимеет смысл обратить внимание алгоритмы, специально на это нацеленные, к ним впервую очередь относится алгоритм самоорганизующихся карт, и в некоторомсмысле можно отнести иерархические алгоритмы. Однако не следует ожидать, чтотакие карты будут востребованы широкой аудиторией пользователей.211Список используемой литературы1.

Маннинг К. Д., Рагхаван П., Шютце Х. Введение в информационный поиск.:Пер. с англ. – М.: ООО «Вильямс», 2011. – 528 с.: ил.2. Yang Y., Liu X. A re-examination of text categorization methods, School ofComputer Science Carnegie Mellon University Pittsburgh, PA 15213-3702, USA,1999 – p. 8.3. Yang Y., Pedersen J. O. A Comparative Study on Feature Selection in TextCategorization // The Fourteenth International Conference on Machine Learning:Proceedings of ICML'97.

Характеристики

Тип файла

PDF-файл

Размер

5,66 Mb

Материал

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Тип материала

Книга

Предмет

Анализ текстовых данных и информационный поиск

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

avt.-obrabotka-tekstov-na-estestvennom-jazyke-i-komp.-lingvistika.-bolshakova-2014.pdf.rar

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.