LAB3 Бочаров И.А. (544709), страница 2
Текст из файла (страница 2)
XML-структура MathML обеспечивает широкую область использования и позволяет быстро отображать формулы в приложениях, таких как браузеры, а также легко интерпретировать их значения в математических программных продуктах.
Выполнение работы
В качестве тематики для сайта была выбрана тематика моей бакалаврской работы – разработка алгоритмов классификации текстов.
Код полученных в результате работы страниц можно увидеть в приложении 1.
Приложение 1
main.html
Главная страница
Описание работы
Данная страница является результатом выполнения лабораторной работы номер 3 по дисциплине ВМСС.
Тема работы - изучение основ языка гипертекстовой разметки HTML.
Выполнил: Бочаров Иван, А-13-08
classification.html
Постановка задачи классификации
Классификация — один из разделов машинного обучения, посвященный решению следующей задачи:
ммеется множество объектов (ситуаций), разделённых некоторым образом на классы.
Задано конечное множество объектов, для которых известно, к каким классам они относятся.
Это множество называется обучающей выборкой. Классовая принадлежность остальных объектов не известна.
Требуется построить алгоритм, способный классифицировать произвольный объект из исходного множества.
Примеры прикладных задач
-
Задачи медицинской диагностики
В роли объектов выступают пациенты.
Признаки характеризуют результаты обследований, симптомы заболевания и применявшиеся методы лечения. Обычно различают следующие типы признаков:
- Бинарные признаки(два возможных значения): пол, наличие головной боли, слабости.
- Порядковый признак(множество возможных значений является и конечным упорядоченным) — тяжесть состояния (удовлетворительное, средней тяжести, тяжёлое, крайне тяжёлое).
- Количественные признаки(множество возможных значения признака - множество действтиельных чисел) — возраст, пульс, артериальное давление, содержание гемоглобина в крови, доза препарата.
Признаковое описание пациента является, по сути дела, формализованной историей болезни.
Накопив достаточное количество прецедентов в электронном виде, можно решать различные задачи.
-
Задача категоризации текстов
При рассмотрении постановок задачи классификации, в которых в качестве множества объектов выступают множества текстовых документов, обычно применяют термин категоризация. Этот термин, по мнению исследователей, более точно отражает смысловое значение классификации для множеств текстовых документов.
Для решения поставленной задачи существует большое количество алгоритмов, как классических, так и специальным образом модифицированных с учетом специфики конкретной постановки.
algorithms.html
Алгоритмы решения задачи
Существует большое количество разнообразных алгоритмов для проведения классификации. Рассмотрим самый простой из алгоритмов - так называемый наивный байесовский классификатор.
Наивный байесовский классификатор — простой вероятностный классификатор, основанный на применении Теоремы Байеса со строгими (наивными) предположениями о независимости.
В зависимости от точной природы вероятностной модели, наивные байесовские классификаторы могут обучаться очень эффективно. Во многих практических приложениях, для оценки параметров для наивных байесовых моделей используют метод максимального правдоподобия; другими словами, можно работать с наивной байесовской моделью, не веря в байесовскую вероятность и не используя байесовские методы.
Несмотря на наивный вид и, несомненно, очень упрощенные условия, наивные байесовские классификаторы часто работают намного лучше во многих сложных жизненных ситуациях.
Достоинством наивного байесовского классификатора является малое количество данных для обучения, необходимых для оценки параметров, требуемых для классификации.
Более подробно об этом методе классификации можно прочесть, например, тут: http://en.wikipedia.org/wiki/Naive_Bayes_classifier
Выполнил: Бочаров Иван, А-13-08
formula.xhtml
Математическая формула
(
x
+
a
)
n
=
∑
k
=
0
n
x
k
a
n
−
k