Главная » Просмотр файлов » Пояснительная записка

Пояснительная записка (1218768), страница 3

Файл №1218768 Пояснительная записка (Автоматизация обработки данных бортовых систем регистрации тепловоза) 3 страницаПояснительная записка (1218768) страница 32020-10-05СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 3)

где – исправленная выборочная дисперсия, и

Описанную случайную величину заключим в следующий интервал:

где – процентная точка (процентиль) t-распределения Стьюдента с степенями свободы [12].

Значение параметра можно определить посредством соответствующей таблицы, зная число степеней свободы и надежность .

Таким образом, можно построить интервал для математического ожидания:

В случае, если генеральная совокупность состоит из элементов, и объем извлекаемой из нее выборки больше, чем , то при вычислении границ доверительного интервала математического ожидания необходимо ввести поправочный коэффициент [12].

2.5 Кластерный анализ

Методы кластерного анализа в рамках данной работы используются для определения центров скопления точек на графиках значений мощности ДГУ.

Кластерный анализ – многомерная статистическая процедура, основной целью которой является упорядочивание объектов в сравнительно однородные группы, называемые кластерами.

Кластер представляет подмножество объектов или переменных, которое выделяется из общих данных наличием среди его элементов некоторой однородности (некоторого сходства). В простейшем случае речь идет о похожести элементов, в идеальном случае – о совпадающих значениях основных переменных или иного рода близости [13].

Кластерный анализ имеет очень широкий спектр применения: его используют в медицине, психологии, государственном управлении, маркетинге, археологии и других дисциплинах.

Кластерный анализ позволяет выполнять следующие задачи [14]:

– создание классификации, типологии;

– изучение оптимальных схем группировки объектов;

– разработка гипотез, основанная на изучении данных;

– проверка разработанных гипотез или результатов исследования.

В рамках проведения кластеризации данных выделяется несколько этапов, схожих для различных задач:

– создание выборки объектов, которые необходимо разбить на отдельные группы;

– создание пространства признаков, на основе которых будет приниматься решение о принадлежности того или иного объекта выделяемым кластерам;

– оценка количественного значения выбранной меры сходства объектов (в некоторых случаях – меры различия);

– использование выбранного метода кластеризации для группировки сходных объектов;

– оценка качества результирующего решения.

К данным, к которым применяется какой-либо метод кластеризации, предъявляются два основных требования: все объекты, подвергаемые кластеризации, должны описываться единым набором характеристик, иметь одну природу, и совокупность этих объектов должна обладать свойством полноты, то есть ее составляющие должны отражать все или же наиболее важные свойства описываемого ими явления или сущности [15].

Алгоритмы кластеризации работают с данными, которые можно разделить на следующие типы [15]:

– признаковое описание объектов. Каждый объект описывается набором своих характеристик, называемых признаками. Признаки могут быть числовыми или нечисловыми;

– матрица расстояний между объектами. Каждый объект описывается расстояниями до всех остальных объектов метрического пространства;

– матрица сходства между объектами. Учитывается степень сходства объекта с другими объектами выборки в метрическом пространстве.

Какими бы ни были условия исходной задачи кластеризации, можно выделить цели применения анализа, универсальные для любой области:

– структуризация данных с целью исследования их взаимных связей, способности описывать исследуемый объект, оценки степени близости отдельных групп данных – с целью лучшего их понимания;

– уменьшение количества данных: в случае избыточности входной выборки, кластеризация позволяет сократить количество входящих в нее объектов, оставив наиболее типичных представителей выделенных кластеров;

– обнаружение нетипичных объектов: их не удается отнести к какому-либо кластеру.

В первом случае число кластеров стараются сделать меньше. Во втором случае важнее обеспечить высокую степень сходства объектов внутри каждого кластера, а кластеров может быть сколько угодно. В третьем случае наибольший интерес представляют отдельные объекты, не вписывающиеся ни в один из кластеров.

2.6 Формальная постановка задачи кластеризации

Для формализации задачи кластеризации необходимо ввести несколько обозначений: множество кластеризуемых объектов обозначим как , а множество меток кластеров – . Расстояние между объектами оценивается посредством функции . – это обучающая выборка объектов, которую необходимо разбить на кластеры. При этом, каждый итоговый кластер должен состоять из объектов, близких по метрике . Объекты разных кластеров должны существенно различаться по той же метрике. В результате разбиения каждому объекту ставится в соответствие номер кластера [16].

Алгоритм кластеризации представляет функцию , ставящей в соответствие элементу выборки номер кластера . В некоторых задачах заранее известно множество кластеров , однако нередкой является необходимость определить оптимальное количество кластеров в итоговом разбиении, на основе некоторого, заранее заданного параметра качества кластеризации.

Отличие кластеризации от классификации заключается в том, что при кластеризации метки изначально не заданы [17].

Для установления меры близости точек-данных друг к другу при кластеризации могут быть использованы следующие функции расстояния:

– метрика Хэмминга:

где Данная метрика отражает количество несовпадающих координат векторов;

– евклидова метрика:

которая является наиболее естественной функцией, описывающей расстояние между двумя точками евклидова пространства, которое вычисляется по теореме Пифагора;

– взвешенная евклидова метрика:

которая используется в случаях, когда каждой -й компоненте вектора наблюдений приписывается вес , отражающий степень важности признака в задаче классификации: , где Следует отметить, что определение весов требует дополнительных исследований и не может быть основано только на данных выборки. В противном случае велика вероятность получения ложных результатов;

– метрика Минковского:

где – это порядок функции.

Следует отметить, что если параметр в приведенной выше функции расстояния будет равен 1, то эта функция будет называться расстоянием городских кварталов или же Манхэттенским расстоянием [17]:

где – векторы.

Если же параметр будет равен 2, то функция, описывающая метрику Минковского, примет вид евклидового расстояния (8).

Неоднозначность решения задачи кластеризации определяется рядом причин, среди которых выделяют [17]:

– отсутствие критерия, который бы однозначно определял наилучшее качество кластеризации. Несмотря на наличие целого ряда эвристических критериев, а также алгоритмов, в основе которых не определен ни один четкий критерий, и которые, при этом осуществляют достаточно разумную кластеризацию. Данная задача все еще требует наличия эксперта в исследуемой предметной области для анализа полученных результатов;

– заранее неизвестное число кластеров. Количество кластеров, необходимое для решения той или иной задачи, устанавливается исследователем на основе определенного субъективного критерия;

– зависимость результата кластеризации от метрики, выбор которой, как правило, субъективен и определяется экспертом. Однако, следует отметить, что существует ряд рекомендаций для выбора мер близости в задачах различного типа.

2.7 Методы кластеризации

Существуют различные классификации методов кластеризации, основанных на том или ином признаке. В результате выполненного обзора литературы выделены две классификации: по способу обработки данных и по способу анализа информации.

По способу обработки данных выделяют:

– иерархические методы;

– неиерархические методы.

Суть иерархической кластеризации состоит в последовательном объединении меньших кластеров в большие или разделении больших кластеров на меньшие. Существует ряд недостатков методов этой группы [17]:

– ограниченный объем входных данных;

– необходимость выбора меры близости.

В качестве их достоинств следует отметить наглядность и возможность получить детальное представление о структуре данных.

При большом количестве наблюдений иерархические методы кластерного анализа непригодны. В таких случаях используют неиерархические алгоритмы, основанные на разделении, которые представляют итеративные методы дробления исходной совокупности. В процессе деления новые кластеры формируются до тех пор, пока не будет выполнено правило остановки. Неиерархические методы выявляют более высокую устойчивость по отношению к шумам и выбросам, некорректному выбору метрики, включению незначимых переменных в набор, участвующий в кластеризации.

По способу анализа данных выделяют:

– нечеткие методы;

– четкие методы.

Четкой является кластеризация, при которой каждая точка данных однозначно относится к единственному кластеру. Среди достоинств данных методов следует выделить высокую скорость работы. Однако же, они обладают недостатком, который в некоторых исследованиях может оказаться существенным: при работе методов данного типа может возникнуть неопределенность определения объекта, находящегося на границах кластеров, к конкретному кластеру.

Эта проблема решена в методах нечеткой кластеризации. В этом случае для каждой точки данных определяется ее степень принадлежности каждому из выделенных кластеров. Однако, алгоритмы нечеткой кластеризации работают медленнее, чем предыдущие.

Иерархические методы кластеризации не рассматриваются в данной работе, так как они не пригодны для применения в анализе файлов с большим количеством измерений. Кроме того, результат их работы имеет вид, непригодный для использования в рамках поставленных задач.

2.7.1 Метод k-means

Метод k-means (k-средних) – один из наиболее популярных алгоритмов кластеризации, является неиерархическим.

Данный метод позволяет разделить объекты на заранее определенное количество кластеров в соответствии с критерием, который представляет статистику Фишера: отношение межкластерной дисперсии к внутрикластерной [18].

Разделение объектов на кластеры методом k-means осуществляется таким образом, чтобы объекты, принадлежащие одному и тому же кластеру, были расположены близко друг к другу в пространстве переменных, а принадлежащие разным кластерам – далеко.

В процессе работы алгоритм стремится минимизировать суммарное отклонение точек кластеров от центроидов этих кластеров:

Характеристики

Список файлов ВКР

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
7029
Авторов
на СтудИзбе
260
Средний доход
с одного платного файла
Обучение Подробнее