Главная » Просмотр файлов » Суррогат файла статический анализ файловой системы

Суррогат файла статический анализ файловой системы (1187430)

Файл №1187430 Суррогат файла статический анализ файловой системы (Суррогат файла статический анализ файловой системы)Суррогат файла статический анализ файловой системы (1187430)2020-09-11СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла

Министерство образования и науки Российской ФедерацииФедеральное государственное автономное образовательное учреждение высшегопрофессионального образования «Московский физико-технический институт(государственный университет)»Факультет управления и прикладной математикиКафедра теоретической и прикладной информатикиРабота допущена к защитезав. кафедройТормасов А. Г.«»2014 г.Выпускная квалификационная работа бакалавраТема: Суррогат файла: статический анализфайловой системыНаправление: 010900 – Прикладные математика и физикаВыполнил студент гр. 073Вялый Е. Ю.Научный руководитель,проф.,д.ф.м.н.Тормасов А. Г.Москва – 20142СодержаниеГлава 1.Введение .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4Глава 2.Постановка задачи . . . . . . . . . . . . . . . . . . . . . . . .52.1. Формальная постановка задачи . . . . . . . . . . . . . . . . . . . .52.2. Признаковое пространство . . . . . . . . . . . . . . .

. . . . . . . .5Глава 3.Известные результаты . . . . . . . . . . . . . . . . . . . . . .63.1. Деревья принятия решений . . . . . . . . . . . . . . . . . . . . . . .63.2. Случайный лес . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .73.3. Градиентный бустинг . . .

. . . . . . . . . . . . . . . . . . . . . . .9Глава 4.Результаты . . . . . . . . . . . . . . . . . . . . . . . . . . . . .124.1. Признаковое описание . . . . . . . . . . . . . . . . . . . . . . . . . .124.2. Семплирование . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .134.3. Оценка качества . . . . . . . . . . . . . . . . . . . . . . . . . . . . .134.4. Выбор классификатора . . . . . . . . . . . . . . . . . . . . . . . . .144.4.1.Решающее дерево . . . . . . .

. . . . . . . . . . . . . . . . .144.4.2.Случайный лес . . . . . . . . . . . . . . . . . . . . . . . . .164.4.3.Градиентный бустинг над решающими деревьями . . . . .17Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . .195.1. Возможные улучшения . . . . . . . . . . . . . . . . .

. . . . . . . .195.2. Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19Литература . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21Глава 5.АннотацияВ работе ставится и решается задача классификации файлов пользователей. Ис­пользуются алгоритмы решающих деревьев, случайного леса и градиентного бу­стинга над деревьями. Вводится признаковое описание файла, проводится вычис­лительный эксперимент по классификации. Получены приемлемые значения ка­чества классификации.Ключевые слова: классификация, признаковое описание, решающее дерево, слу­чайный лес, бустинг.4Глава 1ВведениеВ задачах облачного хранения файлов часто бывает полезно выделять некиесемантические группы файлов.

Далее, к этим группам можно применять ралич­ные политики хранения и доступа. Чтобы формализовать задачу, формируетсяпризнаковое описание файла - числовой вектор. Два наиболее распространенныхподхода к выделению таких групп - кластеризация и классификация.В первом подходе группы объектов выделяются таким образом, чтобы близ­кие в какой-либо метрике объекты принадлежали одной группе, а расстояние меж­ду группами было существенно больше расстояний внутри групп. При кластери­зации группы могут быть заранее неизвестны. В терминах машинного обучения,кластеризация - обучение без учителя.При классификации, наоборот, изначально известно множество классов, накоторые необходимо разделить объекты.

Также задана обучающая выборка - мно­жество объектов, для которых известны метки классов. Классификатор настраи­вается на обучающей выборке, и затем может предсказывать класс произвольногонового объекта.В работе ставится и решается задача классификации. В разделе "Постановказадачи"формально ставится задача классификации. Далее, в разделе "Известныерезультаты"описываются следующие алгоритмы, основанные на деревьях при­нятия решений: собственно решающее дерево, случайный лес и бустинг над де­ревьями. Также приводятся их достоинства и недостатки.

В разделе "Результа­ты"формируется признаковое описание файлов, описывается способ оценки каче­ства классификации и проводится вычислительный эксперимент по классифика­ции реальных файлов. Полученное качество классификации существенно лучшетакового для случайного угадывания, то есть данную задачу можно решать мето­дами машиннного обучения.5Глава 2Постановка задачи2.1. Формальная постановка задачиПусть - множество описаний объектов, = {1 , . .

. , } - конечное множе­ство классов. Существует неизвестное отображение * : → ,причем его значения известны только на элементах конечной совокупности = {(1 , 1 ), . . . , ( , )} ⊂ × . Требуется построить алгоритм : → ,способный классифицировать произвольный объект ∈ .[6]2.2. Признаковое пространствоПризнаком называется отображение : → , где – множество объ­ектов, — множество допустимых значений признака. Если заданы признаки1 , . . . , , то вектор x = (1 (), .

. . , ()) называется признаковым описаниемобъекта ∈ . Признаковые описания допустимо отождествлять с самими объ­ектами. При этом множество = 1 × · · · × называют признаковым про­странством. В зависимости от множества признаки делятся на следующиетипы:∙ бинарный признак: = {0, 1};∙ номинальный признак: — конечное множество;∙ порядковый признак: — конечное упорядоченное множество;∙ количественный признак: — множество действительных чисел.[6]6Глава 3Известные результаты3.1. Деревья принятия решенийОписаниеДеревья принятия решений(Decision trees) - красивая и легко интерпретиру­емая модель для регрессии и классификации.

В регрессионной постановке струк­тура дерева представляет собой следующее: листы, внутренние узлы и ребра. Наребрах дерева решения записаны атрибуты, от которых зависит целевая функ­ция, в листах записаны значения целевой функции, а в остальных узлах — ат­рибуты, по которым различаются случаи. Чтобы вычислить значение функции вновой точке, надо спуститься по дереву до листа и выдать соответствующую мет­ку. Использование деревьев для классификации аналогично, в качестве целевойфункции - метка класса.Простой пример дерева принятия решений для следующих данных: лога­рифм зарплаты футболистов в зависимости от количества лет, сыгранных в пре­мьер-лиге(Years) и количества забитых мячей в прошлом году(Hits)[1]:7ДостоинстваЕстественный учет зависимостей признаков - в случае сложных взаимодей­ствий предикторов другие модели могут давать намного худшие результаты.Гибкость - категориальные и числовые признаки учитываются одинаково.Легкость интерпретации - результат классификации можно представить в видецепочки правил вида "если A то B"НедостаткиТочность прогноза - например, в случае данных с линейной зависимостью,линейная регрессия дает значительно лучшие результаты.

Это следствие общно­сти модели деревьев, они не учитывают специфику данных. Однако, точностьпрогноза можно существенно улучшить используя такие методы, как случайныйлес, бустинг.3.2. Случайный лесОписаниеСлучайный лес(англ. Random forest) - алгоритм машинного обучения, за­ключающийся в использовании комитета(ансамбля) решающих деревьев [3].

Ал­горитм сочетает в себе две основные идеи: метод бэггинга, и метод случайныхподпространств.Бэггинг(англ. Bootstrap AGgregrating, bagging) был предложен Л. Брейма­ном в 1996 году [2] и работает следующим образом. Пусть дана обучающая вы­борка размера . Генерируется новых выборок размера ′ , выбором из случайно с возвращением.

Некоторые наблюдения могут попасть в выборкунесколько раз, некоторые могут не попасть вообще. Если ′ = и велико, тодоля различных наблюдений в будет (1 − 1/) ≈ 63.2%. Далее, обучается 8классификаторов на каждой выборке . При классификации новой точки, этиклассификаторы голосуют и относят точку к классу, за который проголосова­ло большинство.

В методе случайных подпространств (random subspace method,RSM) классификаторы обучаются на различных подмножествах признаковогоописания, которые также выделяются случайным образом.Рассмотрим алгоритм построения случайного леса. Пусть обучающая выбор­ка состоит из примеров, размерность пространства признаков равна , и задан√параметр (в задачах классификации обычно ≈ ).Все деревья комитета строятся независимо друг от друга по следующей про­цедуре:1.

Сгенерируем случайную подвыборку с повторением размером из обучаю­щей выборки. (Таким образом, некоторые примеры попадут в неё несколькораз, а примерно /3 примеров не войдут в неё вообще)2. Построим решающее дерево, классифицирующее примеры данной подвыбор­ки, причём в ходе создания очередного узла дерева будем выбирать признак,на основе которого производится разбиение, не из всех признаков, а лишьиз случайно выбранных.

Характеристики

Тип файла
PDF-файл
Размер
533,76 Kb
Высшее учебное заведение

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов ВКР

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6376
Авторов
на СтудИзбе
309
Средний доход
с одного платного файла
Обучение Подробнее