Суррогат файла статический анализ файловой системы (1187430)

Файл №1187430 Суррогат файла статический анализ файловой системы (Суррогат файла статический анализ файловой системы)Суррогат файла статический анализ файловой системы (1187430)2020-09-112020-09-11СтудИзба

Суррогат файла статический анализ файловой системы

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла

Министерство образования и науки Российской ФедерацииФедеральное государственное автономное образовательное учреждение высшегопрофессионального образования «Московский физико-технический институт(государственный университет)»Факультет управления и прикладной математикиКафедра теоретической и прикладной информатикиРабота допущена к защитезав. кафедройТормасов А. Г.«»2014 г.Выпускная квалификационная работа бакалавраТема: Суррогат файла: статический анализфайловой системыНаправление: 010900 – Прикладные математика и физикаВыполнил студент гр. 073Вялый Е. Ю.Научный руководитель,проф.,д.ф.м.н.Тормасов А. Г.Москва – 20142СодержаниеГлава 1.Введение .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4Глава 2.Постановка задачи . . . . . . . . . . . . . . . . . . . . . . . .52.1. Формальная постановка задачи . . . . . . . . . . . . . . . . . . . .52.2. Признаковое пространство . . . . . . . . . . . . . . .

. . . . . . . .5Глава 3.Известные результаты . . . . . . . . . . . . . . . . . . . . . .63.1. Деревья принятия решений . . . . . . . . . . . . . . . . . . . . . . .63.2. Случайный лес . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .73.3. Градиентный бустинг . . .

. . . . . . . . . . . . . . . . . . . . . . .9Глава 4.Результаты . . . . . . . . . . . . . . . . . . . . . . . . . . . . .124.1. Признаковое описание . . . . . . . . . . . . . . . . . . . . . . . . . .124.2. Семплирование . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . .134.3. Оценка качества . . . . . . . . . . . . . . . . . . . . . . . . . . . . .134.4. Выбор классификатора . . . . . . . . . . . . . . . . . . . . . . . . .144.4.1.Решающее дерево . . . . . . .

. . . . . . . . . . . . . . . . .144.4.2.Случайный лес . . . . . . . . . . . . . . . . . . . . . . . . .164.4.3.Градиентный бустинг над решающими деревьями . . . . .17Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . .195.1. Возможные улучшения . . . . . . . . . . . . . . . . .

. . . . . . . .195.2. Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19Литература . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21Глава 5.АннотацияВ работе ставится и решается задача классификации файлов пользователей. Используются алгоритмы решающих деревьев, случайного леса и градиентного бустинга над деревьями. Вводится признаковое описание файла, проводится вычислительный эксперимент по классификации. Получены приемлемые значения качества классификации.Ключевые слова: классификация, признаковое описание, решающее дерево, случайный лес, бустинг.4Глава 1ВведениеВ задачах облачного хранения файлов часто бывает полезно выделять некиесемантические группы файлов.

Далее, к этим группам можно применять раличные политики хранения и доступа. Чтобы формализовать задачу, формируетсяпризнаковое описание файла - числовой вектор. Два наиболее распространенныхподхода к выделению таких групп - кластеризация и классификация.В первом подходе группы объектов выделяются таким образом, чтобы близкие в какой-либо метрике объекты принадлежали одной группе, а расстояние между группами было существенно больше расстояний внутри групп. При кластеризации группы могут быть заранее неизвестны. В терминах машинного обучения,кластеризация - обучение без учителя.При классификации, наоборот, изначально известно множество классов, накоторые необходимо разделить объекты.

Также задана обучающая выборка - множество объектов, для которых известны метки классов. Классификатор настраивается на обучающей выборке, и затем может предсказывать класс произвольногонового объекта.В работе ставится и решается задача классификации. В разделе "Постановказадачи"формально ставится задача классификации. Далее, в разделе "Известныерезультаты"описываются следующие алгоритмы, основанные на деревьях принятия решений: собственно решающее дерево, случайный лес и бустинг над деревьями. Также приводятся их достоинства и недостатки.

В разделе "Результаты"формируется признаковое описание файлов, описывается способ оценки качества классификации и проводится вычислительный эксперимент по классификации реальных файлов. Полученное качество классификации существенно лучшетакового для случайного угадывания, то есть данную задачу можно решать методами машиннного обучения.5Глава 2Постановка задачи2.1. Формальная постановка задачиПусть - множество описаний объектов, = {1 , . .

. , } - конечное множество классов. Существует неизвестное отображение * : → ,причем его значения известны только на элементах конечной совокупности = {(1 , 1 ), . . . , ( , )} ⊂ × . Требуется построить алгоритм : → ,способный классифицировать произвольный объект ∈ .[6]2.2. Признаковое пространствоПризнаком называется отображение : → , где – множество объектов, — множество допустимых значений признака. Если заданы признаки1 , . . . , , то вектор x = (1 (), .

. . , ()) называется признаковым описаниемобъекта ∈ . Признаковые описания допустимо отождествлять с самими объектами. При этом множество = 1 × · · · × называют признаковым пространством. В зависимости от множества признаки делятся на следующиетипы:∙ бинарный признак: = {0, 1};∙ номинальный признак: — конечное множество;∙ порядковый признак: — конечное упорядоченное множество;∙ количественный признак: — множество действительных чисел.[6]6Глава 3Известные результаты3.1. Деревья принятия решенийОписаниеДеревья принятия решений(Decision trees) - красивая и легко интерпретируемая модель для регрессии и классификации.

В регрессионной постановке структура дерева представляет собой следующее: листы, внутренние узлы и ребра. Наребрах дерева решения записаны атрибуты, от которых зависит целевая функция, в листах записаны значения целевой функции, а в остальных узлах — атрибуты, по которым различаются случаи. Чтобы вычислить значение функции вновой точке, надо спуститься по дереву до листа и выдать соответствующую метку. Использование деревьев для классификации аналогично, в качестве целевойфункции - метка класса.Простой пример дерева принятия решений для следующих данных: логарифм зарплаты футболистов в зависимости от количества лет, сыгранных в премьер-лиге(Years) и количества забитых мячей в прошлом году(Hits)[1]:7ДостоинстваЕстественный учет зависимостей признаков - в случае сложных взаимодействий предикторов другие модели могут давать намного худшие результаты.Гибкость - категориальные и числовые признаки учитываются одинаково.Легкость интерпретации - результат классификации можно представить в видецепочки правил вида "если A то B"НедостаткиТочность прогноза - например, в случае данных с линейной зависимостью,линейная регрессия дает значительно лучшие результаты.

Это следствие общности модели деревьев, они не учитывают специфику данных. Однако, точностьпрогноза можно существенно улучшить используя такие методы, как случайныйлес, бустинг.3.2. Случайный лесОписаниеСлучайный лес(англ. Random forest) - алгоритм машинного обучения, заключающийся в использовании комитета(ансамбля) решающих деревьев [3].

Алгоритм сочетает в себе две основные идеи: метод бэггинга, и метод случайныхподпространств.Бэггинг(англ. Bootstrap AGgregrating, bagging) был предложен Л. Брейманом в 1996 году [2] и работает следующим образом. Пусть дана обучающая выборка размера . Генерируется новых выборок размера ′ , выбором из случайно с возвращением.

Некоторые наблюдения могут попасть в выборкунесколько раз, некоторые могут не попасть вообще. Если ′ = и велико, тодоля различных наблюдений в будет (1 − 1/) ≈ 63.2%. Далее, обучается 8классификаторов на каждой выборке . При классификации новой точки, этиклассификаторы голосуют и относят точку к классу, за который проголосовало большинство.

В методе случайных подпространств (random subspace method,RSM) классификаторы обучаются на различных подмножествах признаковогоописания, которые также выделяются случайным образом.Рассмотрим алгоритм построения случайного леса. Пусть обучающая выборка состоит из примеров, размерность пространства признаков равна , и задан√параметр (в задачах классификации обычно ≈ ).Все деревья комитета строятся независимо друг от друга по следующей процедуре:1.

Сгенерируем случайную подвыборку с повторением размером из обучающей выборки. (Таким образом, некоторые примеры попадут в неё несколькораз, а примерно /3 примеров не войдут в неё вообще)2. Построим решающее дерево, классифицирующее примеры данной подвыборки, причём в ходе создания очередного узла дерева будем выбирать признак,на основе которого производится разбиение, не из всех признаков, а лишьиз случайно выбранных.

Характеристики

Тип файла

PDF-файл

Размер

533,76 Kb

Материал

Суррогат файла статический анализ файловой системы

Тип материала

Выпускная квалификационная работа (ВКР)

Предмет

Дипломы и ВКР

Высшее учебное заведение

МФТИ (ГУ)

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов ВКР

surrogat-fajla-staticheskij-analiz-fajlovoj-sistemy.rar

Суррогат файла статический анализ файловой системы.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.