Суррогат файла статический анализ файловой системы (1187430)
Текст из файла
Министерство образования и науки Российской ФедерацииФедеральное государственное автономное образовательное учреждение высшегопрофессионального образования «Московский физико-технический институт(государственный университет)»Факультет управления и прикладной математикиКафедра теоретической и прикладной информатикиРабота допущена к защитезав. кафедройТормасов А. Г.«»2014 г.Выпускная квалификационная работа бакалавраТема: Суррогат файла: статический анализфайловой системыНаправление: 010900 – Прикладные математика и физикаВыполнил студент гр. 073Вялый Е. Ю.Научный руководитель,проф.,д.ф.м.н.Тормасов А. Г.Москва – 20142СодержаниеГлава 1.Введение .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4Глава 2.Постановка задачи . . . . . . . . . . . . . . . . . . . . . . . .52.1. Формальная постановка задачи . . . . . . . . . . . . . . . . . . . .52.2. Признаковое пространство . . . . . . . . . . . . . . .
. . . . . . . .5Глава 3.Известные результаты . . . . . . . . . . . . . . . . . . . . . .63.1. Деревья принятия решений . . . . . . . . . . . . . . . . . . . . . . .63.2. Случайный лес . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .73.3. Градиентный бустинг . . .
. . . . . . . . . . . . . . . . . . . . . . .9Глава 4.Результаты . . . . . . . . . . . . . . . . . . . . . . . . . . . . .124.1. Признаковое описание . . . . . . . . . . . . . . . . . . . . . . . . . .124.2. Семплирование . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .134.3. Оценка качества . . . . . . . . . . . . . . . . . . . . . . . . . . . . .134.4. Выбор классификатора . . . . . . . . . . . . . . . . . . . . . . . . .144.4.1.Решающее дерево . . . . . . .
. . . . . . . . . . . . . . . . .144.4.2.Случайный лес . . . . . . . . . . . . . . . . . . . . . . . . .164.4.3.Градиентный бустинг над решающими деревьями . . . . .17Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . .195.1. Возможные улучшения . . . . . . . . . . . . . . . . .
. . . . . . . .195.2. Выводы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19Литература . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21Глава 5.АннотацияВ работе ставится и решается задача классификации файлов пользователей. Используются алгоритмы решающих деревьев, случайного леса и градиентного бустинга над деревьями. Вводится признаковое описание файла, проводится вычислительный эксперимент по классификации. Получены приемлемые значения качества классификации.Ключевые слова: классификация, признаковое описание, решающее дерево, случайный лес, бустинг.4Глава 1ВведениеВ задачах облачного хранения файлов часто бывает полезно выделять некиесемантические группы файлов.
Далее, к этим группам можно применять раличные политики хранения и доступа. Чтобы формализовать задачу, формируетсяпризнаковое описание файла - числовой вектор. Два наиболее распространенныхподхода к выделению таких групп - кластеризация и классификация.В первом подходе группы объектов выделяются таким образом, чтобы близкие в какой-либо метрике объекты принадлежали одной группе, а расстояние между группами было существенно больше расстояний внутри групп. При кластеризации группы могут быть заранее неизвестны. В терминах машинного обучения,кластеризация - обучение без учителя.При классификации, наоборот, изначально известно множество классов, накоторые необходимо разделить объекты.
Также задана обучающая выборка - множество объектов, для которых известны метки классов. Классификатор настраивается на обучающей выборке, и затем может предсказывать класс произвольногонового объекта.В работе ставится и решается задача классификации. В разделе "Постановказадачи"формально ставится задача классификации. Далее, в разделе "Известныерезультаты"описываются следующие алгоритмы, основанные на деревьях принятия решений: собственно решающее дерево, случайный лес и бустинг над деревьями. Также приводятся их достоинства и недостатки.
В разделе "Результаты"формируется признаковое описание файлов, описывается способ оценки качества классификации и проводится вычислительный эксперимент по классификации реальных файлов. Полученное качество классификации существенно лучшетакового для случайного угадывания, то есть данную задачу можно решать методами машиннного обучения.5Глава 2Постановка задачи2.1. Формальная постановка задачиПусть - множество описаний объектов, = {1 , . .
. , } - конечное множество классов. Существует неизвестное отображение * : → ,причем его значения известны только на элементах конечной совокупности = {(1 , 1 ), . . . , ( , )} ⊂ × . Требуется построить алгоритм : → ,способный классифицировать произвольный объект ∈ .[6]2.2. Признаковое пространствоПризнаком называется отображение : → , где – множество объектов, — множество допустимых значений признака. Если заданы признаки1 , . . . , , то вектор x = (1 (), .
. . , ()) называется признаковым описаниемобъекта ∈ . Признаковые описания допустимо отождествлять с самими объектами. При этом множество = 1 × · · · × называют признаковым пространством. В зависимости от множества признаки делятся на следующиетипы:∙ бинарный признак: = {0, 1};∙ номинальный признак: — конечное множество;∙ порядковый признак: — конечное упорядоченное множество;∙ количественный признак: — множество действительных чисел.[6]6Глава 3Известные результаты3.1. Деревья принятия решенийОписаниеДеревья принятия решений(Decision trees) - красивая и легко интерпретируемая модель для регрессии и классификации.
В регрессионной постановке структура дерева представляет собой следующее: листы, внутренние узлы и ребра. Наребрах дерева решения записаны атрибуты, от которых зависит целевая функция, в листах записаны значения целевой функции, а в остальных узлах — атрибуты, по которым различаются случаи. Чтобы вычислить значение функции вновой точке, надо спуститься по дереву до листа и выдать соответствующую метку. Использование деревьев для классификации аналогично, в качестве целевойфункции - метка класса.Простой пример дерева принятия решений для следующих данных: логарифм зарплаты футболистов в зависимости от количества лет, сыгранных в премьер-лиге(Years) и количества забитых мячей в прошлом году(Hits)[1]:7ДостоинстваЕстественный учет зависимостей признаков - в случае сложных взаимодействий предикторов другие модели могут давать намного худшие результаты.Гибкость - категориальные и числовые признаки учитываются одинаково.Легкость интерпретации - результат классификации можно представить в видецепочки правил вида "если A то B"НедостаткиТочность прогноза - например, в случае данных с линейной зависимостью,линейная регрессия дает значительно лучшие результаты.
Это следствие общности модели деревьев, они не учитывают специфику данных. Однако, точностьпрогноза можно существенно улучшить используя такие методы, как случайныйлес, бустинг.3.2. Случайный лесОписаниеСлучайный лес(англ. Random forest) - алгоритм машинного обучения, заключающийся в использовании комитета(ансамбля) решающих деревьев [3].
Алгоритм сочетает в себе две основные идеи: метод бэггинга, и метод случайныхподпространств.Бэггинг(англ. Bootstrap AGgregrating, bagging) был предложен Л. Брейманом в 1996 году [2] и работает следующим образом. Пусть дана обучающая выборка размера . Генерируется новых выборок размера ′ , выбором из случайно с возвращением.
Некоторые наблюдения могут попасть в выборкунесколько раз, некоторые могут не попасть вообще. Если ′ = и велико, тодоля различных наблюдений в будет (1 − 1/) ≈ 63.2%. Далее, обучается 8классификаторов на каждой выборке . При классификации новой точки, этиклассификаторы голосуют и относят точку к классу, за который проголосовало большинство.
В методе случайных подпространств (random subspace method,RSM) классификаторы обучаются на различных подмножествах признаковогоописания, которые также выделяются случайным образом.Рассмотрим алгоритм построения случайного леса. Пусть обучающая выборка состоит из примеров, размерность пространства признаков равна , и задан√параметр (в задачах классификации обычно ≈ ).Все деревья комитета строятся независимо друг от друга по следующей процедуре:1.
Сгенерируем случайную подвыборку с повторением размером из обучающей выборки. (Таким образом, некоторые примеры попадут в неё несколькораз, а примерно /3 примеров не войдут в неё вообще)2. Построим решающее дерево, классифицирующее примеры данной подвыборки, причём в ходе создания очередного узла дерева будем выбирать признак,на основе которого производится разбиение, не из всех признаков, а лишьиз случайно выбранных.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.