Суррогат файла статический анализ файловой системы (1187430), страница 3
Текст из файла (страница 3)
Было разработано признаковое описаниефайлов. Были использованы следующие алгоритмы классификации: деревья принятия решений, случайный лес, градиентный бустинг. Для измерения качестваи сравнения алгоритмов использовалась F-мера, так как классы в задаче сильнонесбалансированы. Экспериментально показано, что методы машинного обученияприменимы в данной задаче и дают приемлемое качество. Лучшее качество показал алгоритм градиентного бустинга(значение F-меры на контрольной выборке:200.65). Для сравнения, при случайном угадывании, значение F-меры составляет0.12, т.е.
исследованные алгоритмы существенно лучше случайного угадывания.21Литература1. GarethJames,DanielaWitten,TrevorHastie,RobertTibshirani.An Introduction to Statistical Learning with Applications in R // Springer, 2013.2. Breiman L. Bagging predictors // Machine Learning, 1996, vol. 24, no. 2, pp.123–140.3. Leo Breiman. Random Forests // Machine Learning, October 2001, Volume 45,Issue 1, pp 5-32.4. Caruana R., Niculescu-Mizil A. An Empirical Comparison of Supervised Learning Algorithm// Department of Computer Science, Cornell University, Ithaca, NY 14853 USA.5.
Mark R. Segal. Machine Learning Benchmarks and Random Forest Regression //Division of Biostatistics, University of California, San Francisco, CA 94143-0560,April 14, 2003.6. К. В. Воронцов. Математические методы обучения по прецедентам(теория обучения машин) // курс лекций, МФТИ(2004).7. К. В. Воронцов. Лекции по алгоритмическим композициям // 7 октября 2012г.8. К. В. Воронцов.
Лекции по линейным алгоритмам классификации // 19 января2009 г.9. L. Mason , J. Baxter , P. Bartlett , M. Frean. Boosting Algorithms as GradientDescent // 2000.