Ответ на вопрос №994204: Вы работаете аналитиком в компании, занимающейся оценкой кредитных рисков. Вы создали модель машинного обучения для прогнозирования вероятности дефолта заемщиков. Исходный набор данных содержал 100 различных признаков, характеризующих заемщиков (возраст, доход, кредитная история, образование, место работы и т. д.). После обучения модели вы обнаружили, что ее производительность на тестовом набореВы работаете аналитиком в компании, занимающейся оценкой кредитных - Ответ на вопрос №994204Вы работаете аналитиком в компании, занимающейся оценкой кредитных - Ответ на вопрос №994204
2025-10-032025-10-03СтудИзба
Вы работаете аналитиком в компании, занимающейся оценкой кредитных - Ответ на вопрос №994204
Вопрос
Вы работаете аналитиком в компании, занимающейся оценкой кредитных рисков. Вы создали модель машинного обучения для прогнозирования вероятности дефолта заемщиков. Исходный набор данных содержал 100 различных признаков, характеризующих заемщиков (возраст, доход, кредитная история, образование, место работы и т. д.). После обучения модели вы обнаружили, что ее производительность на тестовом наборе данных не так высока, как ожидалось, и наблюдаете признаки переобучения. Какое действие целесообразно предпринять для оптимизации признакового пространства и улучшения обобщающей способности модели (снижения переобучения)?- Следует добавить в модель регуляризацию (например, L1- или L2-регуляризацию) и увеличить размер обучающей выборки.
- Следует увеличить количество признаков, добавив новые, сгенерированные случайным образом признаки.
- Следует выбрать наиболее важных признаков и исключения остальных, с помощью метода отбора признаков (например, Recursive Feature Elimination или SelectFromModel с использованием Lasso).
- Следует преобразовать все числовые признаки в категориальные, разбив их на небольшое количество интервалов (биннингом).