_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005) (1185318), страница 22
Текст из файла (страница 22)
Численные расчеты проводились по данным месторождений п/о Юганскнефтегаз и п/о Нижневартовскнефтегаз с использованием различных систем признаков. Точность распознавания находилась в пределах 85—95 % правильных ответов. Для решения задачи обычно было достаточно около половины исходных признаков. В состав информативных подмножеств признаков входили как признаки, связь которых с явлением солеобразования является хорошо известной (прирост давления, содержание ионов Са+2, HCO ), так и признаки, целесообразность учета которых при диагностике состояний скважин в отношении солеобразования была ранее неизвестна /38-40/.
4.3.2. Контроль состояния технических устройств.
Рассматривалась задача диагностики, связанная с контролем управления космическим кораблем «Шаттл». Расположенная на корабле система радиаторов может находиться в одном из семи состояний (классов), в зависимости от показаний трех сенсорных датчиков, которые формируют значения 9-ти признаков. Особенность данной задачи состояла в том, что из 43500 измерений, которые использовались в качестве обучающей выборки, 99.6% относятся лишь к трем состояниям системы радиаторов, на остальные же 4 состояния приходилось 0.43% измерений. Точность распознавания на контрольных 14500 измерениях составила 99.7-99.8%.
Примечание. Автор постановки задачи и данных -
Jason Catlett, Basser Department of Computer Science, University of Sydney, N.S.W., Australia
for providing the shuttle dataset.
4.4. Приложения в области сельского и лесного хозяйства
4.4.1. Прогноз урожайности сельскохозяйственных культур
Рассматривалась задача прогноза урожайности (ц/га) озимой пшеницы по описанию ее состояния на различных стадиях роста и основных климатических условий.
Исходную информацию составили две числовые таблицы: T и T
. Строки таблиц являются описаниями состояния пшеницы на стадии колошения (для T
) и стадии молочной спелости (для T
), а также соответствующих климатических условий по четырем районам Ставропольского края в различные годы. Таким образом решалась задача прогноза с временем упреждения соответственно в один месяц и две недели. Разбиение исходной информации на классы проводилось по величине урожайности, которая колебалась от 7 до 36 ц/га. Класс
определялся как множество описаний состояния пшеницы с урожайностью в пределах полуинтервала (
] (i = 1, 2, . . ., 7), где
(i = 1, 2, . . ., 8) принимали значения: 36; 29; 23; 18,5; 15; 12; 9; 7.
Задачи прогноза для каждой из фаз решались независимо. В признаковое пространство как для фазы колошения, так и для фазы молочной спелости вошли признаки: число колосоносных стеблей, высота растений, влагообеспеченность растений, средние температуры воздуха за определенные промежутки времени, средние дефициты влажности воздуха за те же отрезки времени. Кроме того, на стадии колошения использовались дополнительно признаки: продолжительность периода «выход в трубку — колошение», продолжительность периода «возобновление вегетации—колошение». На стадии молочной спелости дополнительно использованы признаки: число колосков в колосе, продолжительность периода «колошение—молочная спелость».
Средняя ошибка прогноза составила 5 % от урожайности для фазы колошения и 4,2 % — для фазы молочной спелости. Максимальные ошибки прогноза были равны соответственно 8,9 и 8,2 % /53/.
В работах /4, 12/ описана модель оперативной обработки данных дистанционного зондирования в целях прогнозирования урожая в сельском хозяйстве.
4.4.2. Обработка материалов многозональной съемки с целью определения преобладающих пород
Исследуемую информацию составили «спектральные портреты» лесных массивов Рязанской области, представленных насаждениями сосны, березы, осины и ели. Площадь каждого массива была не менее 4 га. Многозональная аэросъемка выполнялась блоком из четырех камер в различных спектральных зонах. По негативам измерялись плотности в каждой зоне, на основе которых формировались описания лесных массивов в виде строк из семи признаков-плотностей по отдельным зонам, некоторых их отношений. Эталонная выборка состояла из 94 описаний. Основная задача состояла в построении алгоритма автоматического распознавания пород по спектральным данным обследуемого лесного массива.
Построенный в классе алгоритмов вычисления оценок оптимальный по функционалу качества алгоритм распознавания показал высокую точность — свыше 95 % правильных ответов. Оценка информативности признаков выявила неинформативность зоны 580—605 нм, что согласуется с результатами других подходов /5/.
4.5. Приложения в области физики, химии, биологии
4.5.1. Распознавание радиосигналов
Рассматривалась прикладная задача из области радиофизики /83/. Имеется система из 16-ти высокочастотных антенн, исследующая свойства ионосферы. Требуется отличать друг от друга 2 типа сигналов – «положительные», отраженные находящимися в ионосфере свободными электронами и несущие полезную информацию о структуре ионосферы и «отрицательные», прошедшие сквозь ионосферу без отражения. Электромагнитные сигналы характеризуются набором из 17-ти пульсаций, каждая из которых в свою очередь имеет 2 аттрибута. Таким образом, для описания сигналов использовалось 34 признака. Для численных расчетов использовались таблицы обучения и контроля примерно равного объема, при этом каждый класс включал 150-200 объектов. Точность распознавания на контрольной выборке была в пределах 82.5 -98.7%%. Интересно, что наилучшими по точности оказались такие разнотипные алгоритмы, как «многослойный перцептрон» и «к-ближайших соседей». Точность распознавания на контроле методами построения коллективных решений составила 95.7-99.6%% , причем наилучший результат показал «выпуклый стабилизатор».
4.5.2. Прогноз свойств твердых сплавов стали
Синтез твердых сплавов стали с требуемыми свойствами требует проведения большого числа трудоемких экспериментов. При этом актуальной является задача прогнозирования результатов экспериментов до их реального проведения на основе имеющегося опыта подобных экспериментов, а также известных сплавов стали. Пусть дана выборка описаний экспериментов по синтезу твердых сплавов стали, содержащая как положительные результаты экспериментов, когда были получены сплавы с требуемыми свойствами, так и отрицательные результаты. Под описанием эксперимента понимается совокупность всех характеристик, от которых, как предполагается, зависит результат: физико-химические, структурные характеристики компонентов сплава, параметры технологии и т.д. Тогда данную выборку описаний экспериментов с их результатами можно использовать в качестве обучающей и прогнозировать результаты планируемых экспериментов.
Подобные задачи прогноза рассматривались на примере прогноза сплавов, удовлетворяющих ограничениям по пределу прочности на изгиб и твердость. В данном случае в качестве признаков использовались значения весового содержимого каждого компонента в сплаве. Точность прогноза сплавов с данными свойствами на контрольных данных составила свыше 93 процентов правильных ответов.
На базе физико-химических и патентных соображений была составлена выборка гипотетических сплавов, для которых осуществлялся прогноз. Для реального синтеза был выбран тот компонентный состав, прогноз для которого был наиболее перспективен. В итоге был создан новый сплав с высокими физико-механическими и эксплуатационными свойствами, который может быть использован взамен вольфрамосодержащих твердых сплавов типа T5KIO /13/.
4.5.3. Распознавание мест локализации протеина
Задача распознавания состояла в распознавании мест локализации протеина по 7 косвенным признакам /67/. Общее число мест локализации протеина (классов) составляло 8. Обучающая и контрольная выборки включали, соответственно, 158 и 179 элеменов. Особенностью задачи является неравномерность распределения объектов по классам. Так, распределение объектов в обучающей информации по классам было следующим: 76, 33, 24, 11, 6, 4, 2 и 2, соответственно. Точность распознавания контрольных объектов различными алгоритмами составила 75-83% правильных ответов.
Наилучшие логические закономерности первых (наиболее представительных) классов представлены в таблице 3. В столбцах таблицы приведены левые и правые границы интервалов значений признака по каждой из закономерности и процент эталонных объектов, на которых данные закономерности выполнены.
Номер класса | Признак x1 | Признак x2 | Признак x5 | Признак x6 | Признак x7 | % |
1 | 0.06≤x1≤0.65 | x2≤0.56 | x5≤0.72 | x6≤0.52 | x7≤0.60 | 98.7 |
2 | x1≤0.61 | 0.33≤x2≤0.68 | 0.30≤x5≤0.74 | 0.57≤x6 | 0.16≤x7 | 90.9 |
3 | 0.58≤x1≤0.78 | 0.48≤x2≤0.87 | 0.16≤x5≤0.63 | 0.38≤x6≤0.57 | 0.18≤x7≤0.55 | 87.5 |
4 | 0.63≤x1≤0.84 | 0.25≤x2≤0.53 | 0.49≤x5≤0.69 | 0.58≤x6≤0.87 | 0.60≤x7≤0.88 | 90.9 |
Таблица 3. Наилучшие логические закономерности первых четырех классов
Интерпретация первых четырех классов была следующая:
- «cytoplasm»;
- «inner membrane without signal sequence»;
- «perisplasm»;