_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005) (_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005).pdf), страница 25
Описание файла
PDF-файл из архива "_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005).pdf", который расположен в категории "". Всё это находится в предмете "(ммо) методы машинного обучения" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 25 страницы из PDF
Точностьраспознавания находилась в пределах 85—95 % правильных ответов. Для решения задачиобычно было достаточно около половины исходных признаков. В состав информативныхподмножествпризнаковвходиликакпризнаки,связькоторыхсявлениемсолеобразования является хорошо известной (прирост давления, содержание ионов Са+2,HCO 3 ), так и признаки, целесообразность учета которых при диагностике состоянийскважин в отношении солеобразования была ранее неизвестна /38-40/.1194.3.2. Контроль состояния технических устройств.Рассматриваласьзадачадиагностики,связаннаясконтролемуправлениякосмическим кораблем «Шаттл».
Расположенная на корабле система радиаторов можетнаходиться в одном из семи состояний (классов), в зависимости от показаний трехсенсорных датчиков, которые формируют значения 9-ти признаков. Особенность даннойзадачи состояла в том, что из 43500 измерений, которые использовались в качествеобучающей выборки, 99.6% относятся лишь к трем состояниям системы радиаторов, наостальные же 4 состояния приходилось 0.43% измерений.
Точность распознавания наконтрольных 14500 измерениях составила 99.7-99.8%.Примечание. Автор постановки задачи и данных Jason Catlett, Basser Department of Computer Science, University of Sydney, N.S.W., Australiafor providing the shuttle dataset.4.4. Приложения в области сельского и лесного хозяйства4.4.1. Прогноз урожайности сельскохозяйственных культурРассматривалась задача прогноза урожайности (ц/га) озимой пшеницы поописанию ее состояния на различных стадиях роста и основных климатических условий.Исходную информацию составили две числовые таблицы: T 19,53, 7 и T 82,53, 7 .
Строки таблицявляются описаниями состояния пшеницы на стадии колошения (для T 19,53, 7 ) и стадиимолочной спелости (для T 82,53, 7 ), а также соответствующих климатических условий почетырем районам Ставропольского края в различные годы. Таким образом решаласьзадача прогноза с временем упреждения соответственно в один месяц и две недели.Разбиение исходной информации на классы проводилось по величине урожайности,которая колебалась от 7 до 36 ц/га. Класс K i определялся как множество описанийсостояния пшеницы с урожайностью в пределах полуинтервала ( i 1 , i ] (i = 1, 2, .
. ., 7),где i (i = 1, 2, . . ., 8) принимали значения: 36; 29; 23; 18,5; 15; 12; 9; 7.Задачи прогноза для каждой из фаз решались независимо. В признаковоепространство как для фазы колошения, так и для фазы молочной спелости вошлипризнаки: число колосоносных стеблей, высота растений, влагообеспеченность растений,средние температуры воздуха за определенные промежутки времени, средние дефицитывлажности воздуха за те же отрезки времени. Кроме того, на стадии колошенияиспользовались дополнительно признаки: продолжительность периода «выход в трубку —120колошение», продолжительность периода «возобновление вегетации—колошение».
Настадии молочной спелости дополнительно использованы признаки: число колосков вколосе, продолжительность периода «колошение—молочная спелость».Средняя ошибка прогноза составила 5 % от урожайности для фазы колошения и 4,2% — для фазы молочной спелости. Максимальные ошибки прогноза были равнысоответственно 8,9 и 8,2 % /53/.В работах /4, 12/ описана модель оперативной обработки данных дистанционногозондирования в целях прогнозирования урожая в сельском хозяйстве.4.4.2. Обработка материалов многозональной съемки с целью определенияпреобладающих породИсследуемую информацию составили «спектральные портреты» лесных массивовРязанской области, представленных насаждениями сосны, березы, осины и ели.
Площадькаждого массива была не менее 4 га. Многозональная аэросъемка выполнялась блоком изчетырех камер в различных спектральных зонах. По негативам измерялись плотности вкаждой зоне, на основе которых формировались описания лесных массивов в виде строкиз семи признаков-плотностей по отдельным зонам, некоторых их отношений. Эталоннаявыборка состояла из 94 описаний. Основная задача состояла в построении алгоритмаавтоматического распознавания пород по спектральным данным обследуемого лесногомассива.Построенныйвклассеалгоритмоввычисленияоценокоптимальныйпофункционалу качества алгоритм распознавания показал высокую точность — свыше 95 %правильных ответов.
Оценка информативности признаков выявила неинформативностьзоны 580—605 нм, что согласуется с результатами других подходов /5/.4.5. Приложения в области физики, химии, биологии4.5.1. Распознавание радиосигналовРассматривалась прикладная задача из области радиофизики /83/. Имеется системаиз 16-ти высокочастотных антенн, исследующая свойства ионосферы. Требуется отличатьдруг от друга 2 типа сигналов – «положительные», отраженные находящимися вионосфере свободными электронами и несущие полезную информацию о структуреионосферыи«отрицательные»,прошедшиесквозьионосферубезотражения.Электромагнитные сигналы характеризуются набором из 17-ти пульсаций, каждая изкоторых в свою очередь имеет 2 аттрибута.
Таким образом, для описания сигналовиспользовалось 34 признака. Для численных расчетов использовались таблицы обучения и121контроля примерно равного объема, при этом каждый класс включал 150-200 объектов.Точность распознавания на контрольной выборке была в пределах 82.5 -98.7%%.Интересно, что наилучшими по точности оказались такие разнотипные алгоритмы, как«многослойный перцептрон» и «к-ближайших соседей». Точность распознаваниянаконтроле методами построения коллективных решений составила 95.7-99.6%% , причемнаилучший результат показал «выпуклый стабилизатор».4.5.2.
Прогноз свойств твердых сплавов сталиСинтез твердых сплавов стали с требуемыми свойствами требует проведениябольшого числа трудоемких экспериментов. При этом актуальной является задачапрогнозирования результатов экспериментов до их реального проведения на основеимеющегося опыта подобных экспериментов, а также известных сплавов стали. Пустьдана выборка описаний экспериментов по синтезу твердых сплавов стали, содержащая какположительные результаты экспериментов, когда были получены сплавы с требуемымисвойствами, так и отрицательные результаты. Под описанием эксперимента понимаетсясовокупность всех характеристик, от которых, как предполагается, зависит результат:физико-химические, структурные характеристики компонентов сплава, параметрытехнологии и т.д.
Тогда данную выборку описаний экспериментов с их результатамиможно использовать в качестве обучающей и прогнозировать результаты планируемыхэкспериментов.Подобные задачи прогноза рассматривались на примере прогноза сплавов,удовлетворяющих ограничениям по пределу прочности на изгиб и твердость. В данномслучае в качестве признаков использовались значения весового содержимого каждогокомпонента в сплаве. Точность прогноза сплавов с данными свойствами на контрольныхданных составила свыше 93 процентов правильных ответов.На базе физико-химических и патентных соображений была составлена выборкагипотетических сплавов, для которых осуществлялся прогноз.
Для реального синтеза былвыбран тот компонентный состав, прогноз для которого был наиболее перспективен. Витоге был создан новый сплав с высокими физико-механическими и эксплуатационнымисвойствами, который может быть использован взамен вольфрамосодержащих твердыхсплавов типа T5KIO /13/.4.5.3. Распознавание мест локализации протеинаЗадача распознавания состояла в распознавании мест локализации протеина по 7косвенным признакам /67/.
Общее число мест локализации протеина (классов) составляло1228. Обучающая и контрольная выборки включали, соответственно, 158 и 179 элеменов.Особенностью задачи является неравномерность распределения объектов по классам. Так,распределение объектов в обучающей информации по классам было следующим: 76, 33,24, 11, 6, 4, 2 и 2, соответственно. Точность распознавания контрольных объектовразличными алгоритмами составила 75-83% правильных ответов.Наилучшие логические закономерности первых (наиболее представительных)классов представлены в таблице 3. В столбцах таблицы приведены левые и правыеграницы интервалов значений признака по каждой из закономерности и процентэталонных объектов, на которых данные закономерности выполнены.Номеркласса1234Признак x1Признак x2Признак x5Признак x6Признак x70.06≤x1≤0.65x2≤0.56x5≤0.72x6≤0.52x7≤0.60x1≤0.61 0.33≤x2≤0.68 0.30≤x5≤0.74 0.57≤x60.16≤x70.58≤x1≤0.78 0.48≤x2≤0.87 0.16≤x5≤0.63 0.38≤x6≤0.57 0.18≤x7≤0.550.63≤x1≤0.84 0.25≤x2≤0.53 0.49≤x5≤0.69 0.58≤x6≤0.87 0.60≤x7≤0.88Таблица 3.
Наилучшие логические закономерности первых четырех классовИнтерпретация первых четырех классов была следующая:- «cytoplasm»;- «inner membrane without signal sequence»;- «perisplasm»;- «inner membrane, uncleavable signal sequence».4.5.4. Прогноз свойств новых неорганических соединенийРазработка теоретических методов поиска новых неорганических веществ сзаданными свойствами является одной из важнейших проблем химии и материаловедения.Один из наиболее перспективных путей решения проблемы связан с использованиемнового подхода, возникшего на стыке химии и современной информатики - скомпьютерным конструированием неорганических веществ и материалов /68/. Основнаягипотеза, лежащая в основе этого метода: фундаментальные свойства многокомпонентныхнеорганических веществ при различных условиях (температуре, давлении, соотношениикомпонентов и т.д.) связаны периодическими зависимостями с фундаментальнымисвойствами химических элементов, входящих в их состав.
Существование такихзависимостейявляетсяследствиемПериодическогозаконаД.И.Менделеева.Предполагается, что многочисленные, известные к настоящему времени, неорганическиевещества подчиняются этим зависимостям.Задача поиска зависимостей в информации БД по свойствам неорганическихвеществ формулируется следующим образом.
Пусть i-ый химический элемент определеннабором M свойств (xi1, xi2,…, xiM). Тогда K-компонентное химическое соединениеописываетсяточкойвM*K-мерномпространствесвойствкомпонентов.Из-за%9989123периодичности свойств химических элементов, точки, соответствующие комбинациямблизких по химической природе элементов, должны образовывать компактные классы вэтом многомерном пространстве. Пусть существует некоторый набор химическихсоединений (в общем случае следует говорить о физико-химических системах,образованных различными элементами), для которых известна принадлежность к разнымклассам (обучающая выборка). При этом каждая физико-химическая система задаетсянабором значений свойств образующих ее элементов и/или более простых соединений(простых галогенидов, оксидов, халькогенидов и т.д.).
Необходимо построить в M*Kмерномпространствегиперповерхности(геометрическийаналогискомойзакономерности), разделяющие физико-химические системы одного класса от системдругих классов. Предполагается, что, вследствие периодичности свойств, полученныеразделяющиеповерхностиможноиспользоватьдляопределениястатусаещенеисследованных физико-химических систем. Этот процесс прогнозирования требуетзнания только свойств химических элементов или более простых соединений,образующих неизученную физико-химическую систему. Таким образом, задача поискавеществ, подобных уже исследованным, сведена к классической задаче обучения ЭВМклассификации объектов.Несмотря на множество алгоритмов обучения ЭВМ, поиск метода, наиболееподходящего для решения химических задач, как правило, осуществляется путем «проб иошибок».