Методология интеграции гетерогенных информационных систем по свойствам неорганических веществ (1090084), страница 45
Текст из файла (страница 45)
Из Периодического закона Д.И. Менделееваизвестно, что свойства химических элементов находятся в периодической зависимостиот атомного номера.Для решения проблемы заполнения неизвестных значений нами предложенследующий алгоритм с использованием метода “ближайших соседей” (рис. 7.1.1).Особо стоит отметить, что выполнение всех шагов согласно предлагаемому подходу,должновыполнятьсяспециалистом-химиком,обеспечивающимкорректностьпроводимых интерполяций с учетом специфики предметной области. Во-первых, изобучающей выборки удаляются признаки, имеющие больше 20 % (задается экспертом)пропусков, так как их информативность небольшая, но в случае заполнения пропусковони могут помешать правильному обучению системы. Заполнение же оставшихсяпропусков предлагается реализовать по следующему алгоритму с учетом особенностейпредметной области и Периодического закона [300].Пусть неизвестно свойство y химического элемента x, тогда проводится поискхимических элементов, из той же группы периодической системы, у которых искомоесвойство известно.
Указанные химические элементы, согласно Периодическому закону240должны быть «близкими» по набору значений свойств к тому, у которого требуетсязаполнить пропуск. Т.е. получаем парную или простейшую линейную регрессию:yt a bxt t ,где xt – вектор атомных номеров, yt – вектор значений свойств.Далееполученнаялинейнаярегрессиярешается,например,методомнаименьших квадратов (МНК) [304]. После проверки адекватности регрессионноймодели, например, по критерию Фишера, и значимости коэффициентов, например, покритерию Стьюдента, принимается решение об использовании значения свойства,вычисленного с использованием найденной модели.Рис.
7.1.1. Заполнение неизвестных значений с учетом специфики предметной области.Если модель получается неадекватной (в силу возможных «выбросов» значенийсвойств внутри группы), то предлагается следующая схема вычисления недостающегозначения. Находятся два «ближайших» элемента из той же группы с учетом ихатомного номера, при этом относительное «расстояние» по атомным номерам междуэлементами не должно превышать заданного экспертом значения. Для найденныхэлементов (xi-1, yi-1) и (xi+1, yi+1) проводится линейная интерполяция, т.е. в результатенеизвестное значение y вычисляется по формуле:241y yi 1 yi 1 yi 1 ( x xi 1 )xi 1 xi 1Если подходящие элементы для линейной интерполяции не найдены, тонеизвестное значение свойства элемента заменяется на среднее арифметическоезначение этого признака у объектов с равным классообразующим признаком:1 nt ty yint i 1где t – класс объектов, к которому относится объект с пропуском в признаковомописании, nt – количество объектов класса t в обучающей выборке, yit – значениеискомого свойства у i-го объекта того же класса.
Или же этот признак исключается изобучающей выборки (выбор эксперта).Предложенная методика заполнения пропусков в свойствах химическихэлементов является комбинированным способом вычисления, основанным, преждевсего, на методе Бака, применяемом с учетом предметной области. По сравнению сметодом, используемым в информационно-аналитической системе [301], основаннымна методе вычисления безусловных средних, обеспечивается меньшее занижениедисперсии и увеличение корреляции, что дает в результате более качественнуюинформацию для анализа алгоритмами распознавания образов, используемыми прикомпьютерном конструировании неорганических соединений.Отметим, что строго говоря, предложенная методика может использоваться идля обработки отсутствующих значений в свойствах веществ.
Например, для всехоксидов лантаноидов также наблюдается периодическая зависимость значений свойствот атомного номера химического элемента от лантана (La) до лютеция (Lu). В рамкахисследований были изучены линейные регрессионные модели для различных свойствсоединений лантаноидов с йодом, бромом, хлором, кислородом и фтором. При этомрассматривались следующие свойства:Tпл, K – температура плавления (в градусах по Кельвину);So298 K, кал/(моль*град) - энтропия при 298 K (кал/(моль*град));∆Hof298– энтальпия образования при 298 K (ккал/моль);сop298.15, кал/моль*град – теплоемкость при постоянном давлении и при 298 K(кал/моль*град);-∆Gof298 K, ккал/моль - изобарный потенциал образования при 298 K (ккал/моль).Для линейной регрессионной модели табличное значение критерия Фишерарассчитывалось с помощью встроенной в Excel функции FРАСПОБР(0,05;15;14),242значение которой составило 2,46.
Рассчитанное значение критерия Фишера для каждоймодели сведено в табл. 7.1 (столбец F). Также приводится отношение F/Fтабл.Соответственно, если данное соотношение больше единицы, то модель адекватна покритерию Фишера.Таблица 7.1. Часть таблицы прогноза образования соединений состава AIBIIIX2.Соединение (свойство)FF/Fтабл<Ln>I3 (Tпл, K)9,723,95o<Ln>I3 (S 298 K, кал/(моль*град)0,940,38o<Ln>I3 (-∆H f298, ккал/моль)122,9449,92o<Ln>I3 (с p298.15, кал/моль*град)0,000,00o<Ln>I3 (-∆G f298 K, ккал/моль)131,7653,50<Ln>Br3 (Tпл, K)33,5213,61o<Ln>Br3 (S 298 K, кал/(моль*град)7,142,90o<Ln>Br3 (-∆H f298, ккал/моль)29,9312,15o<Ln>Br3 (с p298.15, кал/моль*град)1,180,48o<Ln>Br3 (-∆G f298 K, ккал/моль)21,128,58<Ln>Cl3 (Tпл, K)0,270,11o<Ln>Cl3 (S 298 K, кал/(моль*град)0,470,19o<Ln>Cl3 (-∆H f298, ккал/моль)26,6010,80o<Ln>Cl3 (с p298.15, кал/моль*град)0,070,03o<Ln>Cl3 (-∆G f298 K, ккал/моль)20,238,22<Ln>2O3 (Tпл, K)8,243,35o<Ln>2O3 (S 298 K, кал/(моль*град)1,780,72o<Ln>2O3 (-∆H f298, ккал/моль)5,342,17o<Ln>2O3 (с p298.15, кал/моль*град)0,720,29o<Ln>2O3 (-∆G f298 K, ккал/моль)72,3929,39<Ln>F3 (Tпл, K)29,8612,12o<Ln>F3 (S 298 K, кал/(моль*град)0,010,00o<Ln>F3 (-∆H f298, ккал/моль)6,952,82o<Ln>F3 (с p298.15, кал/моль*град)1,490,60o<Ln>F3 (-∆G f298 K, ккал/моль)0,460,19Как видно из результатов сравнения F и Fтабл адекватно 14 из 25 регрессионныхмоделей.
Самые высокие значения отношения F/Fтабл были обнаружены у следующихмоделей:<Ln>I3 (-∆Gof298 K, ккал/моль)131,76<Ln>I3 (-∆Hof298, ккал/моль)122,94<Ln>2O3 (-∆Gof298 K, ккал/моль)72,39Приведем в качестве примера расчетов результаты построения линейнойрегрессионной модели для <Ln>I3 (-∆Hof298, ккал/моль), см. рис. 7.1.2 и для <Ln>I3 (∆Gof298 K, ккал/моль).243XY(-∆Ho, ккал/моль)(Y-Yсред)^2Yрасч(Y-Yрасч)^25758596061626364656667686970157156,3152,5150,2157153,4152147,6147144,5140,7140137,8138,196,9568444483,6615111128,586844449,28217777896,9568444439,0208444423,490177780,1995111110,0235111117,04017777841,6455111151,1701777887,4848444481,96284444158,6972157,048155,3989153,7497152,1006150,4514148,8023147,1531145,504143,8548142,2057140,5565138,9074137,25822,8803880,5595348,40344312,600524,004448,69414110,22550,1997052,238120,4162642,2670240,3097071,2262520,70860771Yсред=133,2147,1533333194,6955111135,6091S=a1=a0=5,80357580,5372-1,64915252,6988LaI3CeI3PrI3NdI3PmI3SmI3EuI3GdI3TbI3DyI3HoI3ErI3TmI3YbI3LuI3r^2FFтабл=a1a0-1,64929252,70760,1487470,90437122,9419,5414612,4890113761,640180,53719Модель адекватна F> Fтабл2,463003Рис.
7.1.2. Линейная регрессионная модель для <Ln>I3 (-∆Hof298, ккал/моль).244XY(-∆Go, ккал/моль)(Y-Yсред)^2Yрасч(Y-Yрасч)^2LaI3CeI3PrI3NdI3PmI3SmI3EuI3GdI3TbI3DyI3HoI3ErI3TmI3YbI35758596061626364656667686970174,665176,489172,709165,525158152,008155158,13161,368145,076140,535137,906136,95135452,7277508533,674682373,316498147,316478821,274233761,903296162,5998337622,4903577663,6867841669,08269456165,1893268239,6799386270,1946938338,1038338175,9008248172,6846089169,468393166,2521771163,0359611159,8197452156,6035293153,3873133150,1710974146,9548815143,7386656140,5224496137,3062337134,09001781,52726304914,4733915210,501533820,52878647225,3609044861,023363042,57130611622,49307676125,37062763,53019561710,263472966,8458086210,1269024430,828067673LuI371131,453481,1266772130,87380180,335470517Yсред=153,3876S=285,7801707a1=-3,216215929a0=359,2251328r^2FFтабл=a1a0-3,21636359,23450,2801980,910199131,764317,97354,688613132896,587285,7802Модель адекватна F> Fтабл2,463003Рис.