Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика, страница 7
Описание файла
DJVU-файл из архива "Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика", который расположен в категории "". Всё это находится в предмете "системы автоматизированного проектирования (сапр)" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "интеллектуальные подсистемы сапр" в общих файлах.
Просмотр DJVU-файла онлайн
Распознанный текст из DJVU-файла, 7 - страница
наличие или отсутствие сбоев в 1-м анализируемом технологическом процессе, месторождений полезных ископаемых на !хм обследованном участке, заболевания у 1-го обследуемого пациента в задачах диагностики; конкретный содержательный смысл распознаваемого зрительного или слухового образа в задачах п. З.З). Разница между задачами типа 3.1 и задачами 3.2 и З.З заключается в том, что в задачах прогноза экономико-социологических ситуаций информация Г, об исследуемом результирующем свойстве объекта не является окончательной, т. е.
не задает однозначно, как это делается а задачах 3.2 и 3.3, образа (класса, типа), к которому относится этот объект. Эта информация в задачах типа 3.1 носит лишь промежуточный характер и представляется, как правило, в виде вектора результирующих показателей = (у! ',..., у!'!)'. Поэтому в отличие от задач 3.2 и З.З (в которых уже «на входе» задачи имеем распределение анализируемых объектов-векторов Х, по классам, что и составляет так называемую «обучающую выборку») в задачах типа 3.1 нужно предварительно осуществить простую типологизацню множества объектов (0,) (1'. =- 1, ..., и) в простран' стве результирующих показателей и лишь затем исполь- зовать полученные в результате этой типологизации классы в качестве обучакяцих выборок для построения классифицирующего правила в пространстве описательных признаков П (Х). «На выходе» же всех задач типа ЗИ вЂ” 3.3 должны быть !) набор наиболее информативных объясняющих переменных (так называемых ти»ообразующих признаков) г<'> (Х), г<«> (Х), ..., гое> (Х), которые либо отбираются по определенному правилу из числа исходных описательных признаков хп>, х>»>, ..., х>е>, либо строятся в качестве некоторых их комбинаций; 2) правило отнесения (дискриминантная функция, классификатор) каждого нового объекта 0«, заданного значениями своих описательных признаков Х', к одному из заданных (или выявленных в процессе предварительной простой типологизации) в пространстве П (У) классов или образов.
При этом типообразующие признаки У =— ==(гы> (Х), ..., г<м> (Х))' и искомое правило классификации должны быть подобраны таким образом, чтобы обеспечивать наивысшую (в определенном смысле) точность решения задачи отнесения объекта к одному из анализируемых классов по заданным значениям его описательных признаков Х. Из сформулированных выше конечных целей классификации видно, что тематику разбиения многомерных данных на однородные (в определенном смысле) группы подчас трудно отделить от задач снижения размерности исследуемых данных. Однако прикладные цели методов снижения размерности не исчерпываются сформулированной выше задачей перехода от исходного набора описательных признаков хи>, ..., х>е> к существенно более скромному (по численному составу) набору так называемых типообразующих признаков г<'> (Х), ..., гие> (Х), которые являются наиболее характерными, наиболее определяющими с точки зрения полноты и точности разбиения исследуемых объектов на классы.
Выделим в качестве основных следующие типовые прикладные задачи снижения размерности анализируемого признакового пространства, обслуживаемые соответствующими разделами многомерного статистического аналчза. «. Отбор наиболее информативных показателей (включая выявление латентных факторов).
Речь идет об отборе из исходного (априорного) множества признаков Х = (ха>, ..., ..., хге>)' или построении в качестве некоторых комбинаций исходных признаков относительно небольшого числа р' переменных У (Х) = (ги> (Х), ..., гое> (Х))', которые обладали бы свойством наибольшей информативности в смысле, определенном, как правило, некоторым специально подобранным для каждого конкретного типа задач критерием информативность !„; (г.). Так, например, если критерий („. (2) «настроень на достижение максимальной точности регрессионного прогноза некоторого результирующего количественного показателя у по известным значениям предикторных переменных х<'>, х<'>, ..., х<е>, то речь идет о наилучшем подборе наиболее существенных предикторов в модели регрессии (11, 5 8.71.
Если же критерий (и (Я) устроен таким образом, что его оптимизация обеспечивает наивысшую точность решения задачи отнесения объекта к одному из классов позначениям Х его описательных признаков, то речь идет о построении системы типообразующих признаков в задаче классификации (см.
В 1А, 2.5, 2.6, гл. 11) нли о выявлении и интерпретации неноторои сводной (латентной) характеристики изучаемого свойства (см. гл. 16). Наконец, критерий 7, (Я) может быть нацелен на максимальную авто- информативность новой системы показателей Я, т. е. на максимально точное воспроизведение всех исходных признаков х«>, х<«', ..., х<и по сравнительно небольшому числу вспомогательных переменных г<'<, ..., г<гч (р' (( р). В этом случае говорят о наилучшем ов<попрогнозе и обращаются к моделям и методам факторного анализа и его разновидностей (см. гл. 13 и 14). 1!.
Сжатие массивов обрабатываемой и хранимой информации. Этот тип задач тесно связан с предыдущим и, в частности, требует в качестве одного из основных приемов решения построения экономной системы вспомогательных признаков, обладающих наивысшей автоинформатнвностью, т. е. свойством наилучшего автопрогноза (см. выше). В действительности при решении достаточно серьезных задач сжатия больших массивов информации (подобные задачи весьма актуальны и в плане необходимости минимизации емкостей носителей, на которых хранится архивная информация, и в плане экономии памяти ЭВМ при обработке текуи<ей информации) используется сочетание методов классификации и снижения размерности.
Методы классификации позволяют подчас перейти от массива, содержащего информацию по исе . и статистически обследованным объектам, к с<ютветствующей информации только по и эталонным образцам (й (( п), где в качестве эталонных образцов берутся специальным образом отобранные наиболее типичные представители классов, полученных в результате операции разбиения исходного множества объектов на однородные группы.
Методы же снижения размерности позволяют заменить исходную систему показателей Х = (х<'>, ..., х~'>)' набором вспомогательных (нанболее автоинформатнвных) переменных Л (Х) = (г<м (Х), ..., г<ь'> (Х))', Таким образом, размерность информационного массива понижается от рХп до р' хй, т.е. во многие десятки раз, если учесть, что р' и й обычно на порядки меньше соответственно р и и. 1П. Визуализация (наглядное представление) данных. Вернемся к примеру В.1. При проведении простой типологизации семей в «пространстве поведения> приходится иметь дело с множеством точек (семей) в 98-мерном пространстве'.
А для формирования рабочих гипотез, исходных допущений о геометрической и вероятностной природе совокупности анализируемых данных У"м ..., Уе важно было бы суметь «подсмотреть», как зти данные точки располагаются в анализируемом пространстве П ()'). В частности, уже на предварительной стадии исследования хотелось бы знать, распадается ли исследуемая совокупность точек на четко выраженные сгустки в этом пространстве, каково примерное число этих сгустков и т.д.р Но максимальная размерность «фактически осязаемого» пространства, как известно, равна трем Поэтому, естественно, возникает проблема: нельзя ли спроецировать анализируемые многомерные данные из исходного пространства на прямую, на плоскость, в крайнем случае — в трехмерное пространство, но так, чтобы интересукнцие нас специфические особенности исследуемой совокупности (например, ее расслоенность на кластеры), если они присутствуют в исходном пространстве, сохранились бы и после проецирования.
Следовательно, и здесь речь идет о снижении размерности анализируемого признакового пространства, но снижении, во-первых, подчиненном некоторым специальным критериям и, во-вторых, оговоренном условием, что размерность редуцированного пространства не должна превышать трех. Аппарат для решения подобных задач называется в книге ««(еленапралленмеьм проецированием» многомерных данных и излагается в гл. 18 — 20.
1Ч. Построение условных координатных осей (многомерное шкалирование, латентно-структурный анализ). В данном типе задач снижение размерности понимается иначе, чем прежде. До сих пор речь шла о подчиненном некоторым специальным целям переходе от заданной координатной системы Х (т. е. от исходных переменных к<'>, х<з>, ..., хоо) к новой координатной системе Е (Х), размерность которой р' существенно меньше размерности р и оси которой Оды~, ..., Ох<к> конструируются с помощью соответстйующих преобра- ' Размерность вектора К, т. е. число статей, но которым фиксируются удельные семейные расходы н бюджетных обследованиях, равна 98. зований осей Ох<'У, ..., Охов!.
Теперь же рассматриваем ситуацию, когда исходной содержательно заданной координатной систелин не существует вовсе, а подлежащие статистическому анализу данные представлены в виде (В.!'), т. е. в виде матрицы А попарных отношений а„(ц !' = 1, 2,...,л) между объектами (см. (В.1')). Ставится задача: для заданной, сравнительно невысокой, размерности р' определить вспомогательные условные координатные оси Огпу, „., Ог<яч и способ сопоставления каждому объекту О, его координат г',", ..., г~л ') в этой системе таким образом, чтобы попарные отношения аы (Я) (например, попарные взаимные расстояния) между объектами, вычисленные исходя из их содержательного смысла на базе этих условных координат, в определенном смысле минимально бы отличались от заданных величин а„((, ! — 1, 2, ..., и).