Круглов В.В., Борисов В.В. - Искусственные нейронные сети (ИНС) Теория и практика (778918), страница 59
Текст из файла (страница 59)
Начиная со случайной выборки из И точек, расположение центров кластеров последовательно корректируется таким образом, чтобы каждая из И точек относилась ровно к одному иэ К кластеров, и центр каждого кластера совпадал с центром тяжести относящихся к нему точек. алгоритмы минимизации функции — алгоритмы, используемые для поиска минимума, в частности, в нелинейном оценивании, при этом здесь минимизируется заданная функция потерь.
алгоритмы минимизации функций, свободные от производных — алгоритмы минимизации функций, использующие различные стратегии поиска (которые не зависят от производных второго порядка) для нелинейного оценивания. Эти стратегии наиболее эффективны при минимизации функции потерь, имеющей локальные минимумы. байесовы сети — сети, чей принцип действия основан на теореме Байеса, позволяющей сделать выводы о распределении вероятностей на основании имеющихся данных быстрое распространение — эвристическая модификация алгоритма обратного распространения, где для ускорения сходимости применяется простая квадратичная модель поверхности ошибок (которая вычисляется отдельно для каждого веса). вероятностные нейронные сети (РММ) — вид нейронных сетей для задач классификации, где плотность вероятности принадлежности классам оценивается посредством ядерной аппроксимации.
Один из видов так называемых байесовых сетей. встряхивание весов — добавление к весам нейронной сети небольших случайных величин с целью обойти локальные минимумы в пространстве ошибок. выбросы — нетипичные или редкие значения, которые существенно отклоняются от распределения остальных выборочных данных. Эти данные мокнут отражать истинные свойства изучаемого явления (переменной), а могут быть связаны с ошибками измерения или аномальными явлениями, и поэтому не должны включаться в модель. гауссово распределение — то же, что и нормальное распределение (с формой колокола). генетический алгоритм — алгоритм поиска оптимальной битовой строки, который случайным образом выбирает начальную популяцию таких строк и затем подвергает их процессу искусственных мутаций, скрещивания и отбора по аналогии с естественным отбором генетический алгоритм отбора входных данных — применение генетического алгоритма к нахождению оптимального набора входных переменных путем построения битовых масок, обозначающих, какие из переменных следует оставить на входе, а какие удалить.
Этот алгоритм может служить этапом построения модели, на котором отбираются наиболее существенные переменные; затем отобранные переменные используются для построения обычной аналитической модели (например, линейной регрессии или нелинейного оценивания). 368 гетероассоциативная сеть — сеть, в которой устанавливаются соответствия между произвольно выбранными входными и выходными векторами гиперболический тангенс (Гапб) — симметричная функция с 3- образной (сигмоидальной) формой графика; используется как альтернатива логистической функции.
гиперплоскость — И-мерный аналог прямой линии или плоскости, делит (И+1)-мерное пространство на две части. гиперсфера — И-мерный аналог окружности или сферы горизонт (для нейронных сетей) — у нейронных сетей для анализа временных рядов — число шагов по времени, считая от последнего входного значения, на которое нужно спрогнозировать значения выходной переменной. градиентный спуск — совокупность методов оптимизации нелинейных функционалов (например, функции ошибок нейронной сети, когда веса сети рассматриваются как аргументы функции), где с целью поиска минимума происходит последовательное продвижение во все более низкие точки в пространстве поиска.
два значения (для нейронных сетей) — способ кодирования значений номинальных переменных, принимающих только два значения, при котором номинальной переменной соответствует один входной или выходной элемент, который может быть активен или неактивен дельта — дельта с чертой (г(е((а-Ьаг-г(еда) — эвристическая модификация алгоритма обратного распространения для нейронных сетей, имеющая целью автоматическую коррекцию скорости обучения по каждой из координатных осей в пространстве поиска с тем, чтобы учесть особенности его топологии диаграмма кластеров (для нейронных сетей) — точечная диаграмма, на которой наблюдения из разных классов представлены на плоскости. Координаты на плоскости соответствуют выходным уровням некоторых нейронов сети интерполяция — восстановление значения функции в промежуточной точке по известным ее значениям в соседних точках.
квадратическая функция ошибок — функция ошибок, равная сумме (взятой по всем наблюдениям) квадратов разностей требуемых и реальных значений квази-ньютоновский метод — процедура нелинейного оценивания, вычисляющая на каждом шаге значения функции в различных точках для оценивания первой и второй производной, и использующая зти данные для определения направления изменения параметров и минимизации функции потерь. классификация — отнесение наблюдения к одному из нескольких, заранее известных классов (представленных значениями номинальной выходной переменной). кодирование И-в-один (для нейронных сетей) — для номинальных переменных с числом значений, большим двух, — способ представления 369 переменной с помощью одного элементов сети через его различные выходные значения. кодирование один-из-Н (для нейронных сетей) — представление номинальной переменной с помощью набора входных или выходных элементов — по одному на каждое возможное номинальное значение.
Во время обучения сети один из этих элементов бывает активен, а остапьные— неактивны Кохонена обучение — алгоритм, размещающий центры кластеров радиального слоя посредством последовательной подачи на вход сети обучающих наблюдений и корректировки положения центра выигравшего (ближайшего) радиального элемента и соседних с ним в сторону обучающего наблюдения. Кохонена сети — нейронные сети, основанные на воспроизведении топопогических свойств человеческого мозга.
Известны также как самоорганизующиеся карты признаков (ВОЕМ). кросс-проверка — процедура оценки точности прогнозирования с помощью данных из специальной тестовой выборки (используется также термин «кросс-проверочная выборка») путем сравнения точности прогноза с той, что достигается на обучающей выборке. В идеале, когда имеется достаточно большая выборка, часть наблюдений (например, половину или две трети) можно использовать для обучающей выборки, а оставшиеся наблюдения — для тестовой. Если на тестовой выборке модель дает результаты того же качества, что и на обучающей выборке, то говорят, что модель хорошо прошла кросс-проверку, Для выполнения кросс-проверки при малых объемах выборки разработаны специальные методы, в которых тестовая и обучающая выборки могут частично пересекаться.
кросс-проверка (для нейронных сетей) — то же самое, что и вообще кросс-проверка. Применительно к нейронным сетям заключается в использовании во время итерационного обучения дополнительного множества данных (контрольного множества). В то время, как обучающее множество используется для корректировки весов сети, контрольное множество служит для независимой проверки того, как нейронная сеть научилась обобщать информацию. кросс-энтропия (для нейронных сетей) — функция ошибок, основанная на теоретико-информационных характеристиках Особенно хорошо подходит для задач классификации Имеется два варианта дпя сетей с одним выходом и для сетей с несколькими выходами. В первом варианте используются логистические функции активации, во втором — так называемые функции софтмакс.
Левенберга-Марквардта алгоритм — алгоритм нелинейной оптимизации, использующий для поиска минимума комбинированную стратегию — линейную аппроксимацию и градиентный спуск. Переключение с одной стратегии на другую происходит в зависимости от того, была ли успешной линейная аппроксимация. Такой подход называется моделью доверительных областей. 370 линейная функция активации — тождественная функция активации выходной сигнал элемента совпадает с его уровнем активации линейное моделирование — аппроксимация дискриминантной или регрессионной функции с помощью гиперплоскости.
Для этой гиперплоскости с помощью простых вычислений может быть найден глобальный оптимум. Однако таким образом нельзя построить адекватные модели дпя многих реальных задач. линейные нейроны — нейроны, имеющие линейную постсинаптическую (РЗР) функцию. Уровень активации такого нейрона представляет собой взвешенную сумму его входов, из которой вычитается пороговое значение (зто называется также скалярным произведением или линейной комбинацией). Этот тип нейронов обычно используется в многослойных персептронах . Несмотря на название, линейные нейроны могут иметь нелинейные функции активации логистическая функция — функция с Я-образной (сигмоидной) формой графика, принимающая значения из интервала (О, 1).
локальные минимумы — в большинстве практических приложений локальные минимумы функции потерь приводят к неправдоподобно большим или неправдоподобно малым значениям параметров с очень большими стандартными ошибками Симплекс-метод нечувствителен к таким минимумам, поэтому он может быть использован для отыскания подходящих начальных значений для сложных функций. матрица несоответствий (для нейронных сетей) — в задачах классификации так иногда называют матрицу, в которой для каждого класса наблюдений приводится количество наблюдений, отнесенных сетью к этому и другим классам. матрица потерь — квадратная матрица, при умножении которой на вектор вероятностей принадлежности к классам получается вектор оценок потерь от ошибок классификации. На основе этого вектора можно принимать решения, приводящие к наименьшим потерям.
метод наименьших квадратов — общий смысл оценивания по методу наименьших квадратов заключается в минимизации суммы квадратов отклонений наблюдаемых значений зависимой переменной от значений, предсказанных моделью метод Розенброка — метод нелинейного оценивания, вращающий пространство параметров, располагая одну ось вдоль «гребня» поверхности (он называется также методом вращения координат — гпе(лог( о( гога!)п9 сооггйпа(ез), при этом все другие остаются ортогонапьными относительно выбранной оси.
Если поверхность графика функции потерь имеет одну вершину и различимые «гребни» в направлении минимума этой функции, то данный метод приводит к очень точным значениям параметров, минимизирующим функцию потерь. метод сопряженных градиентов — быстрый метод обучения многослойных персептронов, осуществляющий последовательный линейный поиск в пространстве ошибок. Последовательные направления поиска выбираются сопряженными (не противоречащими друг другу). 371 метод Хука — Дживса — метод нелинейного оценивания, который при каждой итерации сначала определяет схему расположения параметров, оптимизируя текущую функцию потерь перемещением каждого параметра по отдельности.