2. Жёсткость обучения
обучаемых систем управления
Идеальный закон обучения предполагает, что на каждом шаге обучения суммарная поправка проводимостей всех синапсов технического мозга должна приводить к полному устранению возникшей к данному шагу погрешности сигнала управления . Это требование, очень простое и удобное с теоретической точки зрения, не очень простое и не очень выполнимое по практическим соображениям. Возьмём для примера только одно свойство объекта управления, которое является неотъемлемым для него — инерционность. В силу инерционности любая попытка обучателя воздействовать физически на объект с целью уточнения его движений в процессе обучения методом «вождения за руку» или подталкиванием будет приводить к перерегулированию поправок проводимостей синапсов, так как объект будет реагировать на обучателя с некоторым опозданием. Другими словами, обучатель, воздействуя на объект желаемым образом с целью изменить его движения и не получая в силу инерционности желаемый отклик (объект не способен менять мгновенно скорости своих приводов), вынужден бессознательно, рефлекторно увеличить своё физическое воздействие на объект, а это уже вызовет чрезмерную поправку (перерегулирование) проводимостей синапсов. В результате после акта обучения на каждом шаге возникнет некоторая погрешность сигнала управления отдельным приводом, имеющая обратный знак по отношению к той, которая была до того.
Возможен и такой случай, когда обучатель по той или иной причине будет «не дожимать» объект, и тогда погрешность сигнала управления на каждом шаге обучения не сможет уменьшаться до нуля и будет в своей остаточной величине сохранять прежний знак. Одной из таких причин может быть индивидуальная особенность обучателя. Так или иначе в реальной обстановке, очевидно, всегда будет наблюдаться некоторое отклонение от идеального теоретического закона обучения, выражающееся в характерном для конкретного случая или для данного обучателя изменении пошаговой погрешности . И если иметь в виду только индивидуальные особенности обучателей, то более энергичные и нетерпеливые люди будут «дёргать» объект жестко и энергично, а флегматичны и осторожные — мягко и не торопясь; у первых поправки сигналов управления будут, скорее всего, чрезмерными, а у вторых — недостаточными; иначе говоря, разные люди будут подходить к обучению с разной жёсткостью.
Ранее погрешность мы определяли как разность между требуемым сигналом управления и фактическим , — и считали, что поправка сигнала управления , реализуемая актом обучения, равнялась погрешности. Теперь же мы предполагаем, что они не равны и что
, (3.15)
где — перерегулирование, характеризующее жёсткость обучения.
В общем случае перерегулирование может иметь как положительный знак (настоящее перерегулирование), так и отрицательный (своего рода — недорегулирование); может быть постоянной: =const или переменной: =var.
2.1. Общая закономерность жёсткого обучения
в двух ситуациях
Для выявления влияния жёсткости обучения на ход обучения проведём теоретическое обучение в двух ситуациях, но прежде уточним выражение для коррекции проводимостей синапсов. Сохраняя принцип саморегулирования и его линейный закон (1.9), изменим главное условие обучения: представим его с учётом (3.15) в виде:
.
Решая это выражение совместно с (1.19), получим
. (3.16)
Обозначим в выбранных двух ситуациях А и В требуемые сигналы управления соответственно как и и проведем теоретическое обучение на первых шагах.
Цикл 1-ый, шаг 1-ый, ситуация А:
; .
Поправки проводимостей синапсов в соответствии с выражением (3.16) определятся как
,
и таким же будут сами проводимости, так как их исходное состояние было нулевым:
.
Проведем контрольную проверку: после обучения в ситуации А предъявим снова ситуацию А и определим в ней фактический сигнал:
. (3.17а)
Цикл 1-ый, шаг 2-ой, ситуация В:
; ;
;
.
И снова проведем контрольную проверку:
. (3.17б)
Выражения
(3.17а) и (3.17б) позволяют сделать такой предварительный вывод: если после
обучения в какой-то ситуации предъявить снова эту же ситуацию, то фактический
сигнал управления в ней определится как
требуемый плюс перерегулирование
.
Дальнейшее теоретическое обучение продолжим спустя Т циклов. Предъявим ситуацию А:
; ;
;
.
Предъявим ситуацию В:
.
С учетом (3.17б) получим:
;
;
Предъявим снова ситуацию А:
Преобразуя с использованием выражения для погрешности предыдущего цикла, получим:
; (3.18а)
Выражение (3.18а) отражает закономерность изменения погрешности по циклам обучения при предъявлении ситуации А. Для подтверждения этой закономерности при предъявлении ситуации В завершим теоретическое обучение на предыдущем шаге и продолжим его на последующем:
;
Предъявим
ситуацию В:
.
После несложных преобразований получим
. (3.186)
Выражение (3.186) отражает закономерность изменения погрешности по циклам обучения при предъявлении ситуации В; оно полностью соответствует выражения (3.18а). Это даёт нам право утверждать, что любая погрешность сигнала управления последующего цикла соотносится с погрешностью предыдущего как
. (3.19)
Выражение (3.19) является функцией последования и
отличается от полученного ранее (2.11)
тем, что учитывает влияние перерегулирования .
Жёсткое
обучение с постоянным перерегулированием. Представим такое положение, что
обучатель имеет обыкновение усиливать своё физическое воздействие на объект
обучения, вызывая тем самым положительное перерегулирование . Охарактеризуем такое обучение как жёсткое и выявим его
влияние на ход обучения. Анализируя функцию последования (3.19), можно утверждать, что при любом положительном
значении и при погрешность последующего цикла
будет убывать более стремительно, чем без . Обеспечивается это
за счёт вычета величины .
Продемонстрируем процесс обучения с помощью точечных преобразований графика функции последования (рис. 3.1), но прежде определим порядок построения этого графика.
Рис. 3.1. График функции последования при жёстком
обучении
с постоянным перерегулированием
По оси абсцисс откладываем погрешность сигнала управления предыдущего цикла , а по оси ординат — ту же погрешность на последующем цикле . Имеется в виду, что обе погрешности — и предыдущая, и последующая — возникают при предъявлении одной и той же ситуации. Координатную плоскость разделяет биссектриса координатного угла 1(45°), с помощью которой можно переводить последующую погрешность в предыдущую . Через начало координат проведена ещё одна прямая, обозначенная как , определяющая зависимость без учёта перерегулирования ( — степень сходства образов ситуаций А и В). Вычет отразим в виде ещё одной наклонной прямой (на графике — штриховая линия); местоположение её определяется следующим образом. Отложим на оси предыдущей погрешности величину перерегулирования и восстановим из точки перпендикуляр к оси до пересечения с биссектрисой координатного угла 1(45°). Очевидно, отрезок определит проекцию величины перерегулирования на ось , а отрезок — проекцию на ту же ось величины . Если теперь провести линию, параллельную линии и смещенную в отрицательном направлении оси на величину , то есть проходящую через точку с, то получим как раз ту штриховую прямую вычета: .
Ход обучения
отразится на графике функции последования (рис. 3.1) следующим образом. Допустим, что исходная
предыдущая погрешность сигнала управления определяется точкой d.
Восстановим из этой точки перпендикуляр к оси до линии — поучим величину в проекции на ось вернёмся назад до
штриховой линии вычета (до точки е) — получим величину в проекции на ту же
ось ; это и есть согласно функции последования (3.19) величина последующей
погрешности . Спроецируем точку е
на ось — получим точку , ордината которой соответствует абсциссе точки d. На этом один цикл
обучения завершен; в результате предыдущая погрешность определяемая абсциссой
точки превратилась в последующую погрешность , определяемую
ординатой точки . Для того, чтобы
превратить последующую погрешность в предыдущую, воспользуемся биссектрисой
координатного угла: вернёмся от точки по линии до пересечения с биссектрисой
и опустим перпендикуляр на ось — пересечение с осью
определит новое положение предыдущей погрешности. Далее построение повторяется.
В результате, отбрасывая вспомогательные движения изображающей точки, получим
ступенчатую траекторию, стремящуюся к началу координат по коридору, ограниченному
двумя линиями: биссектрисой координатного угла и штриховой линией вычета.
Ступенчатая траектория, выделенная на графике функции последования (рис. 3.1) жирной ломаной линией и стремящаяся к
началу координат, отражает процесс обучения. Обучение будет завершено, очевидно,
тогда, когда погрешность сигнала управления окажется меньше наперёд заданного
допустимого отклонения e.
График функции последования (рис. 3.1) даёт наглядное представление о процессе обучения; из него видно, что жёсткость ускоряет обучение; особенно она эффективна тогда, когда степень сходства образов ситуаций велика и приближается к единице; без ужесточения обучения процесс затянулся бы надолго. Однако злоупотреблять жёсткостью обучения нельзя: ступенчатая траектория точечных преобразований на графике (рис. 3.1) может легко перескочить в область погрешностей обратного знака. Впрочем, это не так уж и страшно, имея в виду, что человек как обучатель, фиксируя не то направление движения объекта обучения, способен вернуть его в желаемое обратным по знаку воздействием. Такую обратную коррекцию можно отразить на графике последования (рис. 3.1) введя в левой полуплоскости дополнительную линию вычета, смещенную относительно линии в другую сторону. Ступенчатая траектория процесса обучения в левой полуплоскости также стремительно приближается к началу координат.
Анализ графика последования (рис. 3.1) даёт основание утверждать, что обучение может быть завершено за один шаг, если величину перерегулирования выбрать в конкретном случае такой, чтобы штриховая линия вычета проходила как раз через ту точку на оси абсцисс, которая определяет предыдущую погрешность , то есть:
.
Отсюда можно определить величину перерегулирования:
.
С учётом такого перерегулирования выражение для коррекции проводимостей синапсов (3.16) примет вид:
. (3.20)
Более подробно
случай одношагового обучения будет рассмотрен ниже.
Предельные циклы функции последования при жёстком обучении. Самым неприятным явлением при жёстком обучении может оказаться зацикливание процесса; на графике последования это выражается в так называемых предельных циклах. Допустим, при перескоке погрешности в полуплоскость противоположного знака знак перерегулирования сохраняется прежним. Такое едва ли возможно в том случае, когда действия объекта корректирует человек: видя, что движения объекта сменили направления, он, скорее всего, изменит направление подталкивания на обратное. Но если в качестве обучателя выступает не человек, а какая-то специальная техническая система, то несогласованность знака погрешности с направлением коррекции может возникать. Как это отразится на процессе обучения? На рис. 3.2 представлен график последования как раз такого случая.
Рис. 3.2. Предельные циклы при жёстком обучении
с постоянным перерегулированием
Ступенчатая траектория изображающей точки из правой положительной полуплоскости переходит в левую отрицательную и заканчивается в точке, где пересекаются биссектриса координатного угла 1(45°) и штриховая линия вычета. Если рассматривать процесс левее этой точки, то ступенчатая траектория меняет своё направление и устремляется уже вправо до той же точки пересечения. Таким образом, эта точка определяет предельный цикл; предельным он называется потому, что является пределом изменения погрешности, когда последующая погрешность становится равной предыдущей и никакого продвижения в обучении не наблюдается. Координаты предельного цикла можно определить из выражения (3.19), если приравнять в нём обе погрешности: ; в результате получим: .
Если рассматривать процесс обучения в области противоположного знака, то есть в другой полуплоскости, то будет наблюдаться простая симметрия относительно начала координат; предельный цикл сместится уже в положительную сторону и его координатой будет +. Оба предельных цикла можно считать простыми, так как в каждом их них предыдущая погрешность порождает равную себе последующую, и никаких других переходов нет.
Усложнение точечных преобразований возникает тогда, когда приходится рассматривать процессы положительной и отрицательной полуплоскостей совместно. При обычном обучении в двух ситуациях, начиная со 2-го цикла, погрешности сигналов управления в этих ситуациях расходятся в разные полуплоскости по знаку, ступенчатые траектории устремляются с разных сторон к началу координат, а точнее говоря — к своим предельным циклам; причём продвижение траекторий к центру неодинаковое: погрешность сигнала управления в одной ситуации может оказаться в одном и том де цикле сильно отличающейся по величине от погрешности в другой ситуации. Поэтому даже тогда, когда погрешность в одной ситуации стала меньше допустимого отклонения, обучение должно быть продолжено, если в другой она ещё больше. И может оказаться так, что такое продолжение обучения, необходимое для уменьшения погрешности во второй ситуации, породит перескакивание погрешности в первой ситуации через ось в другую полуплоскость за пределы допустимого отклонения. Получается так, что, когда погрешность в одной ситуации уменьшается, погрешность в другой в абсолютном значении увеличивается; потом при изменении знаков погрешностей всё происходит наоборот; и нет конца обучению.
Такое явление
иногда наблюдается при компьютерном расчёте проводимостей синапсов, когда
точность расчёта задаётся достаточно высокой, приближающейся к точности,
которую может обеспечить компьютер. В этом случае погрешность расчёта выступает
в качестве перерегулирования .
Предельный
цикл может возникнуть и тогда, когда коррекцию обучения задаёт человек, только
этот предельный цикл будет несколько сложнее. Разберем этот случай; допустим,
что обучатель правильно реагирует на изменение направления движения объекта и
правильно задаёт коррекции. На графике функции последования это выразится в
том, что штриховые линии вычета закончатся на оси ординат (рис. 3.3).
Рис. 3.3. Сложный предельный цикл
Если при этом
ступенчатая траектория перескакивает в противоположную полуплоскость по знаку,
то на следующем цикле обучения перерегулирование будет уже направлено в
противоположную сторону, так как штриховая линия вычета окажется с другой
стороны. Обратный переход ступенчатой траектории в первоначальную полуплоскость
может оказаться таким, что она приблизится к самой себе предыдущего цикла. В
конце концов может возникнуть замкнутая петля ступенчатой траектории (рис. 3.3), представляющая собой сложный предельный
цикл.
Определим
условия образования такого никла. Первое условие: в предельном цикле предыдущая
погрешность сигнала управления равна последующей:
.
Второе условие вытекает из геометрии предельного цикла (см. рис.3.3):
.
Объединив оба условия в одно, получим:
. (3.21)
Предельные циклы, и данный в том числе, характерны тем, что ступенчатые траектории точечных преобразований сползают к ним и заканчиваются ими, с какой бы стороны к ним не подходить. Начав движение ступенчатой траектории с больших значений погрешности мы обязательно упрёмся в предельный цикл; но, если даже начать движение с малых значений погрешностей: , — то ступенчатая траектория всё равно приведёт нас к тому же предельному циклу (рис. 3.3). Получается, таким образом, что предельный цикл является неизбежным, а это говорит о том, что обучение в нём становится бесконечным и безрезультатным.
Избавиться от предельного цикла можно только одним способом — свести его амплитуду к нулю; для этого, как следует из выражения (3.21), необходимо принять перерегулирование равным нулю. Но едва ли это возможно в реальной обстановке: чувствительность человека, выступающего в роли обучателя, не столь высока, чтобы улавливать малозаметные отклонения в движениях объекта управления и воздействовать на него строго соответствующим образом; к тому же, как говорилось выше, инерционность объекта будет непрестанно мешать обучателю в его тонкой работе. Амплитуда предельного цикла окажется равной нулю и в том случае, если ситуации А и В будут абсолютно несхожи: , — но это, во-первых, совершенно невероятно, а во-вторых, никак не зависит от обучателя.
Выход из того положения, когда обучение может зациклиться и стать бесконечным, надо искать в соотношении амплитуды предельного цикла и допустимых отклонений сигнала управления. Если предельный цикл загнать в зону допустимых отклонений e (рис. 3.3), то он становится безопасным; для этого необходимо выдержать условие: , которое с учётом выражения (3.20) изобразится как
. (3.22)
Зная
приблизительно степень сходства образов возможных парных ситуаций, можно
порекомендовать выбирать перерегулирование в соответствии с условием (3.22).
Жёсткое обучение с переменным перерегулированием. Говоря о предельных циклах и относясь к ним явно недоброжелательно, мы должны в то же время помнить, что они представляют собой всего лишь сопутствующий фактор в общем-то очень желательного явления — ускорения обучения в результате введения положительного перерегулирования . Если даже мы имели бы возможность обучать систему строго в соответствии о идеальным алгоритмом и, в частности, с выражением (1.15), то и тогда имело бы смысл искусственно ввести перерегулирование : уж очень выразителен эффект ускорения обучения. Остаётся только выбрать такую форму жёсткого обучения, которая не отягощалась бы возникновением предельных циклов.
Такая форма есть, это — жёсткое обучение с переменным перерегулированием, пропорционально зависящим от погрешности сигнала управления:
, (3.23)
где h — жёсткость обучения.
При таком перерегулировании выражение для коррекции проводимостей синапсов примет вид
, (3.24)
а функция последования (3.19) изобразится как
. (3.25)
Полученное выражение можно привести к более компактному виду
.
Представим функцию последования (3.25) в виде графика точечных преобразований (рис. 3.4).
Построение этого графика похоже на построение графика функции последования с постоянным перерегулированием (рис. 3.1) с той лишь разницей, что вычет теперь определяется выражением . Для того, чтобы выделить этот вычет вдоль всей оси , определим сначала его величину в точке d. Отрезок (a-b) в принятом масштабе осей графика равен величине ; если теперь перемножить эту величину на жёсткость обучения h, то получим вычет , предъявленный на графике отрезком (b-c). Отрезок (b-d) равен величине , так что отрезок (c-d), определяемый разностью отрезков (b-d) и (b-c), составит в соответствии с выражением (3.25) последующую погрешность . Проведённая через точку с и начало координат штриховая линия определит вычет вдоль всей оси .
Рис. 3.4. График
функции последования жесткого обучения
с переменным перерегулированием
Ступенчатая траектория, выделенная на графике рис. 3.4 жирной ломаной линией и располагающаяся в коридоре между биссектрисой координатного угла 1(45°) и штриховой линией вычета, и будет отражением точечных преобразований функции последования (3.25). Мы видим, что эта траектория устремляется к началу координат, и начало координат является для неё теоретическим пределом, то есть конечной точкой. На самом деле обучение завершается несколько раньше, а именно тогда, когда погрешность окажется меньше допустимого отклонения сигнала управления e. То, что предлагаемое переменное перерегулирование ускоряет процесс обучения, видно из сравнения полученной ступенчатой траектории с нормальной без перерегулирования, изображённой на графике рис. З.4 тонкой линией, расположенной в коридоре между биссектрисой 1(45°) и линией : число циклов обучения нормальной ступенчатой траектории значительно больше. К тому же предлагаемое перерегулирование, пропорциональное текущей погрешности, не порождает и не может породить в принципе предельный цикл, если не считать таковым замыкание ступенчатой изображающей траектории на начале координат.
Отмечая в общем сильное влияние на процесс обучения переменного перерегулирования, и в частности жёсткости h, не мешало бы выявить количественную связь между ними. Начнём с того, что определим границу между жёстким и мягким обучением; очевидно, при не будет ни того, ни другого, так как выражение (3.25) превращается в (2.11), характеризующее нормальное обучение; при положительных значениях — будет наблюдаться жёсткое обучение, а при отрицательных значениях — мягкое. Мягкое обучение рассмотрим ниже, а сейчас сосредоточим своё внимание на жёстком с пропорциональным погрешности перерегулированием.
Выражение (3.25) даёт основание утверждать, что с ростом жёсткости h последующая погрешность будет уменьшаться; но насколько? можно ли уменьшить эту погрешность сразу до нуля? Указанное выражение не препятствует этому, поэтому допустим такое; приравняв в выражении (3.25) погрешности , получим значение жёсткости h, при котором обучение должно завершиться за один шаг:
. (3.26)
При этом выражение для коррекции проводимостей синапсов примет точно такой же вид (3.20), как при одношаговом жёстком обучении с постоянным перерегулированием. На графике функции последования штриховая линия вычета при условии (3.26) совместится с осью абсцисс и ступенчатая траектория изображающей точки совершит только один шаг, то есть одну ступеньку, и сразу же окажется в начале координат. В такое трудно поверить, но это действительно так с небольшими поправками. Выражение (3.25) ведёт отсчёт от произвольной предыдущей погрешности сигнала управления, то есть от любого шага обучения, но это не значит, что отсчёт можно вести от первого шага первого цикла. Исследования показывают, что на первом цикле обучения только-только формируются начальные погрешности, и у них еще нет предыдущих значений. Поэтому вводить жесткое обучение на первом цикле не имеет смысла — там должен происходить нормальный процесс. И только с первого шага второго цикла и далее можно ужесточать обучение, а при условии (3.26) достаточно только одного первого шага второго цикла.
Не может быть задействовано пропорциональное перерегулирование и в конце обучения, на последнем шаге. Это объясняется тем, что любой акт жесткого обучения оставляет после себя некоторую погрешность сигнала управления, о чем свидетельствуют выражения (3.17а) и (3.17б). И только нормальное обучение без перерегулирования сводит погрешность к нулю. Следовательно, на последнем шаге (или на нескольких последних) ни жесткое обучение и ни мягкое недопустимы. Получается так, что самое короткое обучение должно состоять, по крайней мере, из двух циклов. Но то, что за эти два цикла можно обучить систему, — это не должно вызывать сомнения. В подтверждение сказанного приведем конкретный пример с двумя ситуациями.
Таблица 1.
Исходные данные
Ситуации |
Образ |
Требуемый сигнал |
|
|
|
|
управления |
А |
1 |
2 |
1 |
В |
2 |
1 |
2 |
Простейшие образы, состоящие всего из двух чисел, не должны нас смущать: это никак не влияет на ход обучения.
1-ый цикл, нормальное обучение:
1-ый шаг, ситуация А:
; .
Поправки проводимостей определяем по выражению (1.15):
; ;
; .
2-ой шаг, ситуация В:
; ;
; ;
; .
2-ой цикл, жесткое обучение:
Степень сходства образов А и В:
.
Жесткость h, обеспечивающая одношаговое обучение в соответствии с условием (3.26):
1-ый шаг, ситуация А:
; ;
Поправки проводимостей определим по выражению (3.23):
;
;
;
2-ой шаг, ситуация В:
;
Поправки проводимостей определим снова по выражению (1.15), то есть в нормальном режиме:
;
;
;
.
На этом обучение завершено. Проведём проверку:
· в ситуации А:
;
· в ситуации В:
.
Система обучена окончательно. Для сравнения можно сказать, что при нормальном обучении без ужесточения потребовалось бы, по крайней мере, семь полных циклов обучения, чтобы погрешность сигнала управления уложилась в 0,1; более точное обучение потребовало бы ещё большего числа циклов.
Что касается численных значений жёсткости h, приводящей к одношаговому обучению, то согласно выражения (3.26) оно полностью зависит от степени сходства образов : если ситуации абсолютно несхожи (= 0 ), то h = 0, и нет нужды проводить жёсткое обучение — и без него обучение будет завершено за один цикл; если ситуации схожи, допустим, наполовину (= 0,5), то h = 1; и наконец, если ситуации абсолютно схожи ( = 1), то h = ¥ а это означает, что невозможно реализовать необходимую жёсткость при обучении; впрочем, в этом случае бессмысленно какое-то бы ни было обучение, так как ситуации противоречивы. Получается так, что жёсткость обучения h можно изменять от нуля до какого-то определённого значения, дозволительного физически.
Мы
рассмотрели случаи, когда и когда ; осталось разобраться с обучением при , то есть при
сравнительно больших значениях жёсткости, отклоняющей линию вычета на графике
функции доследования ниже оси абсцисс. Такое возможно, если в выражении (3.25)
вычет окажется больше величины ,
в результате чего меняется на обратный знак последующей погрешности . Изменение знака последующей погрешности сигнала управления
хорошо демонстрируется на графике (рис. 3.5); такое изменение происходит на каждом
шаге обучения. Несмотря на чрезмерное перерегулирование, заложенное в данном
случае, ступенчатая траектория изображающей точки стремится к началу координат,
а это говорит о том, что процесс обучения — сходящийся. Конечно, нельзя утверждать,
что чрезмерное перерегулирование, какое рассматривается в данном случае, —
благо, но никакого особого ущерба обучению оно не наносит.
Рис. 3.5. График
функции последования жёсткого обучения
с чрезмерным перерегулированием
Мягкое обучение в двух ситуациях. Рассмотрим теперь такое положение, когда обучатель «не дожимает» объект и когда остаточная после акта обучения погрешность сохраняет свой прежний знак; перерегулирование имеет в этом случае отрицательное значение и может характеризоваться как недорегулирование. Функция последова-ния (3.19) несколько изменит свой вид:
. (3.27)
В ней составляющая представляет уже теперь не вычет, а добавку. Как и при жёстком обучении изменение воздействия обучателя (в данном случае — недорегулирование) может быть постоянным или переменным. Постоянное недорегулирование отразится на графике функции исследования (рис. 3.6) штриховой линией добавки, смещенной относительно линии в положительную сторону оси . Точное положение штриховой линии добавки определяется следующим образом. Отложим на оси величину, равную недорегулированию, и восстановим из точки перпендикуляр к оси до пересечения с биссектрисой координатного угла 1(45°). Очевидно, отрезок ( b-) будет определять в масштабе осей графика величину , а отрезок (a-b) — в том же масштабе величину . Следовательно, если провести через точку прямую, параллельную линии (на графике рис. 3.6 — штриховая), то получим линию, определяющую добавку на всём диапазоне изменения предыдущей погрешности .
Рис. 3.6. График
функции последования при мягком обучении
с постоянным недорегулированием
Ступенчатые траектории, отражающие процесс обучения и расположенные в коридоре между биссектрисой 1(45°) и штриховой линией добавки, имеющие малую исходную погрешность и большую, устремляются, как видно из графика рис. 3.6, с обеих сторон к точке а. Таким образом, эта точка определяет предельный цикл, говорящий о том, что, какой бы ни была исходная предыдущая погрешность сигнала управления , результате обучения установится окончательная погрешность, равная величине недорегулирования . Если окажется меньше допустимого отклонения e, то обучение будет иметь конец; если — больше, то обучение станет безуспешным; и наконец, если величина недорегулирования будет значительно превосходить e и исходные погрешности , то процесс обучения окажется расходящимся.
Главным выводом из анализа графика функции исследования (рис. З.6) является то, что мягкое обучение, даже если оно заканчивается благополучно, затягивает процесс обучения (для сравнения на графике показана ступенчатая траектория нормального обучения, расположенная между линией и биссектрисой координатного угла); никаких видимых преимуществ мягкое обучение не создаёт.
То же самое наблюдается и при переменном недорегулировании, в частности пропорционально зависящем от погрешности сигнала управления, отражённом выражением (3.23). Функция последования (3.25), очевидно, изменит свой вид:
, (3.28)
а выражение для
коррекции проводимостей синапсов (3.24) изобразится уже как:
. (3.29)
Представим функцию наследования (3.28) в виде графиков точечных преобразований (рис. 3.7). График а) соответствует ослабленному, недостаточному физическому воздействию обучателя на объект обучения, когда 0 < h < 1; график б) отражает обратное, ошибочное воздействие обучателя, когда h > 1. Если жёсткость h равна нулю, то это означает, что воздействие обучателя строго соответствует погрешности , и процесс обучения имеет нормальный вид. Промежуточное положение, когда h = 1, говорит о том, что нет никакого воздействия обучателя и нет никакого обучения; подставив это значение жёсткости h в выражение (3.28), получим .
Рис. 3.7. Графики
функции доследования при мягком обучении
с переменным не дерегулированием
Из графика (рис. 3.7,а) видно, что обучение с введением недоре-гулирования (-) затягивается; для сравнения приведена ступенчатая траектория точечных преобразований нормального обучения, располагающаяся между биссектрисой координатного угла и линией — число циклов у неё всегда меньше. Что же касается графика рис. 3.7,б, то он свидетельствует о расходящемся процессе обучения.
В действительности воздействия обучателя могут принимать различные формы, но все они с некоторой долей приближения при мягком обучении будут соответствовать рассмотренным случаям, и всегда мягкое обучение пойдет во вред; поэтому рекомендовать его никак нельзя.
2.2. Жёсткое
обучение в трёх ситуациях
Покажем, что общая закономерность ускоренного жёсткого обучения распространяется не только на две ситуации, но и на большее их число. Для этого проведём теоретическое обучение в трёх ситуациях А, В и С с отмеченным ранее перерегулированием . Допустим, что до начала теоретического жёсткого обучения уже проведено нормальное обучение в Т циклах, в результате чего сформировались проводимости синапсов . После очередного предъявления ситуации А будем иметь:
.
Корректируя проводимости синапсов в соответствии с выражением (3.15), получим:
;
.
После завершения обучения в ситуации А предъявим ситуацию В:
;
.
В ситуации С:
Снова предъявим ситуацию А:
Подставляя в полученное выражение , получим:
Такой же вид погрешность приобретает и при дальнейшем обучении:
В общем виде выражение для погрешности сигнала управления изобразится как
(3.30)
где t — очередной шаг обучения.
Сравним полученное выражение с выражением (2.35), характеризующим нормальное обучение в тех же трёх ситуациях; оно отличается величиной . Для того, чтобы выяснить: уменьшает ли эта величина абсолютное значение погрешности сигнала управления или увеличивает, — воспользуемся анализом выражения (2.35а), проведённое ранее. Согласно нему погрешность в любой ситуации при смещении на цикл вероятнее всего сохраняет свой знак; а если это так, то указанная величина будет вычитаться и уменьшать результирующую погрешность , ускоряя тем самым обучение. Правда, может возникнуть такое положение, когда вычитаемая величина окажется больше основной, но и в этом случае наиболее вероятно уменьшение абсолютного значения результирующей погрешности , хотя и со сменой знака. И только когда по стечению обстоятельств погрешность при нормальном обучении в одной и той же ситуации при смещении на цикл изменяет свой знак, только тогда перерегулирование , если его ввести, будет притормаживать обучение; не такое положение маловероятно.
Таким образом, ужесточение обучения введением перерегулирования , как и в случае с двумя ситуациями, ускорит обучение, и, наоборот, мягкое обучение (< 0) замедлит его. Ускорение обучения может достичь, как и при двух ситуациях, таких пределов, что достаточным окажется один цикл, а точнее говоря — только два шага одного цикла; условие такого предельного ускоренного обучения можно получить из выражения (3.30) с учётом (2.35а), если принять, что результирующая погрешность равна нулю:
(3.31)
В левой части условия (3.31) находится соответствующая погрешность предыдущего цикла, умноженная на степень сходства образов текущей и предыдущей ситуаций; чем больше указанная степень сходства, тем более эффективно введение перерегулирования , то есть жёсткости обучения.
Не трудно предположить, что ужесточение обучения будет благотворно влиять на ход обучения при четырёх и более ситуациях в обучаемой выборке, а смягчение — будет приводить, как правило, к затягиванию обучения.