6. Реализация технического
мозга
Компьютерный мозг. Самой простой
реализацией мозга обучаемых систем управления является вычислительный или компьютерный
вариант, в основу которого положена математическая модель этих систем. У
такого варианта много общего с числовым программным управлением (ЧПУ) станков;
отличие состоит лишь в том, что законы управления не определяются логически и
не задаются на стадии проектирования или программирования, а вырабатываются
автоматически в процессе обучения. Во всем остальном вычислительная обучаемая
система управления похожа на системы числового программного управления. Сбор
информации осуществляется путём опроса рецепторов, выполняющих функции
датчиков. Проводимости синапсов представлены в виде весовых коэффициентов, хранимых
в памяти компьютера. Если у объекта управления имеется несколько
исполнительных органов, то каждому из них соответствуют свои весовые
коэффициенты. Расчёт величин сигналов управления выполняется последовательно
для всех приводов по формуле (1.2).
Обучение системы производится по алгоритму, заложенному в математической модели
обучения. Для этого в каждой ситуации обучаемой выборки обучатель задаёт
требуемый сигнал управления и назначает его
допустимое отклонение. Далее выполняется само обучение: предъявляется очередная
ситуация; осуществляется опрос рецепторов; вычисляется фактический сигнал
управления но формуле (1,12);
определяется погрешность сигнала по формуле (1.13); проверяется условие (1.14) и, если оно выполняется, то переходят к
следующей ситуации; если же это условие не выполняется, то рассчитывают новые
скорректированные значения весовых коэффициентов по формулам (1.15) и (1.16). После этого следует очередная
ситуация, и так далее. Обучение может производиться в ускоренном варианте; для
этого сначала опрашиваются рецепторы не в одной какой-то ситуации, а последовательно
во всех, и значения их возбуждении заносятся в память компьютера; далее
выполняются все необходимые вычисления по алгоритму обучения, и полученные
окончательные значения весовых коэффициентов заносятся в память машины. На этом
обучение заканчивается и можно приступить к работе. Как видно из пояснений,
вычислительный вариант обучаемой системы управления четко различает режимы
обучения и работы: обучение осуществляется по алгоритму, включающему выражения
(1.12)...(1.16), а работа —
в соответствии с формулой (1.2).
Компьютерный вариант имеет свои преимущества и свои недостатки. К преимуществам следует отнести простоту компоновки всего устройства управления на том этапе, когда нет серийно выпускаемых других обучаемых систем управления: система может быть собрана из блоков числового программного управления и легко запрограммирована на обучение и работу. Недостатками компьютерного варианта являются относительные громоздкость, дороговизна и, может быть — самое главное, медлительность в работе. По сравнению, например, с аналоговым вариантом ОСУ2000х12Граф-1991, весящим менее полкилограмма и умещающимся на ладони, компьютерный вариант проигрывает и в размерах, и в цене. Медлительность компьютера, используемого в управлении машинами, общеизвестна и объясняется тем, что все свои операции он выполняет последовательно.
Говоря о вычислительном варианте, стоит иметь в виду, что могут бить созданы специальные микропроцессоры под обучаемые системы управления с заложенными в них неизменными программами обучения и работы, стоимость и размеры которых сделали бы их конку-рентноспособными. Они могли бы, может быть, легко осуществлять параллельную обработку рецепторной информации; принципиальных трудностей в реализации этого нет. Указанные микропроцессоры могли быть специализированы по своим функциям: одни из них — только для обучения, а другие — только для работы. Такая специализация желательна в тех случаях, когда редко приходится заниматься переобучением, а иногда в этом нет вообще никакой необходимости, например в случае со сварочным роботом для электродуговой сварки: обученный однажды в заводских условиях он способен работать потом без переобучения и без перепрограммирования. Микропроцессорный вариант обучаемой системы особенно выгоден тогда, когда в дискретном режиме работают и все другие элементы системы Переведя, например, рецепторы с аналогового на частотно-импульсный режим работы, можно существенно повысить надёжность передачи снимаемой с них информации: она не будет искажаться при изменении электрического сопротивления информационных каналов.
Технический мозг с синапсами в виде подстроечных транзисторов. Обучение с использованием компьютера производится и тогда, когда в качестве синапсов применяются регулируемые вручную резисторы. На рис. 1.9 представлен фрагмент электрической схемы обучаемой системы управления, синапсы мозга которой выполнены в виде подстроечных резисторов, например потенциометров. Выходы каждого такого резистора подключены к парным столбцам матрицы мозга: один выход — к плюс-столбцу, а второй — к минус-столбцу, — а вход (ползун) соединён с отдельным рецептором. В схеме предусмотрены разъёмы между рецепторами и строчными шинами мозга.
Рис.1.9. Фрагмент электрической схемы обучаемой системы управления. Синапсы выполнены в виде подстроечных резисторов (потенциометров)
В среднем положении ползуна потенциометра рецепторная доля сигнала управления делится пополам: ; при всяком смещении ползуна такое соотношение нарушается, и соответствующий рецептор становится либо возбуждающим тормозящим .
Обучение системы включает:
· разработку стратегии обучения, подбор ситуаций в обучаемую выбору, задание сигналов управления и их допустимых отклонений во всех ситуациях;
· замеры возбуждений рецепторов во всех ситуациях обучаемой выборки;
· расчёт проводимостей синапсов по математической модели обучения и перерасчет их на сопротивления плеч потенциометров;
· настройку потенциометров.
Рассмотрим конкретный пример обучения. Допустим, обучаемая система управления с техническим зрением установлена на роботе, глаз системы совмещен со охватом; и обучим этот робот поиску заданного предмета, свободно расположенного на столе. Из всех возможных видов поиска выберем наиболее простой — продольно-поперечный, — и определим стратегию поведения робота. Пусть схват с глазом перемещается на определённой высоте вдоль стола; при попадании в его поле зрения искомого предмета схват должен сместиться поперек стола в сторону этого предмете; одновременно с глазом должен поворачиваться вокруг своей оси до достижения произвольно заданной ориентации предмета в поле зрения. Если искомый предмет окажется в центре поля зрения и если при этом он правильно сориентирован, то схват робота должен остановиться.
Очевидно, для выполнения поставленной задачи робот должен иметь три привода: продольного перемещения, поперечного перемещения и вращения. Тот его двигатель, который перемещает схват с глазом вдоль стола, должен работать в заданном направлении в тех случаях, когда в поле зрения глаза нет предмета, и должен остановиться, если в центре поля зрения — сориентированный искомый предмет. Двигатель поперечного перемещения должен смещать схват с глазом всегда в сторону предмета и должен остановиться, когда этот предмет окажется в центре поля зрения. Если глаз не видит предмета, двигатель поперечного перемещения должен стоять, Третий двигатель должен вращать охват в ту или другую сторону в зависимости от отклонения условной оси предмета относительно условной оси поля зрения глаза и должен стоять при заданной ориентации искомого предмета. Он должен стоять и в том случае, когда в поле зрения ничего нет.
Составим простейший набор ситуаций обучаемой выборки.
Двигатель продольного перемещения:
1-ая ситуация:
в поле зрения нет предмета; сигнал управления — положительный: (первый индекс
обозначает двигатель, второй — ситуацию); допустимое отклонение сигнала управления
может быть относительно большим, но обязательно меньше абсолютной величины
самого сигнала: ;
2-ая ситуация:
в поле зрения находится предмет; сигнал управления — больше нуля, но меньше : ; допустимое
отклонение также не может быть больше абсолютной величины самого сигнала
управления: ;
3-я ситуация: в центре поля зрения находится правильно сориен тированный искомый предмет; сигнал управления равен нулю: ; допустимое отклонение должно быть настолько малым, чтобы гарантировать остановку двигателя, то есть оно не должно превышать значения сигнала управления, необходимого для преодоления момента трения двигателя. Третья ситуация является целевой в задаче поиска заданного предметы В общем случае целевых ситуаций для одного предмета может быть несколько с учётом различной его ориентации в поле зрения глаза.
Двигатель поперечного перемещения:
1-ая ситуация: в поле зрения нет предмета; сигнал управления ; допустимое отклонение сигнала должно быть достаточно малым, чтобы гарантировать неподвижность этого двигателя;
2-ая ситуация:
предмет находятся в поле зрения справа; сигнал управления (знак сигнала должен
быть согласован с направлением движения); допустимое отклонение ;
3-я ситуация: предмет находится в поле зрения слева; сигнал управления ; допустимое отклонение ;
4-ая ситуация: в центре поля зрения находится правильно сориентированный искомый предмет; сигнал управления ; допустимое отклонение . Четвёртая ситуация является целевой и для двигателя поперечного перемещения, и для робота.
Двигатель вращения схвата:
1-ая ситуация: в поле зрения нет предмета; сигнал управления ; допустимое отклонение сигнала должно быть также достаточно малым, чтобы гарантировать неподвижность двигателя вращения схвата;
2-ая ситуация:
условная ось предмета отклонена от условной оси поля зрения по часовой стрелке;
сигнал управления (знак необходимо согласовать с
направлением поворота); допустимое отклонение сигнала ;
3-я ситуация:
условная ось предмета отклонена от условной оси поля зрения против часовой
стрелки; сигнал управления ; допустимое отклонение сигнала ;
4-ая ситуация: в центре поля зрения находится правильно сориентированный искомый предмет; сигнал управления ; допустимое отклонение . Четвёртая ситуация является целевой и для двигателя вращения схвата, и для робота.
Произведём замеры возбуждений фоторецепторов во всех ситуациях обучаемой выборки; для этого необходимо отсоединить фоторе-цепторы от мозга, подсоединить их к постоянной нагрузке, электрическое сопротивление которой приблизительно равно сопротивлению резистора нагрузки, соединяющего вход усилителя с источником питания, и замерить напряжения на выходах из рецепторов. Пусть эти напряжения будут равны:
в ситуациях двигателя продольного перемещения:
в 1-ой: ;
во 2-ой: ;
в З-ей:;
в ситуациях двигателя поперечного перемещения:
в 1-ой: ;
и так далее.
Символом B обозначены образы возбуждении; первый индекс обозначает номер двигателя; второй индекс — номер ситуации этого двигателя, а третий после запятой — номер рецептора. Всего ситуаций в обучаемой выборке — одиннадцать, но некоторые из них совпадают, например ; , поэтому отличительных ситуаций — всего семь.
Далее производим расчет проводимостей синапсов, используя для этого математическую модель обучения (1.12)...(1.16); для каждого двигателя расчёт выполняется отдельно. Следует иметь в виду, что каждому двигателю в техническом мозгу обучаемой системы управления соответствует своя пара мотонейронов и свой набор синапсов, так что после обучения поучим значения проводимостей синапсов:
для 1-го двигателя: ;
для 2-го двигателя: ;
для 3-го двигателя: ;
Через с обозначены образы проводимостей.
Для того, чтобы произвести настройку потенциометров, выполняющих функции синапсов, необходимо пересчитать данные проводимости в сопротивления плеч потенциометров. Любая проводимость синапса может быть представлена состоящей из двух проводимостей:
,
где — проводимость того плеча потенциометра, которое выходит на плюс-мотонейрон; — проводимость другого плеча, выходящего на минус-мотонейрон.
Если выразить проводимости плеч потенциометра через сопротивления этих плеч как обратные им величины, то после некоторых преобразований получим
,
где — сопротивление плече потенциометра, выходящего на плюс-мотонейрон; — общее сопротивление потенциометра: ; — сопротивление плеча потенциометра, выходящего на минус-мотонейрон. Имея численные значения сопротивлений плеч всех потенциометров, можно приступить к настройке мозга, однако задача осложняется тем, что замеры сопротивления отдельного потенциометра можно производить только тогда, когда он изолирован от цепи; иначе говоря, нужно каждый потенциометр извлечь из общей схемы, настроить его и потом уже установить обратно. Процедура настройки, таким образом, при большом количестве потенциометров может оказаться чрезвычайно трудоемкой.
Упростить задачу можно введением регулирования не сопротивлений (или проводимостей) синапсов, а рецепторных долей сигнала управления. Для этого необходимо выделить одну из ситуаций в качестве опорной, рассчитать в ней все рецепторные доли и уж потом заняться настройкой. В качестве опорной ситуации желательно выбирать такую, в которой требуется самый точный сигнал управления, например целевую; именно в ней будет окончательно отрегулирован сигнал управления. В качестве опорной может быть принята также дополнительная специальная ситуация, в которой нет нулевых или близких нулю возбуждений рецепторов; и такой ситуацией может быть ровно освещенное поле зрения глаза без предметов и зрительных изображений с тёмными или очень яркими пятнами, Выбор этой ситуации можно объяснить следующим образом: в общем случае рецепторная доля каждого i-го рецептора, приходящаяся на -ый привод в -ой опорной ситуации, будет равна
, (1.17)
и, если в этой ситуация возбуждение рецептора окажется равным нулю: , — или близким к нулю, то, какой бы ни была большой проводимость синапсы , соответствующая ему рецепторная доля окажется также равной нулю: . Следовательно, в этом случае при настройке мозга роль указанного синапса будет сведена к нулю, и он окажется практически исключенным из управления
Если в качестве опорной будет выбрана дополнительная ситуация, то перед настройкой мозге необходимо замерить в ней возбуждения всех рецепторов к пересчитать их по формуле (1.17) в соответствующие рецепторные доли. Сама настройка производится поочерёдно для каждого двигателя в следующем порядке: предъявляют опорную ситуацию, то есть глаз робота направляют на соответствующую сцену, выход соответствующего усилителя системы управления, например сначала двигателя продольного перемещения, замыкают через амперметр на стандартную нагрузку и смещением ползунов потенциометров добиваются получения расчетной рецепторной доли. Например, расчётная рецепторная доля десятого по порядку (i=10) потенциометра равна +0,15 А; следовательно, смещая ползун 10-го потенциометра, добиваются увеличения общего сигнала управления на 0,15 А; если расчетная рецепторная доля имела отрицательный знак, то смещение ползуна, очевидно, должно быть в обратную сторону на столько, чтобы сигнал управления уменьшился на ту же величину. Предпочтение целевой ситуации в качестве опорной состоит в том, что именно в ней можно получить требуемый самый точный сигнал, например равным нулю. Всякие отклонения величин сигналов управления, которые возникнут в прочих ситуациях вследствие неточностей замеров, могут уложиться в те расширенные допустимые отклонения, которые выбраны в этих ситуациях.
После завершения настройки синапсов первого двигателя переходят ко второму, а затем — к третьему. В качестве опорной ситуации может быть выбрана одна к та же ситуация, но не исключено, что по каким-либо соображениям она будет заменена. После завершения настройки синапсов последнего двигателя необходимо вернуться к двум первым, чтобы проверить их сигналы управления; не исключено, что в результате взаимовлияния настройка синапсов одного двигателя исказит общий сигнал управления другого. Такое искажение можно устранить изменением коэффициента усиления усилителя. Если же искажение существенное и подстройкой усилителя устраняется с трудом, то можно уточнить настройку синапсов, повторив процесс с самого начала.
Обратим внимание на то, что, как при первой настройте синапсов, так и при уточнениях последующих необходимо предварительно все потенциометры выставить в среднее положение. Лучше, если сделать это первый раз до установи потенциометров в схему: с помощью приборов выставить ползун каждого потенциометра в такое положение, в котором электрические сопротивления его плеч будут равны между собой, и сделать отметку этого положения.
Технический мозг с регулируемыми вручную синапсами, например с потенциометрами, имеет много недостатков: он относительно громоздок, примитивен, отнимает много времени на обучение, требует наличия разъёмов к рецепторах и т.д., — но у него имеются свои преимущества, к самое главное из них — использование его в учебных и научных целях. Обучаемая система управления с таким мозгом представляет собой простую конструкцию, наглядно отражающую устройство, обучение и работу системы.
В целях демонстрации подробного обучения можно отказаться от предварительных расчетов проводимостей всех синапсов и их рецепторных долей сигнала управления и произвести натуральные изменения проводимостей непосредственно в процессе обучения. Допустим, необходимо обучить двигатель продольного перемещения робота поиску заданного предмета в рассмотренном выше примере. Начнём с предъявления первой ситуации: замерим в ней потенциалы на выходах всех фоторезисторов и фактический сигнал управления на выходе из усилителя. Далее обучение проводится в соответствии с алгоритмом (1.13) ...(1.17); никакого предварительного расчётного обучения не требуется. Зная потенциалы всех рецепторов и фактический сигнал , можно определить поправку рецепторной доли конкретного i-го рецептора в данной j-ой ситуации как
. (1.18)
Регулировкой соответствующего потенциометра необходимо добиться изменения общего сигнала управления на полученную величину со своим знаком. Отрегулировав все потенциометры в первой ситуации, нужно перейти ко второй и повторить в ней все те же действия. Затем обучение следует повторить в третьей ситуации. После того, как будут предъявлены все ситуации обучаемой выборки и во всех из них будет проведено обучение синапсов, предъявление повторяют и действуют так до тех пор, пока не удовлетворится условие (1.14) во всех ситуациях. На этом обучение технического мозга для управления двигателем продольного перемещения закончено: во всех трёх ситуациях на выходе будут соответствующие им сигналы управления. Если в дальнейшем величины этих сигналов по какой-либо причине изменятся, их можно поправить настройкой усилителя.
Обучение двух других двигателей проводится по той же методике и по тому же алгоритму (1.12). ..(1.16) с использованием того же выражения (1.18), только у каждого из этих двигателей регулируются синапсы соответствующей ему пары мотонейронов мозга и используются соответствующие ситуации обучаемой выборки.
Наглядность всего процесса обучения позволяет глубже понять законы обучаемых систем управления и способствует выработке у обучателя опыта обучения; такой метод можно назвать «хирургическим» обучением.
Технический мозг с саморегулируемыми синапсами. Основополагающий принцип обучения — саморегулирование синапсов — может быть реализован в прямом смысле, если между электродами строчных и столбцовых шин мозга разместить такую среду, которая была бы способна уменьшать своё электрическое сопротивление под воздействием проходящего через нее тока и сохранять новый уровень проводимости в обесточенном состоянии. Такой средой могут быть органические пленки, стеклянные аморфные полупроводники, электролиты и другие материалы.
Рассмотрим электрохимический синапс; он может уменьшать своё омическое сопротивление в результате переноса металла с одного электрода на другой, происходящего под действием управляющего тока. На рис.1.10 представлена одна из схем такого синапса. Металлические (пусть будут медными) электроды — анод и катод — соединены между собой резисторной пластиной, способной проводить ток и имеющей относительно большое омическое сопротивление. Пространство над резистором и между электродами заполнено электролитом, в нашем случае — водным раствором медного купороса. Не трудно догадаться, что электрический ток при подаче на электроды разности потенциалов пойдут как по резистору, так и по электролиту: первый — как следствие электронной проводимости, второй — как ионной. Ионная проводимость, как известно, возникает в электролитах тогда, когда под действием воды происходит распад его молекул на ионы: на и на , — и когда эти ионы устремляются к электродам противоположного знака: — к катоду, а — к аноду. В результате на катоде начнёт осаживаться медь; такой процесс называется электролизом. Очевидно, медь будет осаждаться не только на металлическом электроде, но и на прилегающем к нему резисторе, а это приведёт к уменьшению его сопротивления. Со временем металлическое пятно на резисторной пластине будет расширяться и расширяться, проводимость синапса будет увеличиваться и увеличиваться, и в пределе медь может покрыть поверхность резистора полностью, что приведёт к падению электрического сопротивления до нуля. Доводить электролиз до такого состояния нет смысла, поэтому остановимся на промежуточном этапе.
Рис.1.10. Электрохимический синапс
От чего будет зависеть рост проводимости синапса? Можно перечислить все факторы электролиза, это — ток, время, температура, концентрация раствора и диэлектрическая проницаемость электролита, но главным из них всё же является ток. Итак, чем больше управляющий ток, проходящий между электродами синапса, тем выше скорость электролиза и тем выше скорость роста проводимости; это и есть то саморегулирование синапса, которое отражено в выражении (1.9), если вспомнить, что величина тока определяется возбуждением соответствующего рецептора.
Все прочие факторы могут быть использованы для установления желаемой степени зависимости роста проводимости от тока: обучение синапса можно ускорить, если поднять температуру электролита или повысить его проницаемость за счёт увлажнения, и, конечно, обучение можно притормозить, делая всё наоборот. Есть возможность даже совсем приостановить рост проводимости синапса, сделав электролиз невозможным, например удалив электролит.
Скорость роста проводимости зависит также от размеров ванны электролита, точнее говоря, от соотношения её длины и высоты h. Если обозначить через х длину гальванизированного участка резисторной пластины, то, чем больше будет соотношение , тем выше скорость роста проводимости синапса. Значит, с увеличением размеров гальванизированного участка скорость будет снижаться, и это можно расценивать как положительный момент, так как в результате будет отодвинуто во времени короткое замыкание электродов. Подбирая параметры синапса и электролиза, можно добиваться желаемого результата в обучении.
Электрохимический синапс удобен тем, что позволяет легко решить задачу воздействия обучателя на процесс обучения. Для этого достаточно в электрическую схему обучаемой системы управления включить дополнительно регулируемые резисторы, выполняющие функции стимуляторов прямого и обратного ходов (рис.1.11).
На объекте обучения эти резисторы можно расположить так, что обучатель, подталкивая объект в нужном направлении, будет воздействовать на соответствующий из них. Резисторы-стимуляторы могут быть выполнены в виде силарезисторов, и тогда стимуляция прямого и обратного ходов будет зависеть от усилия нажатия на эти силарезисторы.
Поясним сказанное примером. Пусть в качестве объекта обучения будет робот с обучаемой системой управления, имеющий зрение, то есть тот, который мы рассматривали ранее. Робот имеет три привода, обеспечивающих перемещение схвата вдоль, поперёк и вращающих его вокруг своей оси; глаз установлен на самом схвате. Для управления тремя указанными приводами в мозгу обучаемой системы управления выделены три пары мотонейронов; каждый мотонейрон имеет свой силарезистор-стимулятор. Не трудно предположить, на какие точки руки робота будет воздействовать обучатель, подталкивая его в нужном направлении; в эти точки и следует поместить соответствующие силарезисторы.
Рис.1.11. Фрагмент электрической схемы обучаемой системы управления с аналоговыми стимуляторами прямого и обратного ходов
Пусть перед обучателем стоит прежняя задача обучить робот находить на платформе заданный предмет, зрительно выделяющийся на общем фоне. В данном случае обучение можно вести пассивно и в динамике, то есть в движении без составления обучаемой выборки из ситуаций обучения. Стратегия обучения та же: схват робота с глазом смещается постоянно вдоль платформы, а при попадании в его поле зрения искомого предмета смещается поперёк до совмещения с ним центра поля зрения; одновременно схват с глазом поворачивается вокруг своей оси до произвольно заданной ориентации предмета в поле зрения.
Обучение ведётся следующим образом. Так как в исходном состоянии проводимости всех синапсов мозга малы и одинаковы (обучение начинается с нуля), то робот в первый момент будет недвижим. Для того, чтобы заставить его двигаться вдоль платформы, обучатель должен подтолкнуть схват в нужном направлении, нажимая на силарезистор-стимулятор прямого хода перемещения вдоль. Электрическое сопротивление в цепи плюс-мотонейрона этого привода уменьшится; разности потенциалов на всех синапсах данного мотонейрона увеличатся; увеличатся соответственно токи через них. Этого достаточно для того, чтобы увеличились проводимости всех синапсов; увеличение это у каждого синапса — своё, пропорциональное своему току, зависящему от возбуждения соответствующего рецептора. Ток плюс-мотонейрона продольного привода увеличится, и схват начнёт смещаться вдоль платформы. Естественной реакцией обучателя на движение робота будет прекращение давления на схват. При попадании искомого предмета в поле зрения глаза робота обучатель должен воздействовать сразу на все три привода с тем, чтобы притормозить продольный привод, заставить поперечный привод двигать схват в сторону предмета и заставить привод поворота поворачивать схват в ту или иную сторону до желаемой ориентации предмета в поле зрения. Если схват оборудован специальным рычажным устройством, позволяющим одновременно воздействовать на силарезисторы всех приводов, то особых затруднений в действиях обучателя не возникнет: они по-прежнему будут подталкивающими. Одновременное воздействие на силарезисторы, стимулирующие обратный ход продольного привода и необходимые, допустим — прямые, ходы поперечного привода и привода поворота, приведёт к тому, что увеличатся проводимости синапсов соответствующих мотонейронов и, как следствие, уменьшится скорость продольного перемещения и появится движение поперёк и вращение схвата. Как только схват приблизится к искомому предмету и повернётся до необходимого положения, обучатель должен остановить схват; останавливая, он надавит на силарезисторы обратных ходов всех трёх приводов, и таким образом увеличит отрицательные составляющие их сигналов управления. Сила нажатия, разумеется, должна быть такой, чтобы схват остановился; в противном случае воздействие будет продолжаться.
После успешного завершения первого акта обучения у робота появятся первые признаки навыка поиска: он уже начнёт как-то двигаться. В дальнейшую задачу обучателя будет входить поправлять движения робота. Очевидно, в процесс обучения должны быть включены самые разнообразные ситуации: с различным расположением искомого предмета, с различными скоростями движения и т.п. Повторяя и повторяя обучение поиску, можно добиться того, что робот усвоит навыки находить заданный свободно ориентированный и расположенный в любом месте платформы предмет.
К недостаткам электрохимического синапса можно отнести относительно большие его размеры и то, что он может только наращивать свою проводимость. Последний недостаток может быть устранён, если изменить конструкцию самого синапса, сделав катод, например, графитовым, и тогда электролиз в одном направлении приведёт к уменьшению зазора между электродами, а в обратном направлении — к увеличению. Можно предложить также вместо постоянного тока питания рецепторов и мозга использовать переменный; при одинаковых токах с разным направлением электролиз, очевидно, происходить не будет, и проводимости синапсов сохранятся неизменными. Если теперь увеличить ток в одном каком-то направлении (благодаря, например, установленному в цепи силарезистора диоду), то возникающий при этом электролиз может приводить к уменьшению омического электронного сопротивления синапса, а увеличение тока в обратном направлении — к возрастанию сопротивления.
Другим типом саморегулируемого синапса является синапс с токопроводящей средой в виде органической плёнки. В исходном состоянии такая плёнка имеет высокое омическое сопротивление и может рассматриваться как диэлектрик. Если предварительно пробить плёнку высоковольтным, но маломощным импульсом, то в ней в результате пробоя, то есть выплавления и выгорания диэлектрических смол, образуется тонкий токопроводящий угольный шнур. В дальнейшем под воздействием проходящего по шнуру тока сечение шнура будет увеличиваться за счёт ещё большего выплавления и выгорания смол, и сопротивление его будет уменьшаться. Это и есть процесс саморегулирования синапса; увеличенная проводимость шнура может сохраняться как угодно долго. Переход на новый более высокий уровень проводимости возможен только в том случае, если увеличится возбуждение соответствующего рецептора (уменьшится его сопротивление) или будет более сильное воздействие обучателя на соответствующий мотонейрон мозга. Отсюда следует такой вывод, что слабые токи синапса не способны увеличить его проводимость, если она была перед этим уже большой. Получается так, что только сильно возбуждённые рецепторы будут способны дообучать свои синапсы, а слабо возбуждённые — не смогут.
Чтобы как-то
выровнять обучаемость тех и других синапсов, можно предложить вместо
аналогового регулирования их проводимостей (схема аналогового регулирования
изображена на рис. 1.11) импульсное.
Электрическая схема высотно-импульсного регулирования проводимостей синапсов
представлена на рис. 1.12.
Рис. 1.12. Фрагмент электрической схемы обучаемой
системы управления с высотно-импульсным регулированием проводимостей
синапсов
Она включает двухступенчатый источник питания, прерыватель тока и двусторонний силарезистор-стимулятор прямого и обратного ходов. В рабочем режиме по всем электрическим цепям будут идти маломощные, определяемые первой ступенью питания, аналоговые по форме токи, не способные изменить проводимости синапсов. Импульсы, идущие от второй ступени источника питания, будут подавлены большим исходным сопротивлением силарезистора. И только при воздействии обучателя на этот силарезистор, то есть в момент обучения, на один из парных мотонейронов будут поданы чувствительные импульсы тока, способные наращивать проводимости синапсов; чем сильнее воздействие обучателя, тем более мощными будут импульсы обучения. Кроме высотно-импульсного регулирования проводимостей синапсов могут быть еще широтно-импульсное и частотно-импульсное. Все импульсные методы улучшают обучаемость синапсов, но не на столько, чтобы реализовать их самообучение на всём диапазоне предварительной проводимости.
Во многом схожи с рассмотренными синапсы, в качестве токопроводящей среды которых используются аморфные полупроводники —халькогенидные стекла. В аморфном состоянии халькогенидное стекло является диэлектриком, но достаточно пропустить через него электрический импульс определённой мощности, как возникает электрический пробой, переводящий стекло из аморфного состояния в кристаллическое, электрическая проводимость которого выше аморфного. Пробой создаёт токопроводящий шнур, сечение которого зависит от мощности импульса; при повторной подаче импульса сечение шнура увеличивается и электрическое сопротивление его уменьшается. Такое свойство стекла позволяет увеличивать проводимость синапса многократно. Средние параметры импульсов обучения для некоторых стекол таковы: напряжение 25 В, ток 5 мА, длительность 10 мс. Возможен и обратный процесс — разрушение токопроводящего шнура, если на синапс подать импульс тока значительно большей мощности: напряжение свыше 25 В, ток 100 мА, — но более короткий по времени: длительность 5 мс. При этом кристаллическое стекло снова переходит в аморфное состояние и электрическое сопротивление резко возрастает.
Электрическая схема обучаемой системы управления с частотно-импульсным регулированием проводимостей синапсов, представленная на рис. 1.13, включает частотно-импульсные преобразователи (ЧИП), установленные в цепь каждого рецептора и переводящие аналоговые сигналы в импульсы постоянной величины, но переменной частоты: чем белые аналоговый сигнал, тем выше частота импульсов.
Если параметры импульсов укладываются в пределы параметров импульсов обучения, то, стимулируя тот или иной мотонейрон, можно повышать частоту какого рецептора и тем самым ускорять рост проводимостей соответствующих синапсов. На время работы, когда желательно сохранять проводимости неизменными, частотно-импульсные преобразователи можно либо переводить на режим заниженных импульсов, не способных вызывать обучение синапсов, либо отключать совсем.
Рис. 1.13. Фрагмент электрической схемы частотно-импульсной обучаемой системы управления
Тот недостаток аморфных полупроводников, который выражается в нестабильности прироста их проводимостей при прохождении одинаковых импульсов и который мешает внедрению этих полупроводников в дискретную вычислительную технику, практически безвреден в обучаемых системах управления: в конце концов о реакции объекта на обучение обучатель судит не по росту проводимостей синапсов, а по внешнему поведению объекта. Не столь опасны в техническом мозге и так называемые флуктуации полупроводников, то есть самопроизвольный рост проводимостей в отдельных синапсах: такие флуктуации носят случайный характер и, согласно теории вероятности, распределяются по плюс- и минус-мотонейронам равномерно, не приводя в общем случае к изменениям сигналов управления. К несомненным достоинствам халькогенидных синапсов относятся их простота, малые габариты и относительная дешевизна.
В качестве
синапсов, кроме рассмотренных элементов —
электрохимических, органических плёночных и стеклянных халькогенидных — могут применяться гальваномагнитные
устройства, приборы с зарядовой связью и другие. Всех их объединяет одна
особенность — саморегулирование, — и всем
им соответствует математическая модель обучения
(1.12 ) ...(1.16 ).
Оптический мозг. Обучаемые системы могут быть не только электрическими, но и другими, и тогда технический мозг оказывается также неэлектрическим. Рассмотрим оптическую обучаемую систему с оптическим мозгом (рис. 1.14) /1.26/. Система имеет два оптических канала: плюс- и минус-; в каждом канале установлены: объектив с оптикой, диафрагмой и затвором, диапозитив и фотоэлектрический экран. Электрические сигналы, снимаемые с обоих экранов, сравниваются на усилителе, и выход усилителя является выходом системы на один исполнительный орган.
Рис. 1.14. Оптическая обучаемая система управления
Мозг системы состоит из двух диапозитивов; плюс-диапозитив, находящийся в оптическом плюс-канале, можно приравнять к набору синапсов плюс-мотонейрона электрической системы, а минус-диапозитив, установленный в оптическом минус-канале, можно приравнять к набору синапсов минус-мотонейрона той же электрической системы. Рисунки диапозитивов формируются в процессе обучения путём наложения видимых техническим глазом изображений одного на другое, поэтому они носят в общем абстрактный характер.
Работает система следующим образом. Объективы обоих оптических каналов направляют на одну и ту же сцену. Световые потоки в каналах, собираемые оптиками, проходят через диапозитивы и попадают на фотоэлектрический экраны, преобразующие свет в электрические сигналы. В результате на фотоэлектрическом экране плюс-канала сформируется плюс-сигнал управления как произведение внешнего образа на образ плюс-диапозитива :
,
а на фотоэлектрическом экране минус-канала сформируется минус-сигнал управления как произведение всё того же внешнего образа на образ уже минус-диапозитива :
.
Общий сигнал управления определится как разность
.
При неизменных диапозитивах (после завершения обучения) изменение сигналов управления происходит исключительно под воздействием внешних ситуаций — внешних образов.
Теперь посмотрим, как формируются в процессе обучения изображения диапозитивов, и разобьем сам процесс на шаги и циклы; под шагом будем понимать всё то же предъявление очередной ситуации обучаемой выборки, а под циклом — повторное предъявление всех этих ситуаций. Обучение соответствует математической модели (1.12)...(1.16) и алгоритму, заложенному в ней. Обучение — статическое (не в движении), и объясняется это тем, что на каждом шаге обучения требуется выполнять много операций, отнимающих много времени.
В качестве примера рассмотрим то же самое обучение робота поиску заданного предмета, которое проводилось ранее, и выберем один из трех приводов робота — привод поперечного перемещения. Обучаемая выборка сохраняется прежней, но для удобства ситуации переставим местами:
1-ая ситуация: предмет находится справа в поле зрения робота, сигнал управления пусть будет = +10 мВ;
2-ая ситуация: предмет находится слева в поле зрения робота, сигнал управления пусть будет = -10 мВ;
3-я ситуация: в поле зрения нет предметов, сигнал управления =0;
4-ая ситуация:
искомый предмет находится в центре поля зрения, и он правильно сориентирован,
сигнал управления =0.
Для получения диапозитивов потребуется большое количество позитивных фотопластинок на прозрачной подложке одинаковой чувствительности.
Обучение:
На 1-ом шаге 1-го цикла предъявим 1-ую ситуацию, то есть расположим искомый предмет в правой половине поля зрения оптической системы, и будем добиваться на выходе сигнала, равного +10 мВ. Так как в исходном состоянии диапозитивы абсолютно непрозрачны (обучение начинаем с нуля) и одинаковы, то фактический сигнал управления, очевидно, будет равен нулю. Извлечём плюс-диапозитив (откроем канал) и отрегулируем плюс-диафрагму при открытом затворе так, чтобы на выходе получить требуемый сигнал +10 мВ. Установим на место плюс-диапозитива неэкспонированную позитивную фотопластинку и, не изменяя отрегулированное положение плюс-диафрагмы, проэкспонируем её с помощью плюс-затвора; выдержку во времени можно выбрать первый раз произвольно, но нужно иметь в виду, что наложений изображений одного на другое будет много, поэтому нужно избегать сильной засветки. Проявив экспонированную фотопластинку, получим плюс-диапозитив 2-го шага 1-го цикла; очевидно, на нём будет изображен вид первой ситуации. И сразу же полученное изображение перенесём методом контактного экспонирования на другую такую же позитивную фотопластинку, но не будем её проявлять — получим непроявленную копию первого плюс-диапозитива, которая нужна для того, чтобы можно было наложить на неё на последующих шагах другие корректирующие изображения. Так как время экспонирования диапозитива было произвольным (в дальнейшем по мере накопления опыта оно будет выбираться более точным) , то после его получения потребуется уточнение сигнала управления; для этого диапозитив необходимо установить на своё место и в той же первой ситуации при полностью открытой диафрагме отрегулировать усиление усилителя так, чтобы получить требуемые +10 мВ; в дальнейшем выбранное усиление сохраним постоянным. На этом операции 1-го шага 1-го цикла завершены.
На 2-ом шаге предъявим 2-ую ситуацию, то есть расположим искомый предмет в левой половине поля зрения, и будем добиваться на выходе системы получение сигнала, равного уже -10 мВ. Для этого, сохранив плюс-диапозитив на месте, извлечём непрозрачный минус-диапозитив и отрегулируем при открытых затворах минус-диафрагму так, чтобы на выходе усилитея получить требуемый сигнал -10 мВ. Установим на место минус-диапозитива новую неэкспонированную позитивную фотопластинку и, не изменяя отрегулированного положения минус-диафрагмы, проэкспонируем её с помощью минус-затвора с той же самой выдержкой, что была на первом шаге обучения. Проявив экспонированную фотопластинку, получим минус-диапозитив 2-го шага 1-го цикла. И так же, как на 1-ом шаге, полученное изображение перенесём методом контактного экспонирования на новую позитивную фотопластинку, и также не будем её проявлять — получим непроявленную копию первого минус-диапозитива.
На З-ем шаге предъявим 3-ю ситуацию, то есть в поле зрения робота не должно быть никаких предметов, и будем добиваться на выходе системы нулевого сигнала. Для этого установим на свои места плюс- и минус-диапозитивы, раскроем полностью диафрагмы, откроем оба затвора и замерим фактический сигнал на выходе из усилителя. Если он окажется отрицательным, то займемся плюс-диапозитивом, а если — положительным, то — минус-диапозитивом. Допустим, фактический сигнал оказался отрицательным, тогда извлечём плюс-диапозитив и отрегулируем плюс-диафрагму так, чтобы на выходе из усилителя получить нулевой сигнал. Установим на место плюс-диапозитива не новую фотопластинку, а непроявленную копию первого плюс-диапозитива и, не изменяя отрегулированного положения плюс-диафрагмы, проэкспонируем её с помощью плюс-затвора с прежней выдержкой. Проявив копию, получим плюс-диапозитив 3-го шага 1-го цикла. Снова снимем копию с этого плюс-диапозитива методом контактного экспонирования, и опять оставим её непрявленной.
На 4-ом шаге предъявим 4-ую ситуацию: расположим искомый предмет в центре поля зрения робота и сориентируем его определённым образом, — и будем добиваться в этой ситуации нулевого сигнала. Для этого установим на свои места последний плюс-диапозитив и первый минус-диапозитив, раскроем полностью диафрагмы, откроем оба затвора и определим фактический сигнал. Допустим, он окажется больше нуля; значит, нужно усилить сигнал минус-канала системы. Извлечём минус-диапозитив и отрегулируем минус-диафрагму так, чтобы на выходе из усилителя получить нулевой сигнал. Установим на место минус-диапозитива непроявленную копию первого минус-диапозитива и проэкспонируем её. Проявив копию, поучим новый минус-диапозитив. Снимем с него копию без проявления. На этом 1-ый цикл обучения закончен.
На 2-ом цикле всё повторяется: предъявляем очередную ситуацию, устанавливаем последние диапозитивы, замеряем фактический сигнал на выходе из усилителя, определяем знак погрешности сигнала управления, — извлекаем соответствующий диапозитив, регулируем диафрагму до получения необходимого сигнала, устанавливаем на место извлечённого диапозитива его непроявленную копию, экспонируем её, проявляем её и снимаем с неё новую копию без проявления. Далее процесс повторяется при предъявлении очередной ситуаций. Завершаем обучение тогда, когда во всех ситуациях получим требуемые сигналы управления с выбранными допустимыми отклонениями.
На примере оптической обучаемой системы управления хорошо видно, как формируется мозг системы, то есть как формируются изображения диапозитивов, как вырабатываются законы управления, как принимают участие в управлении каждый луч, попадающий в объектив системы, и каждая точка диапозитивов. Оптическая обучаемая система является хорошей иллюстрацией работы и обучения живого мозга.