Отрицательное подкрепление в дрессировке собак

Величина подкрепления

Начинающие тренеры, использующие пищевое подкрепление при работе с животными, часто не знают, какова должна быть величина каждого подкрепления. Ответ таков: чем меньше, тем лучше. Чем меньше подкрепление, тем быстрее животное съест его. Это не только экономит время, но и позволяет дать большее количество подкреплений за один сеанс, прежде чем животное насытиться. В 1979 г. Национальный зоопарк в Вашингтоне, штат Колумбия, пригласил меня в качестве консультанта для обучения группы работников зоопарка технике положительного подкрепления. Одна из смотрительниц в моей группе жаловалась, что обучение панды продвигается у нее очень медленно. Мне показалось это странным, потому что интуитивно я чувствовала, что панды — эти большие, прожорливые, активные животные -должны легко поддаваться обучению с пищевым подкреплением. Я понаблюдала за ее занятиями и обнаружила, что, когда смотрительнице удавалось добиться какого-либо движения, она давала панде целую морковку. Панда долго смаковала каждую морковку, поэтому в течение пятнадцати минут отведенного ей драгоценного времени она зарабатывала только три подкрепления (а кроме того, морковь ей надоедала). Один ломтик моркови на подкрепление был бы лучше.

Вообще, подкрепление величиной в один глоток животного вполне достаточно для поддержания его заинтересованности — одно-два зернышка для цыпленка, кубик мяса в 6 мм для кошки, половина яблока для слона. Особо любимой пищи можно давать и еще меньше — например чайную ложку зерна для лошади.

Служители Национального зоопарка обучали белых медведей многим полезным вещам, таким, как переход по команде в другую клетку, используя изюминки.

Основное правило дрессировщика заключается в том, что если вы собираетесь провести в день одно занятие, то можете рассчитывать на хорошую работу животного примерно за четверть его дневного рациона, остальное дается после окончания работы. Если же вам надо провести три или четыре занятия в день, то дневную порцию пищи надо разделить примерно на восемьдесят частей и за один сеанс давать двадцать или тридцать. Восемьдесят подкреплений, видимо, являются максимумом, способным заинтересовать субъекта в течение дня.

(Может быть, поэтому слайдовая кассета содержит восемьдесят слайдов; по крайней мере, когда лектор просит демонстратора показать вторую кассету слайдов, я тяжело вздыхаю.) Размер подкрепления зависит также от сложности задачи. В океанариуме «Жизнь моря» мы сочли необходимым давать каждому по большой макрели за их олимпийские 6—7-метровые вертикальные прыжки. Они просто отказывались делать это за обычное вознаграждение в виде двух маленьких корюшек. У людей почти всегда более трудная работа вознаграждается лучше. А если этого нет, то как мы ненавидим тяжелую работу, если нам приходится ее делать.

Отрицательное подкрепление

Психологи спорят по поводу определения отрицательного подкрепления. Для наших целей отрицательное подкрепление можно определить как то, что субъект будет стараться избегать. Отрицательные подкрепления имеют градации от слегка неприятных стимулов — едва заметный сквозняк от кондиционера в ресторане, который все-таки заставляет вас перейти за другой столик, — до всевозможных крайностей, например удара электрическим током. Наказание происходит после поведения, на которое оно должно воздействовать. Таким образом, вы не можете избежать наказания, изменив взгляды или поступки, так как неправильное поведение уже осуществилось. Малыш, которого отшлепали за плохой табель успеваемости, может в дальнейшем учиться лучше или хуже, но уже не сможет изменить того табеля, который он уже принес. Напротив, отрицательное подкрепление можно остановить или избегнуть сиюминутным изменением поведения. Допустим, сидя в гостиной у тетушки, я случайно положила ноги на кофейный столик. Тетушка неодобрительно поднимает брови. Я ставлю ноги на пол. Ее лицо мягчеет. Я чувствую облегчение. И поскольку я смогла остановить сигнал нерасположенности, совершившееся поведение было подкреплено. Я усвоила: в тетушкином доме держи ноги по дальше от мебели.

Поведение может быть полностью сформировано на основе отрицательного подкрепления, как в большинстве случаев традиционной дрессировки животных:

лошадь учится поворачивать налево, когда тянут за левый повод, потому что поворот прекращает неприятное давление; лев вспрыгивает на тумбу, чтобы избежать назойливого хлыста или острой палки, которые держат около его морды.

В общем, термин «подкрепление» в этой книге относится к положительному подкреплению; если я захочу обсудить отрицательное подкреняение, я оговорю это особо. Вообще же оба вида подкрепления подчиняются одинаковым правилам применения. Например, ошибка во времени подачи подкрепления не даст результатов (или результаты будут плохими) при использовании как одного, так и другого метода подкрепления.

Виды подкрепления

Как отмечалось ранее, под подкреплением понимается какое-либо действие, призванное усилить определенную реакцию

Хотя оперантное обусловливание опирается в первую очередь на использование подкрепления с положительной валентностью, основанных на приближении организма к, такого, как пища, деньги или похвала, последователи Скиннера подчеркивают также важность подкреплений, основанных на бегстве организма от, или на избегании им отвращающих (неприятных) стимулов. В таких случаях реакции подкрепляются устранением неприятных стимулов или возможностью их избежать, а не появлением приятных стимулов

Во всех этих случаях результатом должно быть сохранение или усиление реакции. В связи с этим различают два вида подкреплений: — Позитивное подкрепление — это приятный стимул, который следуя за желательной реакцией, усиливает ее или поддерживает на том же уровне, т.е. повышает вероятность ее повторения. — Негативное подкрепление — это неприятный стимул, устранение которого усиливает желательную реакцию.

Вместе с тем существует и множество самих способов подкрепления. К наиболее распространенным относятся поощрение (предъявление приятных стимулов) и наказание (предъявление неприятных стимулов).

Как поощрение, так и наказание могут выполняться двумя способами, это зависит от того, что следует за реакцией: предъявление или устранение приятного или неприятного стимула. Подкрепление усиливает реакцию; наказание — ослабляет ее.

Таким образом, в практике воспитания чаще всего используются четыре разновидности подкрепления: — если вслед за желательной реакцией ребенка следует вызывающий приятные ощущения и переживания подкрепляющий стимул, то результат — положительное поощрение; — если за нежелательной реакцией следует не вызывающий приятных ощущений и переживаний подкрепляющий стимул, то результат — положительное наказание; — если вызывающий неприятные ощущения и переживания подкрепляющий стимул устраняется после получения желательной реакции, то результат — отрицательное поощрение; — если приятный стимул устраняется после той или иной нежелательной реакции ребенка, то результат — отрицательное наказание.

Типы положительных усилителей

Первичные усилители

Существует несколько типов усилителей, таких как первичные или безусловные усилители, которые не нуждаются в предварительном обучении, чтобы действовать как таковые. В качестве примера такого типа у нас будет еда или секс.

Вторичные усилители

Усилитель другого типа будет вторичным или обусловленным, что потребовало предварительного обучения или ассоциации, чтобы действовать в качестве усилителя

Этот тип усилителей обобщен и связан с первичным или вторичным усилителем, таким как деньги или внимание.

Натуральные усилители

С другой стороны, существуют усилители, которые могут быть естественными или которые используются обычным образом в контексте человека. Напротив, искусственные усилители и это поощряют поведение в какой-то игре. 

Усилители материалов

В свою очередь, существуют также материальные усилители, такие как игрушки, книги и одежда. И в рамках этой категории мы выделяем других подкреплений социального характера, таких как похвала. Эти последние позволяют получить положительную информативную обратную связь, которая позволяет информировать человека о его поведении.

В другой области выделяются усилители активности, где субъект выполняет ряд действий, приведенных в движение самостоятельно, чтобы получить вознаграждение. 

Внешнее и внутреннее армирование

В этом списке также определены усилители внешней природы, поведение которых усиливается внешними факторами..

С другой стороны, мы различаем внутренний усилитель, где поведение поддерживается и выполняется без появления внешних усилителей. В этом случае поведение действует само по себе как подкрепление из-за предшествующей истории внешнего подкрепления.

В общем, связь между поведением и усилителем будет более сильной, когда время между ними меньше. 

В свою очередь, они также влияют на различные факторы, которые позволяют подкреплению быть положительным или отрицательным по таким предметам, как, например, тип программы подкрепления, ее интенсивность, величина и продолжительность. Таким образом, желательно адаптировать названные усилители к типу человека и ситуации, в которой будет проводиться подготовка..

Чтобы упростить предыдущее задание, я дам вам практическое руководство по применению положительного подкрепления:

  • Определите поведение или поведение, которое вы хотите увеличить.
  • Выберите усилители, адаптированные к конкретному человеку.
  • Выбирайте подкрепление, которое часто недоступно этому человеку.
  • Информировать о непредвиденных обстоятельствах или взаимосвязи между стимулом, ответом и последующим (подкрепление).
  • Если предполагаемое поведение не существует в поведенческом репертуаре человека, могут использоваться такие методы, как формирование, инструкции или рекомендации..
  • Усилитель должен зависеть от реакции или поведения субъекта..
  • Усилитель должен быть доставлен сразу же после поведения, например, если это материал. 
  • Также используйте социальные подкрепления, а также укажите правильное поведение.
  • Используйте непрерывное усиление в начале подготовки, а затем переходите к программе прерывистого усиления, которая поддерживает поведение.

Разница между отрицательным подкреплением и наказанием

Отличие отрицательного подкрепления от наказания заключается в следующих основных моментах:

  1. Отрицательное подкрепление дается точно в момент совершения собакой нежелательных действий, которые мы хотим исправить, или сразу после них —  когда она лает, скулит, скребет  дверь клетки/вольера, тянет поводок и так далее;
  2. Собака «знает» как избежать воздействия отрицательного сигнала, изменив свое поведение — прекратив лаять, скулить, тянуть поводок и т.д.;
  3. То есть, отрицательное подкрепление – информативно (несет собаке информацию). Собака, «понимает» какие именно ее действия связаны с неприятными ощущениями и со временем перестает их повторять;
  4. «Наказание» — это «неприятность», которую ощущает собака, но не знает, как ее избежать в будущем;
  5. В абсолютном большинстве случаев, когда владельцы наказывают своих питомцев, а последние снова повторяют нежелательное поведение, собаки просто не понимают — за что их наказали.

К примеру, если щенок регулярно оставляет лужицы в квартире, то этому могут быть следующие причины:

  1. Щенок еще слишком мал, чтобы терпеть и не понимает, как надо проситься на улицу;
  2. Его кормят кашей, перегружая жидкостью его организм и давая дополнительную нагрузку на почки;
  3. Он слишком заласкан или перевозбужден играми с владельцем, апостоянно находящаяся в стрессовом состоянии собака не может долго терпеть;
  4. Владелец не успевает вовремя дать отрицательное подкрепление, то есть во время или сразу после того, как собака помочилась.

Совершенно другое дело, если вы застанете щенка за этим «занятием» и бросите в него в этот момент что-нибудь «шумное», например, пустую металлическую банку из-под колы (делать это надо неожиданно, не замахиваясь на собаку рукой, чтобы впредь она не пугалась этого жеста). В следующий раз щенок вспомнит, что случилось,когда он в последний раз  справлял малую нужду в доме и станет «проситься» (побежит к выходной двери) или потерпит до выгула.

Как это работает?

Отношения между поведением и последствиями являются частью типа обучения, называемого оперантом. Это относится к концу 1930-х годов.

Для отрицательного подкрепления к работе, все, что отбирается, должно быть убрано сразу после рассматриваемого поведения. Конечным результатом является то, чтобы все, что происходит, продолжалось и даже увеличивалось.

Примеры

Человек слышит громкий сигнал. Они нажимают кнопку STOP на тревоге, чтобы остановить шум. Теперь, когда будильник отключается, они нажимают кнопку STOP как можно быстрее.

  • До поведения: Громкая тревога
  • Поведение: Лицо отключает будильник
  • Поведение: не более раздражающий звук
  • Будущее поведение: человек каждый день нажимает STOP на тихую тревогу

Родители жалуются своему ребенку, когда ребенок не убирает свою комнату. Ребенок начинает очищать свою комнату, чтобы подать жалобу. Теперь ребенок регулярно чистит свою комнату, чтобы избежать жалобы.

  • До поведения: Жалующиеся родители
  • Поведение: ребенок очищает комнату
  • Поведение: больше не жалуется
  • Будущее поведение: ребенок держит комнату в чистоте

В сравнении с положительным подкреплением

Пример использования отрицательного подкрепления

Поясню на примере. Допустим, я иду по улице и веду на поводке свою собаку.

У меня пес породы ягдтерьер, которая славится своими охотничьими талантами, а потому, за неимением другой дичи, он любит проявлять интерес к дворовым кошкам.

Когда я вижу, что мой пес начинает неотрывно следить за очередным котом, я окликаю его по кличке  — «Шварц!»,  и одновременно с этим одергиваю его за поводок. Он получает отрицательный сигнал — рывок поводка и «понимает», что меня данный кот не интересует. В следующий после рывка поводком миг, когда пес отворачивается от кота, я даю ему кусочек корма в качестве положительного подкрепления.

Если собака на прогулке тянет поводок, надо делать те же самые действия:

  1. Как только поводок натянулся, одергиваем собаку и окликаем ее по кличке;
  2. В момент, когда собака прекращает тянуть поводок, мы произносим команду «Рядом» и тут же даем ей положительное подкрепление в виде корма.

Таким образом, мы «объясняем» собаке, как ей избежать рывка: не тяни поводок и ты получишь за это корм. В результате, после большого количества повторений, у собаки вырабатывается автоматизм — идти рядом и не тянуть поводок.

Эффективность

Отрицательное усиление может быть эффективным инструментом при правильном использовании. Однако отрицательное подкрепление может не всегда получать ожидаемые результаты. Этот тип поведения обуславливает простоту поведения. В результате он может работать в обоих направлениях, усиливая либо благоприятное, либо неблагоприятное поведение.

Примеры негативного подкрепления для неблагоприятного поведения

Ребенок кричит, когда им предлагают макароны и сыр на еду. Когда они кричат, их родители немедленно берут еду. Каждый раз, когда предлагаются макароны и сыр, истерики ребенка растут, а родители сдаются.

  • До поведения: макароны и сыр на детской тарелке
  • Поведение: детские крики
  • Поведение: родители берут пищу
  • Будущее поведение: Ребенок будет кричать всякий раз, когда предлагается макароны и сыр.

Ребенок не любит носить определенную рубашку, которую их мать купила для них. В прошлом ребенок заметил, что их мать не делает их носить поврежденную одежду, поэтому ребенок разрезает рубашку ножницами. Когда мать обнаруживает это, она снимает рубашку.

  • До поведения: Ужасная рубашка
  • Поведение: ребенок повреждает одежду
  • Поведение: Мать снимает рубашку
  • Будущее поведение: Ребенок может повредить одежду, которую они не хотят носить

В классе

Отрицательное подкрепление против наказания

Многие люди путают отрицательное подкрепление с наказанием. Ключевая область, в которой эти два метода отличаются, заключается в конечном результате.Подкрепление, добавление или отнятие чего-то предназначено для увеличения поведения. С наказанием добавление или отнятие чего-то означает уменьшение или ослабление поведения.

Возможно, вы уже знакомы с конкретными примерами наказаний. Они включают такие вещи, как тайм-ауты, заземление или потеря привилегий. Однако, как и при подкреплении, наказание можно разбить на положительное наказание и отрицательное наказание.

  • При положительном наказании вы добавляете что-то неприятное в ответ на поведение. Например, ребенок жует резину в классе, что противоречит правилам. Наказание — это учитель, дисциплинирующий их перед классом. Ребенок останавливает жевательную резинку в стекле.
  • При отрицательном наказании вы убираете положительное подкрепление в ответ на поведение. Например, старшая сестра выбирает своего младшего брата. Наказание заключается в том, что родитель забирает свою любимую игрушку. В результате девушка перестает собирать брата.

Итак, следует ли использовать негативное подкрепление или наказание? Подумайте о своей цели. Если для повышения определенного поведения отрицательное подкрепление является лучшим подходом. Если это уменьшает поведение, наказание может быть лучшим путем.

Это плохо?

Положительное и отрицательное подкрепление

Положительное и отрицательное подкрепление находятся в инструментальной обусловленности. То есть тип обучения, основанный на развитии, усилении и поддержании поведения и может быть изменен путем управления последствиями..

В зависимости от ситуации, в которой начинается инструментальное обучение, определенный тип ответа будет осуществляться с конкретными результатами. 

Если эффект поведения является удовлетворительным для человека, это будет своего рода стимулом для аппетита. С другой стороны, если усилитель отрицательный, мы будем говорить об отрицательном стимуле.

В случае положительного подкрепления примером может служить получение хорошей квалификации на работе или получение экономического бонуса в обмен на хорошую работу, выполненную в офисе..

С другой стороны, в случае отрицательного подкрепления выполнение определенного поведения приведет к исчезновению стимула отвращающего характера, усиливая указанное поведение. 

Примером отрицательного подкрепления может служить ребенок, который делает домашнее задание, чтобы учитель не разговаривал со своими родителями и не наказывал его или не уезжал раньше времени, чтобы избежать пробок и прийти на работу раньше..

Оба типа подкрепления приводят к увеличению скорости ответа субъекта в будущем, либо путем стимуляции аппетита, либо путем устранения неприятного стимула..

Большой куш

Одним из наиболее полезных приемов пищевого или какого-либо другого подкрепления для человека и животных является получение куша. Это награда, которая во много, иногда в 10 раз больше обыкновенного подкрепления и являющаяся сюрпризом для субъекта. В рекламном агентстве, где я когда-то работала, бывали официальные вечера на Рождество, а также неофициальные праздники по поводу окончания большой работы или заполучения нового клиента. Но у председателя правления была еще привычка устраивать в год один-два абсолютно неожиданных вечера. Внезапно в середине дня он проносился по всем комнатам конторы, крича, чтоб все кончали работу.

Коммутаторы выключались, появлялась процессия поставщиков провизии, музыканты, буфетчики, шампанское, копченая семга, и все это только для нас и безо всякой особенной причины. Это было неожиданным кушем для пятидесяти человек. Я думаю, что это очень способствовало поднятию духа коллектива.

Куш можно использовать и для того, чтоб отметить внезапное озарение. Один мой знакомый наездник, когда лошадь впервые проделывает какой-нибудь сложный маневр, соскакивает с нее, освобождает от седла и уздечки и свободно выпускает на манеж — куш полной свободы, который часто, по-видимому, может привести к образованию новой линии поведения. Как ни странно, получение всего одного куша может так же улучшить ответы непокорного, испуганного или сопротивляющегося субъекта, который вообще не проявлял нужного поведения. В океанариуме «Жизнь моря» мы проводи ли исследования по заданию ВМС США, в которых дельфин получал подкрепление за новые реакции, осуществляемые вместо старого, ранее выработанного поведения. Испытуемой была понятливая самочка по имени Хоу, которая редко давала новые ответы. Когда ей не стало удаваться получать подкрепления за свои действия, она стала неактивной, и в конце концов в течение одного занятия за двадцать минут не дала ни одного ответа. Наконец, тренер кинул ей пару рыбок «ни за что». Явно ошарашенная такой щедростью, Хоу снова стала активной и вскоре выполнила движение, которое можно было подкрепить, что привело к несомненному прогрессу на последующих занятиях. Я сама бывала в таком же положении, как этот дельфин. Когда мне было пятнадцать лет, самым большим удовольствием для меня были уроки верховой езды. Конюшни, где я занималась, продавали билеты, каждый на десять уроков; по своим деньгам я могла позволить себе один билет в месяц. В то время я жила с отцом, Филиппом Уили, и мачехой, Рики; и хотя они относились ко мне очень хорошо, я вступила в один из тех периодов юности, когда беспрерывно целыми днями бываешь невыносимо грубым и противным. Однажды вечером супруги Уйди, которые были любящими и изобретательными родителями, сказали, что они ужасно устали от моего поведения и поэтому решили меня наградить. И они презентовали мне ослепительно новый, дополнительный бесплатный билет на верховую езду. Один из них не поленился съездить на конюшни, чтобы купить его. Поразительно! Незаслуженный куш. Как мне помнится, я с ходу переменилась, и Рики Уйди подтвердила это много лет спустя, когда я писала эту книгу. Почему назаработанный куш может оказать такое внезапное и далеко идущее влияние, я не совсем понимаю. Может быть, со временем кто-нибудь напишет диссертацию по этому поводу и объяснит нам это. Я только знаю, что дополнительный билет на верховую езду мгновенно снял у меня сильные чувства угнетенности и обиды, и я подозреваю, что и дельфин чувствовал то же самое.

Разновидности отрицательного подкрепления

Отрицательное подкрепление может быть разным, охватывая весь спектр неприятных ощущений:  легкий сквозняк из открытой форточки, от которого собака уходит в более уютное место , окрик владельца и шлепок газетой, которым он «награждает» помочившегося в неположенном месте щенка, электрический «укол» электроуправляемого ошейника.

Самое распространенное отрицательное подкрепление, которое применяю лично я — это рывок поводка с одновременным окликом собаки по кличке. С помощью этого коррекционного воздействия я даю понять своей собаке информацию о том, каким ее поведением я недовольна, а подкрепляя следом «исправившуюся» собаку, я сообщаю ей, как следует себя вести в данной ситуации.

Типы программ подкрепления

Для того чтобы поведение можно было быстро приобрести, к нему прибегают к непрерывному подкреплению и применяют частичное или прерывистое подкрепление, чтобы сохранить изученное поведение, тем самым предотвращая его исчезновение. Идеально играть, чтобы объединить оба. 

Непрерывное усиление

На ранних этапах обучения именно тип подкрепления чаще всего используется для установления сильной связи между реакцией и последующим или усиливающим стимулом. Как только эта связь установлена, подкрепление обычно более прерывисто.

Это называется непрерывным, потому что человек выполняет желаемый инструментальный ответ, чтобы усилить поведение. 

Частичное подкрепление

В этом случае ответы или поведение подкрепляются в некоторых случаях, а не непрерывно, как в предыдущем случае.

Поведения приобретаются медленнее, но они более устойчивы к вымиранию или прекращению действия усвоенного поведения, потому что подкрепление становится непредсказуемым, создавая более устойчивую схему реагирования. Аналогично, в этом типе есть четыре подтипа:

1- Фиксированное соотношение

Программы непрерывного усиления также являются программами частичного усиления с фиксированным отношением 1, поскольку каждый раз, когда субъект дает ответ, усилитель будет получен..

2- Переменная причина

В этом случае количество ответов, которые субъект должен выполнить, чтобы получить подкрепление, является переменным.

Это не позволяет человеку предсказать, каким должно быть количество ответов, чтобы получить подкрепление.

3- Фиксированный интервал

В интервальных программах получение подкрепления не будет зависеть от количества полученных ответов, но будет зависеть от времени.

В программах с фиксированным интервалом время, установленное для получения усилителя, не изменяется. В свою очередь, это вызывает высокую скорость отклика, когда известно, что усилитель находится рядом.

4- Переменный интервал

Получение усилителя в этой процедуре также будет зависеть от времени, которое проходит.

Разница с предыдущим состоит в том, что это время является переменным, то есть ответы усиливаются, если они выполняются через переменный интервал времени от предыдущего усилителя..

ссылки

  1. Домян М. Принципы обучения и поведения. Paraninfo. 5-е издание.
  2. Что такое отрицательное армирование? Восстановлено с Verywell.com. 
  3. Что такое положительное подкрепление? Восстановлено с Verywell.com. 
  4. Что такое график армирования? Восстановлено с Verywell.com. 
  5. Оперантное кондиционирование. Восстановлено с explorable.com. 
  6. Арматурные программы. Восстановлено от psicologia.wikia.com. 
  7. Bados A., García-Grau E. (2011). Оперантные техники. Кафедра личности, оценки и психологического лечения. Факультет психологии, Университет Барселоны.diposit.ub.edu. 
Понравилась статья? Поделиться с друзьями:
Психея
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!:
Нажимая на кнопку "Отправить комментарий", я даю согласие на обработку персональных данных и принимаю политику конфиденциальности.