Archives pour la catégorie Dog Event Science 2018

Blazing clickers – Dog Event Science 2018

clicker

Dans ce qu’on appelle l’apprentissage des animaux par « marqueur » (clicker ou autre marqueur), cette procédure représente une communication que nous envoyons à l’animal pendant le processus d’apprentissage.

Le marqueur (que je vais désormais résumer à « clicker » par facilité de lecture, même si, évidemment, ce n’est pas l’unique marqueur possible) permet de marquer, avec une extrême précision (uniquement limitée par les compétences du « trainer »), un comportement spécifique et contribue à faire le lien entre ce comportement et sa conséquence. 

On l’appelle également « bridging stimulus » (bridge = pont) car il fait le lien (le pont) entre le comportement et sa conséquence.  Quand la conséquence est agréable pour l’animal, le comportement s’intensifie en fréquence d’apparition ou en force d’exécution ou les deux.

bridge

sans renforçateur, le click est un pont « vers nulle part »  :-D (Dr. Susan Friedman)

Pavlov et Skinner concluent, tous les deux, que pour qu’un renforçateur secondaire maintienne sa puissance, sa signifiance, chaque click doit être associé à un renforçateur. 

A l’identique pour Bob et Marian Bailey et leur infinie expérience de travail sur les animaux qui nous le confirment.

skinner

Il existe un épiphénomène que les anglophones appellent les « blazing clickers »  ;-) (est-ce la thématique qui est brûlante?). 

En très simple, quelques « experts » (ou non d’ailleurs) affirment qu’il ne serait pas nécessaire, voir qu’il serait contre productif d’associer chaque click à un renforçateur et que cette manière de faire (cliquer sans renforcer) obtiendrait (malgré tout ?) les résultats souhaités, voir, de meilleurs résultats.

Vu que cette thématique a été soulevée par le Dr. Simon Gadbois à Dog Event Science 2018, j’ai pensé apporter quelques explications à ce sujet… après, à chacun de se faire son opinion personnelle via, évidemment, des expériences personnelles appropriées (pas d’ambition évangélique chez moi)  :-D

dogevent

Que dit Gadbois ? que l’apprentissage arrive par la motivation et que la motivation est la résultante de l’anticipation.

Je suis toute prête à croire que notre organisme est plus intensément sollicité dans le processus de « recherche » du plaisir que dans le plaisir lui-même parfois ou, en tous cas, sollicité différemment.

ll reste que ce « seeking » ou « wanting » system dont parlent Panksepp et Berridge, s’il est très intense, ne promeut pas forcément le bien-être. 

wanting

C’est Gadbois lui-même qui a fait le parallèle avec l’addiction – j’en ai une justement : je fume (et j’adore fumer)   :mrgreen:

Si je suis privée de cigarettes sur une longue période (ou même pas si longue que ça), je suis à peu près certaine que mon cerveau est infiniment plus sollicité que quand, finalement, je l’allume et je tire dessus (liking system)  8-)

Toutefois, je suis tout aussi certaine que j’éprouve un plus grand bien être quand je fume que quand je cherche mes cigarettes partout sans les trouver  :-D

wanting

Peut-être, probablement que le « seeking » nous rend plus efficaces (puisqu’il sert à ça) mais nous rend-ils plus heureux ? sereins, détendus ? Je me pose la question.

Autre exemple donné par Gadbois – deux chats qui, selon son exposé à  Dog Event Science avaient été « renforcés » pour avoir touché une cible (un objet)… 

cats

On en déduit, assez logiquement, qu’ils ont reçu de la nourriture… (il parle bien de «récompense », j’ai vérifié sur notre support de cours).

Gadbois nous relate que les chats s’approchaient ensuite de l’objet qui ne leur avait valu aucun renforcement de préférence (ayant appris le comportement de toucher une cible à un nombre considérable d’espèces, j’étais très perplexe).

Jusqu’à ce que je me souvienne, post conférence, d’avoir lu cette expérimentation dans «Affective Neuroscience » de Jaak Panksepp… que je suis donc allée consulter.

Les chats ont reçu une stimulation cérébrale quand ils se rendaient dans une zone précise et pas de stimulation cérébrale quand ils se rendaient dans une autre… 

Panksepp lui-même relativise en n’excluant pas qu’ils aient pu développer une amnésie partielle suite aux stimulations et/ou que les dites stimulations cérébrales se soient finalement révélées aversives (personne n’est dans l’organisme du chat au fond). 

 Expérience des chats toute relative donc  8-)

Revenons à nos « blazing clickers »… via le papier de Martin and Friedman (2011).

  1. Le terme « click » fait référence à tout renforçateur conditionné utilisé dans l’apprentissage afin de renforcer de manière contigüe un comportement. Il est synonyme de renforçateur conditionné ou renforçateur secondaire, stimulus conditionné, bridge ou pont conditionné, marqueur d’événement et marqueur.
  1. Le terme « renforçateur » définit un renforçateur conditionné ou non qu’on exploite pour conditionner et maintenir la puissance de renforcement du click. Le mot renforçateur est remplacé, dans la terminologie courante, par le mot « friandise » ou « bonbon » – en effet, le plus souvent le renforçateur est de la nourriture.
  1. Le terme « blazing clickers » fait référence à la pratique de cliquer de manière répétée sans fournir un renforçateur immédiatement après.

 Blazing clickers 

Il est intéressant de constater que cette pratique est très répandue chez les « trainers » d’animaux sauvages captifs (zoos, aquariums, parcs animaliers mais également d’animaux domestiques en laboratoire), elle est très rarement préconisée dans les cours clicker training et relativement peu appliquée chez le chien de sport ou de famille.

Un des fondamentaux du clicker training est, précisément que « à chaque click, son renforçateur ».

Il existe bien des « agility people » qui cliquent tous les sauts et ne renforcement jamais mais, vu qu’ils travaillent avec des Borders pour qui travailler est déjà un énorme renforçateur en soi, je pense que nous sommes plus dans le comportement superstitieux qu’autre chose  ;-)

Les animaux captifs (zoos ou toute autre structure de ce style) n’ont guère d’alternatives gratifiantes en dehors de ces séances de « training » (le dauphin, dans son bassin où il s’ennuie prodigieusement, est certainement motivé à essayer encore… il n’a rien à perdre et quelque chose à gagner). Ils sont, parfois, légèrement sous alimentés également… pas systématiquement mais ça arrive  :roll:

(et, évidemment, tu repenses immédiatement à cette malheureuse Dawn Brancheau qui s’est fait dévorer justement… parce que Tillikum était en frustration ayant exécuté et PAS reçu de poisson).

orca

A l’identique avec le volatile dans une cage, mentionné pendant la présentation, qui picorait fortement sa cible (précédemment renforcée) alors qu’il n’y avait plus de renforçateurs à disposition : quelle autre option que cet unique comportement « payant »? et quel autre « choix » que de le mettre en pratique encore et encore, avec l’énergie du désespoir?  :cry:

Quand nous sommes enfermés dans un ascenseur en panne et que l’aide n’arrive pas, nous appuyons compulsivement sur le bouton « assistance » même s’il semble ne pas fonctionner… que pouvons-nous faire d’autre? et quelles sont nos émotions surtout?

ELEVATOR ALARM

Ce n’est de très loin pas le cas avec nos chiens qui, eux, ne sont ni affamés ni en privation de gratifications autres - ils peuvent aisément décider qu’aller ronger leur os ou renifler un trou de taupe est finalement tout aussi bien et demande moins d’efforts ;-)

Retriever with bone chewing

Ensuite : l’étude de l’apprentissage nous dit qu’un rythme de renforcement variable rend le comportement plus résistant à l’extinction et incite l’animal à produire plus de comportement afin d’obtenir son renforçateur.  

Quand cette information a atteint certains autres supporters de l’approche « blazing clickers », ils en ont déduit que cette « variabilité» s’appliquait uniquement au renforçateur primaire et pas au « bridge» (click).

A mon sens, c’est une piètre interprétation d’un concept clair  :roll:

En effet, en cliquant chaque comportement approprié et en distribuant un renforçateur sporadiquement, on n’est PAS dans un rythme de renforcement variable mais continu, techniquement parlant  (la seule chose qu’on accomplit c’est d’affaiblir le renforçateur secondaire). 

Pourquoi le font-ils alors ? Parce que cliquer est un renforçateur pour le trainer, il nous donne la preuve tangible que le comportement s’est vérifié, comme une confirmation pour nous-mêmes.

S’entendre cliquer 20 fois d’affilée est gratifiant pour l’humain, sans aucun doute, une manière de s’auto-congratuler  :-D

superstition

Revenons au papier de Martin et Friedman, 2011…

Martin et Friedman ont détaillé certains des points mis en avant par les supporters des «blazing clickers »…

Affirmation : le click est déjà un renforçateur (parfois juste aussi puissant, voir même plus puissant qu’un renforçateur secondaire), il n’y a pas besoin d’autre chose.

Remarques : 

  • Si le renforçateur secondaire est parfois aussi fort que le renforçateur primaire, il l’est parce que systématiquement associé à d’autres renforçateurs qui, justement, lui donnent sa puissance (sinon, il ne serait qu’un bruit sans signification)
  • Les renforçateurs primaires sont des renforçateurs par définition – alors que les renforçateurs secondaires ont besoin des primaires pour acquérir – et maintenir leur puissance et qualité de renforcement
  • A chaque fois qu’un click se produit sans être suivi d’un renforçateur, il perd un peu de sa capacité de se comporter comme un renforçateur
  • Si le click n’annonce plus l’arrivée du renforçateur, l’animal peut se mettre à chercher ailleurs dans l’environnement un signal prédictif de l’arrivée du renforçateur (comme la main du trainer qui s’approche de la pochette à friandises). L’animal peut se focaliser sur ce mouvement comme le « marqueur officiel » délaissant ensuite le click comme information non pertinente. 

Affirmation : les « blazing clickers » rendent le travail plus intéressant et moins prévisible pour l’animal

Remarques : 

  • Si la variété est, effectivement, importante, elle doit se situer dans les renforçateurs primaires et leur qualité, la difficulté des comportements travaillés et le rythme de la séance d’entraînement – pas par des clicks qui ne sont pas suivis par un renforçateur. 
  • Suite à des comportements marqués mais non renforcés, les animaux voient leur attention de dégrader (plusieurs comportements demandés successivement avec un click après chaque comportement correct et une unique, grosse récompense à la fin).

Affirmation : 

Le comportement sera plus résistant dans une approche de « blazing clickers » parce que sa résultante de renforcement variable procure l’excitation d’une machine à sous…

Remarques :

  • Un rythme de renforcement intermittent crée la persistance une fois qu’un comportement est bien établi et fluide mais, ne pas distribuer de renforçateur ne change rien au fait que, techniquement, on reste dans une dynamique de renforcement continu si on affirme que le click est un renforçateur (sinon, il n’est qu’un bruit sans signification et, dans ce cas, à quoi sert-il ?).
  • Quand on a besoin d’introduire une certaine persistance dans un comportement, il est préférable d’enseigner un comportement avec un rythme de renforcement continu et, ensuite, quand celui-ci est appris, passer à un rythme de renforcement variable. Chaque click reste associé à un renforçateur mais on demande graduellement plus de comportement, de durée, de persistance, d’affirmation.

Affirmation : 

L’approche du « blazing clicker » réduit la frustration et l’agressivité inhérente à la frustration parce que le chien ne s’y attend pas de manière automatique et systématique.

Réponse : 

  • Planifiez votre séance de travail avec des critères adéquats ou planifiez des séances plus courtes afin de minimiser / éviter de créer toute forme de frustration.
  • Nous avons des données qui confirment que ces clicks sans renforçateur favorisent l’apparition de comportements d’agression par frustration. 

Affirmation : 

Le clicker peut à la fois dire à l’animal qu’il a fait « juste » mais également qu’il doit continuer à faire ce qu’il est en train de faire. Le click peut avoir différentes significations.

Remarques :

  • Libre à vous de vous créer un « keep going signal » (continue à faire ce que tu fais) mais le click ne peut pas avoir 2 significations à la fois (tout comme le feu vert ne peut pas signifier « avance » et « reste sur place » à la fois). 
  • Un click qui implique « continue » et « le renforçateur arrive » est une communication plus laborieuse et créatrice d’une confusion inutile.

En clair, Martin et Friedman (2011), affirment clairement que chaque fois que nous cliquons sans renforcer, l’animal est soumis à une extinction qui diminue la portée du clicker, même identique son de cloche de Bob & Marian Bailey  :-D

Quand on clique un animal et qu’on associe le click à un renforçateur primaire (alimentaire), l’animal est à chaque fois soumis à un conditionnement classique (ou pavlovien). 

pavlov

Quand le stimulus conditionné est utilité de manière répétée sans le stimulus inconditionnel (donc click et pas de friandise), la réponse devient progressivement de plus en plus faible.

Ce processus s’appelle l’extinction (Chance, 2003). Plus un comportement aura été renforcé et plus il sera résistant à l’extinction.

En conclusion…   

Le matin, quand je rampe jusqu’à ma machine à café qui est un très gros renforçateur pour moi j’appuie sur un joli bouton vert et ma tasse se remplit de café qui me ramène à la vie.

Un joli renforcement négatif : en effet, mon manque de caféine, comme mon manque de nicotine d’ailleurs, me mettent dans un état d’inconfort – me débarrasser de cet inconfort fixe, très solidement, mon addiction au café (et à la clope, hélas).

coffee

Si c’est probablement ma première motivation à sortir du lit, c’est bien le café auquel j’aspire et certainement pas à la trépidante attente de savoir si, oui ou non, je vais obtenir mon précieux breuvage.  Si ma machine à café devait montrer le moindre « raté », non seulement j’en concevrais une intense frustration (la frustration s’apparente allègrement à la colère) mais un désir impérieux de rétablir les choses.

Je reconnais toutefois la puissance de mon « wanting system » qui, à Paris, m’a envoyée dans la rue déserte et toute seule à 6 heures du matin (à la recherche d’un café introuvable à l’hôtel)  :roll:

Le Dr. Simon Gadbois a suggéré le bénéfice de cette trépidante anticipation en imaginant que, quand il entend le click, le chien se dit « vais-je recevoir une friandise ou non ? » – ce qui l’engagerait à travailler plus efficacement (ce qui m’apparaît comme un audacieux pari).

Dans un labo, les chiens qui ne « performent » pas, sont écartés de l’expérimentation en définitive, les animaux captifs vont s’acharner faute de choix mais nos chiens? J’en reviens à l’option « je vais ronger mon os / je vais renifler le trou de taupe » cité plus haut. 

Quoi qu’il en soit, pour mes chiens, le click est une certitude inébranlable de voir arriver la friandise, pas une hypothèse, encore moins un pari.

La simple vue du clicker les branche, automatiquement, en mode travail (idem pour les friandises d’ailleurs).  

Cette dimension « prévisible » et « honnête » (je tiens mes promesses) est le fondement même d’une approche en clicker training.

Un dialogue fiable, un interlocuteur cohérent sur lequel on peut compter – n’est-ce pas la définition même de la confiance?

Evidemment, si je jouais aux machines à sous, je pourrais ressentir le grand frisson d’un hypothétique espoir de gain (je n’ai pas le goût du jeu, personnellement, et je ne ressens que l’irritation d’avoir gaspillé de l’argent) et accepter, peut-être, de ne rien gagner sans avoir envie de fracasser la machine.

slotmachine

Par contre, mon comportement de jeu s’arrêterait très vite après 2 ou 3 tentatives infructueuses (le mien, peut-être pas le vôtre… il existe bien des joueurs compulsifs qui se ruinent  dans ce type de jeu mais, là aussi, il y a des facteurs environnementaux majeurs à considérer). 

Et si gagnais de temps en temps ?

Je pense que mon comportement de jeu serait, effectivement renforcé mais toujours accompagné d’une forte d’irritation vis-à-vis de mes nombreux essais non renforcés.

A quel point mon comportement de jeu serait maintenu me semble individuel (motivating operations), environnemental et intimement relié au fait de gagner assez souvent ou pas très souvent (alors pourquoi pas ne pas gagner tout le temps ?).

Si, alors que j’ai très très soif, je mets 2 francs dans la machine parce que j’aspire à une canette de Coca Cola et que la machine ne distribue pas ma boisson, c’est essentiellement la frustration et la colère qui seraient mes émotions de base (et je ne remettrais pas 2 francs supplémentaires, encore et encore, dans l’hypothétique espoir d’obtenir ma boisson). 

cocavending

En clair, à vous de choisir – le clicker peut devenir une machine à sous, avec les émotions qui l’accompagnent (mais assurez-vous qu’il a le goût du jeu chevillé au corps ou des facteurs environnementaux propices) ou une machine qui distribue de manière tout à fait fiable, et gratifiante, le renforçateur auquel on aspire. 

 A mon sens, il ne peut pas être les deux, à vous de choisir  :lol:

Pour ma part, une émotion de prévisibilité, d’anticipation joyeuse et confiante sera toujours préférable à une anticipation fébrile, incompréhensible et souvent source de frustration  :lol:

happy

Au final, je pense sincèrement que tout « marche » (y compris certaines approches aversives d’ailleurs)… mais, outre au fait que le résultat ne peut être notre unique  préoccupation, quelle est la « added value » de cette option ?

A part économiser quelques centaines de grammes de fromage à l’année, je ne vois toujours pas  :roll:

En ayant dit tout ça, il est parfaitement vrai que je n’ai jamais pratiqué le « blazing clicker » et que, n’étant pas dans une optique de recherche (le bien-être de mes animaux me tenant plus à coeur qu’autre chose), je ne compte pas le mettre en pratique non plus – je vais devoir vivre avec mes « biais cognitifs » – comme la plupart d’entre nous  :lol:

Pour aller plus loin… 

Affective Neuroscience : the foundations of human and animal emotions (Jaak Panksepp)

Bailey, B., Bailey, M., (1998). « Clickersolutions Training Articles – Ratios, Schedules – Why And When ». Clickersolutions.com. N.p., Accessed 24 April 2016.

Chance, P., (2003). Learning and behavior (5th ed.). Belmont, CA: Wadsworth.

Egger, M. D., Miller, N. E., (1962). Secondary reinforcement in rats as a function of information value and reliability of the stimulus. Journal of Experimental Psychology, 64(2), 97-104.

Fernandez, E.J., (2001). Click or Treat: A Trick or Two in the Zoo. American Animal Trainer Magazine, 2, 41-44. Shedd Aquarium.

Langbein, J., Siebert, K., Nuernberg, G., Manteuffel, G., (2007). The impact of acoustical secondary reinforcement during shape discrimination learning of dwarf goats (Capra hircus). Applied Animal Behaviour Science. 103(1-2), 35–44.

Martin, S., Friedman, S.G., (2011, November). Blazing clickers. Paper present at Animal Behavior Management Alliance conference, Denver. Co.

McCall, C.A., Burgin, S.E., (2002). Equine utilization of secondary reinforcement during response extinction and acquisition. Applied Animal Behaviour Science. 78, 253–262.

Rilling, M., Caplan, H. J., (1973). Extinction-induced aggression during errorless discrimination learning. Journal of the Experimental Analysis of Behavior. 20, 85-92.

Smith, S.M., Davis, E.S., (2008) Clicker increases resistance to extinction but does not decrease training time of a simple operant task in domestic dogs (Canis familiaris). Applied Animal Behaviour Science. 110(3-4), 318-329.

Wennmacher, P. L. (2007). Effects of Click + Continuous Food Vs. Click + Intermittent Food on the Maintenance of Dog Behavior (Master’s Thesis). University of North Texas.

Williams, J.L., Friend, T.H., Nevill, C.H., Archer, G., (2004). The efficacy of a secondary reinforcer (clicker) during acquisition and extinction of an operant task in horses. Applied Animal Behaviour Science. 88, 331–341.

Zimmerman, D. W., (1957). Durable secondary reinforcement: Method and theory. Psychological Review. 64, 373-383.