Planning de renforcement
Issus de Pamela Reid - Excel-Erated Learning
https://touslesloulous.forumactif.com/t1988-excel-erated-learning-pamela-reidUn planning de renforcement est un programme ou une règle qui détermine comment et quand une réponse sera suivi par une récompense. Quand le chien répond, est ce que cela doit-il toujours suivi d'une friandise ou d'un click ? Cela va dépendre de l'étape d'apprentissage. Cela va dépendre spécifiquement si le chien a appris la relation entre la réponse et la conséquence. C'est important car le planning de renforcement va influencer comment la réponse est apprise et comment la réponse est maintenue. Le planning ne sera pas le même pour ces deux choses.
---
Les différents types de planning (les acronymes sont sur la base des mots en anglais^^)
1.
Planning de renforcement continu (CRF): chaque survenue de la réponse est suivi d'un renforcement.
2.
Planning de renforcement partiel ou intermittent (PRF): la réponse est renforcée seulement après certaines réponses. Cela peut être fait avec un
ratio fixe (FR), un
ratio variable (VR), un
ratio aléatoire (RR), à
intervalle fixe (FI), ou à
intervalle variable (VI).
3.
Planning de renforcement différentiel : seulement certaines vitesses de réponse ou certains types de réponses sont renforcés.
- avec un planning différentiel
de vitesse, que la réponse soit récompensée ou non, dépend de la vitesse d'arrivée de cette réponse. On peut avoir des vitesses rapides (DRH), et des vitesses lentes (DRL).
- avec un planning différentiel
de type, que la réponse soit récompensée ou non, dépend de la qualité de cette réponse. Cela peut être fait des comportements excellents (DRE), mais aussi avec des comportements incompatibles (DRI) et avec d'autres comportement (DRO)
4.
Planning de renforcement sur la durée : la réponse doit être maintenu pendant un certain temps pour que le renforcement soit aquis. Ca peut être une durée fixe (FD) ou une durée aléatoire (RD)
On peut parler aussi de 2 situations :
- les essais séparés ("discrete trials"): on demande à un chien de faire une chose et le chien est recompensé pour cela. Le chien ne répond pas de sa propre initiative. Par exemple, le chien s'assoit plein de fois, mais vous ne récompensez que ceux qui sont un résultat de votre demande. Et là, il faut le faire aléatoirement. Le chien anticipe, et c'est ce qui le fait aller plus vite dans ses comportements.
- les essais 'libre' ("Free") : l'animal est libre de répondre comme il veut.
(
Marrant : tous les planning de renforcement expliqués plus haut ont été étudié en situation de essai libre^^)
Votre chien pourrait ramener son apportable constamment si on lui en donne la possibilité, mais vous le lancez seulement si vous voulez qu'il vous le ramène. Durant la marche au pied, il y a des comportements qui se font car vous les demandez : assis, changement de vitesse, halte, tourne... Cependant le chien est aussi récompensé pour son contact visuel avec vous ("eyes contact"), et ça, on l'attend du chien sans même lui dire. La fréquence du contact visuel est un exemple d'un comportement "libre".
---
Quelques explications supplémentaires :
- Avec un planning de renforcement continu (CRF), chaque réponse est suivie d'une récompense. C'est le meilleur des planning à utiliser lors du premier enseignement d'un nouveau comportement. Un animal sous un planning CRF va répondre avec une vitesse stable et modéré avec des pauses brèves et imprévisibles. Les réponses diminuent graduellement quand l'animal arrive à satiété du renforcateur.
- Avec un planning à rapport fixe de renforcement (FR), il y a un rapport fixe entre le nombre de réponse réalisée et le nombre de récompense. Avec un planning de type FR-5, l'animal devra faire 5 fois le comportement avant de recevoir une récompense. Un planning à rapport fixe de renforcement FR-1 (1 comportement = 1 récompense) est un planning de renforcement continu (CRF)
.
Un animal sous un planning FR répond à une vitesse élevée et stable, sauf juste après le renforcement. C'est ce qui est appelé la pause post-renforcement. Plus il aura à faire de réponses avant la récompense, plus longue sera la pause.
- Avec un planning à rapport variable de renforcement (VR), le nombre de réponses requis pour avoir un renforcement varie d'une fois sur l'autre. Avec un planning VR-5, l'animal devra, en moyenne, repondre 5 fois avant d'être renforcé.
Avec un planning de type VR, l'animal répond à une vitesse élevée et stable, avec un minimum de pause.
Les machines à sous nous font fonctionner sur ce modèle. Les commerciaux travaillent aussi sur ce modèle de renforcement à rapport variable.
les chances de succès sont présentes à chaque réponse qui est faite; et plus il y a de réponses, plus il y aura de récompenses.
- Avec un planning à intervalle fixe de renforcement (FI), une récompense est donnée seulement si une réponse est produite après un intervalle de temps donné. Avec un planning FI-5, l'animal est récompensé pour la première réponse qui se produit après 5 secondes. Si la réponse est produite après 2 secondes, rien ne se passe, mais si elle se produit après 6 secondes, une récompense est donnée. Notez qu'il ne faut pas juste attendre ! il faut qu'une réponse soit donnée! Il faut donc attendre avant qu'une réponse soit récompensée.
- Avec un planning à intervalle variable de renforcement (VI), l'intervalle requis avant la récompense varie. Il faut en moyenne attendre x secondes. Comme dans le cas du VR, cela conduit à des vitesses de réponses stables et sans pause.
Le plus difficile est de déterminer le temps qu'il faut laisser couler avant de recommencer un cycle. Mais du fait de ce dernier temps, les réponses ont tendance à se répéter.
Un exemple de ce type de planning est la cafétéria des étudiants : elle est ouverte dans un intervalle de temps donné, mais avant ou après, c'est trop tard !
Un petit diagramme qui reprend un peu tout cela :
---
Les planning différentiel de renforcement sont un peu différents.
- Les planning différentiels de vitesse requièrent que l'animal réponde à une certaine vitesse pour obtenir un renforcement. Répondre avant 5 secondes par exemple. Ce n'est pas vraiment utilisé dans des situations d'entrainement
- les planning différentiel de type requièrent que la réponse doit être d'une certaine qualité pour que le renforcement soit donné. Ce type de planning est souvent utilisé pour encourager les comportements appropriés, en éliminant en même temps les comportements non voulus.
Par exemple, si votre chien aime vous sauter dessus, vous pouvez le mettre sous ce type de planning en ne renforçant que soit les réponses qui ne peuvent pas lui permettre de sauter (comportement incompatible avec le saut : assis par exemple), soit tout autre comportement. En renforçant uniquement ces comportements alternatifs, vous les forcez à apparaître plus souvent, et le saut sur vous aura tendance à disparaitre, simplement car le chien ne peut pas faire les 2 ensemble.
Un des buts finaux de ce type de planning peut être de ne récompenser que les réponses excellentes. Beaucoup de réponses peuvent varier en qualité : un assis peut être plus rapide, etc... Plutôt que de renforcer aléatoirement ces réponses, il peut être malin de renforcer ces réponses de façon différentielle, et donc de ne renforcer que celle qui se rapproche de votre perfection.
Ce serait une sorte de 'jackpot' pour l'excellence... même si vous devriez travailler comme ceci avec tout les renforcements ^^ Mais bien sur, ce que nous devons considérer comme excellant va dépendre du niveau d'apprentissage. Quand on acquière un nouveau comportement, toutes les réponses sont excellentes. Au fur et à mesure de l'apprentissage, vous devez redéfinir vos critères d'excellence.
---
Quel planning de renforcement devons nous utiliser ?Pour l'apprentissage d'un nouveau comportement, il est très efficace d'utiliser un planning de renforcement continu (CRF) comme chaque réponse est récompensée. Une fois que le chien montre que l'association entre la réponse et la récompense est bien comprise, vous devez passer sur un planning intermittent.
Comment savoir quand la réponse est apprise ?La 'Vérité' dans tout cela va dépendre du comportement en question, et des réponses du chien... Attention de ne pas maintenir un planning CRF trop longtemps : il sera plus dur de passer alors sur un planning intermittent, et cela risque d'être pris comme une punition... Il faut mieux changer le type de planning trop tôt : le chien, et ses réponses, vous diront si c'est OK. Il faut prendre des risques, mais rester flexible ! Quitte à revenir en arrière.
Comment savoir quel type de planning intermittent utilisé ?Pour une réponse "tout ou rien" : un planning à rapport aléatoire ou à rapport variable
Pour des réponses plus compliquées : un planning différentiel sur l'excellence
Pour éliminer certains comportements : des plannings différentiels type DRL, DRO et DRI