mercredi 8 mai 2019

Paramètres de distribution du renforcement positif en classe

La modification du comportement par le conditionnement opérant demande une certaine maitrise de ses concepts. Elle doit être soigneusement planifiée. Il peut être tout à fait opportun d’inscrire cette démarche à l’intérieur d’un programme de renforcement positif qui peut être soutenu à l’échelle d’un établissement.


(Photographie : Raoul Gatepin)


Nous l’avons vu dans un article sur le conditionnement opérant. Le renforcement tend à mieux fonctionner que la punition pour le façonnement du comportement. Cela n’exclut toutefois pas l’utilité de cette dernière.


Importance du renforcement


Le renforcement et la punition sont des conséquences contingentes et postérieures à un comportement. Dans la perspective de l’ABC du comportement, la conséquence peut être définie comme l’effet d’une action qui peut à son tour devenir un antécédent pour un comportement ultérieur. L’enjeu des conséquences est d’affecter le comportement futur. Elles peuvent contribuer à l’augmenter, à le diminuer ou à le maintenir.

Comme tout animal soumis à un conditionnement opérant, un élève peut apprendre en présence de certains stimuli. Il ne va pas apprendre en présence d’autres stimuli. Si nous voulons travailler sur l’impact des conséquences, il faut que le système soit intelligemment pensé et qu’il puisse être optimisé. De la même manière, il doit posséder une certaine marge de manœuvre pour répondre à des cas particuliers.

Renforcements et punitions n’ont pas la même efficacité, les premiers l’emportant largement sur les seconds sans que nous puissions nous en passer non plus. De plus, l’efficacité et la valeur d’une conséquence sont déterminées par la manière dont elle va rencontrer la motivation de l’élève et l’amener à contrôler son comportement.

L’idée est que prenant en compte l’ABC du comportement, nous pouvons agir pour limiter un comportement dans un contexte particulier :
Par exemple, un élève peut systématiquement poser problème avec un ou plusieurs enseignants et jamais avec d’autres alors que tous appliquent les mêmes routines et règles de classe.
Dans cette situation, visiblement, le système de gestion de la discipline, tel qu’il est, présente des failles. Il est donc intéressant de s’intéresser aux antécédents qui déterminent le comportement perturbateur.
Lorsque nous comprenons quels sont les éléments déclencheurs, nous pouvons agir spécifiquement et d’une manière individualisée pour tâcher d’éteindre et d’amenuiser efficacement la fréquence de ce comportement.


Un autre principe intéressant est que les individus généralisent leurs réponses à typique à certains stimuli à ceux qui leur ressemblent. Un individu qui a connu une mauvaise expérience avec un grand chien risque d’avoir peur de tels chiens. Il peut également ressentir peu à peu de la peur à la vue de n’importe quel chien. 

Une fois qu’une réponse a été renforcée en présence d’un stimulus discriminant, un stimulus similaire est susceptible de devenir un stimulus discriminant pour cette même réponse.

Par exemple, un enjeu scolaire est que les élèves adoptent le même comportement en classe, quel que soit l’enseignant, de manière à obtenir des conditions de travail exemplaires et une certaine uniformité.
Les enseignants ont dès lors intérêt à adopter les mêmes routines de classe et les mêmes procédures pour les renforcer et les installer.
Si les élèves perçoivent ce cadre, il est plus facile pour eux de s’y conformer d’un enseignant à l’autre. De même si un nouvel enseignant apprend ce cadre, l’adopte et le met en place en classe, il y a plus de chances que la relation qu’il créera avec ses élèves sera positive. 

Dans le cadre de la gestion scolaire de la discipline, nous visons à ce que les élèves se comportent de la même manière dans chaque classe et dans chaque cours. De même, il faut qu’ils suivent un comportement spécifique et cohérent en fonction du lieu. Ainsi, une uniformité des règles et des routines de classe entre enseignants facilite les processus de discrimination et de généralisation du comportement chez les élèves.



Facteurs influençant le renforcement


De manière générale, l’effet du renforcement sur le comportement dépend de différents facteurs qui vont grandement influencer son efficacité :
  • Forme : positif ou négatif
  • Type : extrinsèque (s’il est extérieur à la personne) ou intrinsèque (s’il dépend de la personne), public ou privé, concret ou abstrait, verbal ou non verbal
  • Nature : individuel ou collectif, adapté à l’âge, au genre ou à l’origine de l’élève
  • Temporalité : immédiat ou retardé
  • Durée : court ou prolongé
  • Utilisation : systématique ou non
  • Répétition : fréquent ou rare
  • Intensité : léger (symbolique) ou conséquent 
  • Contexte : utilisé seul ou en association avec d’autres renforcements
Nous le percevons aisément à l’aperçu de cette complexité. Laisser le renforcement s’exprimer dans l’instant en fonction des intuitions et des sensibilités individuelles, sans anticipation et vision cohérente de ses caractéristiques, n’est pas gage d’efficacité. 



Risques liés à un renforcement continu



Pour bien comprendre la raison pour laquelle un renforcement distribué à profusion de manière continue et systématique se révèle contre-productif, nous devons bien saisir les idées suivantes :
  • Un renforcement partiel correspond à la situation où un renforcement n’est pas attribué systématiquement à la suite du comportement. 
  • Skinner a montré qu’un renforcement partiel fournit le même niveau de renforcement qu’un renforcement systématique. Il n’est pas nécessaire de le renforcer chaque fois.
  • De même, il a montré que lorsque le renforcement est partiel, l’extinction opérante sera ralentie lorsque le renforcement cesse d’être distribué. 
  • Par contre, si le renforcement est systématique, l’extinction opérante est plus rapide. L’extinction opérante correspondant à un retour à la situation initiale, avant le conditionnement.
Nous pouvons en conclure qu’un renforcement partiel conduira à un meilleur apprentissage, plus durable dans le temps. Si nous voulons utiliser le renforcement pour favoriser une augmentation ou une diminution de la fréquence d’un comportement, nous avons tout intérêt à ne pas le manifester chaque fois que les conditions sont propices à sa distribution.

En conclusion, il n’y a pas de sens à renforcer chaque réponse correcte donnée par l’élève ou chaque manifestation adéquate du comportement. À trop donner du renforcement, nous sommes susceptibles d’installer rapidement le comportement voulu. Toutefois, celui-ci restera fragile et quelque peu superficiel. L’arrêt de la distribution du renforcement peut entraîner une extinction rapide du comportement souhaité, ce qui n’est pas l’effet recherché.

Un exemple parlant est celui d’un distributeur de boissons. Chaque fois qu’un élève mettra de l’argent dans le distributeur, il obtiendra une boisson. Une relation donnant/donnant s’installe.
Si un jour l’élève met de l’argent, mais n’obtient pas de boisson, il va peut-être récidiver une seconde fois, mais s’il n’a toujours pas de boisson, il arrêtera vite. Le risque d’un renforcement continu c’est qu’il risque la mise en place d’une relation de dépendance entre le comportement et la récompense pour l’élève.
Nous pouvons en arriver à une situation où l’élève adopte le comportement voulu, mais de façon purement extrinsèque et externe.    

Dans une situation donnant/donnant, le caractère contingent n’est plus respecté, car toujours vérifié. Comme le renforcement est toujours assuré, il correspond à un état de satiété à maintenir. Lorsque celui-ci s’arrête, la modification de comportement s’aligne rapidement.

Nous pouvons en conclure qu’il faut évider de donner systématiquement du renforcement pour un comportement dont nous voulons assurer la promotion. À partir de là, la question se pose de savoir quelle est la meilleure manière de distribuer un renforcement positif.

Skinner a étudié quatre programmes de renforcement que nous allons maintenant présenter :





Le ratio fixe (RF ou FR)


Dans ce premier programme, les renforcements sont délivrés après un certain nombre de réponses.

Un renforcement d’un comportement désiré ne se produit qu’après qu’un certain nombre d’actions ont été effectuées. RF1 indique un renforcement après chaque réponse, RF10 indique un renforcement toutes les 10 réponses (10 est le ratio).

De brèves pauses dans l’exécution du comportement sont constatées après chaque renforcement donné. Elles sont d’autant plus importantes que le ratio est élevé. Directement après la réception du renforcement, le comportement voulu devient moins exprimé par l’organisme concerné.

De plus, le processus de conditionnement ralentit avec l’augmentation du ratio. Trop étirer le ratio peut même mener à l’extinction.

En conclusion, le comportement est susceptible d’évoluer assez rapidement dans ce type de programme (tant que le ratio reste raisonnable). Il correspond à des situations où l’excellence et la conformité sont visées. Le souci est que lorsque le renforcement cessera d’être distribué, une extinction rapide suivra. En bref, le programme RF n’est guère plus efficace qu’un renforcement systématique. Son principal problème est d’être prévisible pour l’organisme qui peut l’anticiper d’une certaine manière.

Exemple : un élève reçoit systématiquement une récompense après un certain nombre de fois où il exécute le comportement désiré, par exemple après une série d’exercices ou de tâches déterminées.
La recherche montre que lorsque l’attribution de la récompense cesse, le comportement est lui-même rapidement abandonné.
Les élèves ne seront pas par la suite plus motivés à faire des exercices si le renforcement disparaît.

 

L’approche du ratio fixe être utile pour installer un nouveau comportement appris :


Par exemple, un enseignant peut instaurer une évaluation sommative régulière, par exemple toutes les semaines au même moment pour une classe d’élèves peu engagés. L’enjeu est de l’amener à travailler de manière régulière. Cependant, une fois les élèves plus engagés, il est intéressant de modifier l’approche pour continuer à développer leur motivation et éviter que la dépendance et le travail soient uniquement fonction du test. Sinon les élèves ne travailleraient que pour le test, risqueraient de s’y mettre sérieusement un ou deux jours avant et ne feraient rien les quelques jours qui le suivent.





Le ratio variable (RV)


Les renforcements sont délivrés après un nombre variable d’exécutions du comportement ciblé.

Dans ce programme, le nombre moyen de réponses entre les renforcements est prédéterminé. Un programme RV10 donne en moyenne un renforcement après 10 réponses, mais il peut advenir après 1 ou après 20 réponses.

Le jeu est sous le contrôle du programme RV mais l’individu concerné est amené à parier sur le fait que la récompense arrivera ou non après l’exécution suivante du comportement attendu. 

Un fait très intéressant est que le RV a une plus grande résistance face à l’extinction que le RF.

Le comportement va changer rapidement dans ce type de programme. Il correspond à des situations où l’excellence et la conformité sont visées. Ce programme ne présente pas de pauses après le renforcement comme le RF en avait et l’extinction sera de même ralentie par rapport au RF.

L’absence de pauses significatives est une caractéristique frappante des programmes de ratios variables, étant donné leur omniprésence sur les programmes de ratios fixes.

Le fait que les pauses soient éliminées rend le conditionnement rapide.

Par exemple, ce mode de renforcement peut servir à soutenir la performance. Nous pouvons imaginer une tâche de pratique autonome en classe. Durant celle-ci, l’enseignant circule et vérifie le travail exécuté en passant aléatoirement dans les bancs. En fonction de la qualité ou de la quantité de travail fourni, l’élève est soit renforcé positivement et autorisé à passer à la suite ou faire ce qu’il veut, soit il doit améliorer et reprendre son travail. Le conditionnement incite l’élève à fournir un rendement élevé et un travail soigné. Le côté variable du passage de l’enseignant soutient un engagement constant.   




Les intervalles fixes (IF)


Les renforcements sont délivrés après la première réponse qui suit un intervalle de temps donné et fixe.

Le renforcement est donné après la première réponse, après un intervalle de temps fixé. Sur un programme IF10, le sujet, après avoir reçu un renforcement, doit atteindre 10 secondes (ou 10 minutes, 10 jours, 10 semaines par exemple) avant qu’une autre réponse puisse être renforcée, quel que soit le nombre de réponses.

Immédiatement après chaque réponse donnée, le sujet donne peu de réponses ou n’en donne aucune. Toute réponse donnée pendant ce délai n’est pas renforcée. À mesure que nous nous approchons du moment de la récompense, le sujet répond de plus en plus. Le sujet apprend à retenir son geste jusqu’à l’écoulement d’un délai.

Le comportement va changer lentement dans ce type de programme, l’extinction sera elle-même rapide.

La transition de la non-réponse (après le renforcement) à la réponse à taux élevé (vers la fin de l’intervalle fixe) prend habituellement la forme d’une courbe. Elle n’a pas l’allure d’un saut soudain d’un niveau plat à un niveau en forte hausse.

Par exemple : Les élèves reçoivent un bulletin d’évaluation à des périodes fixes. Les élèves vont peu travailler en début de période et peu s’investir. Au fur et à mesure que nous nous approchons du bulletin suivant, les élèves vont se mettre à travailler de plus en plus intensément. Ils savent que ça va se traduire par des points (qui servent de renforcement).

La conséquence de renforcements à intervalles fixes est que cela peut mener à un rendement moyen et assez bas en matière de conditionnement. 

Ce type de programme et de placement des échéances peut favoriser la procrastination chez les élèves qui ont une faible capacité d’autorégulation. L’élève se contente du minimum requis, n’appuyant sur l’accélérateur que dans les dernières longueurs. L’élève attend le dernier moment, ce qui se traduit par un travail plus négligé, un rendement faible et un apprentissage plus superficiel.
Comment expliquer ce comportement des élèves ?

Travailler trop tôt n’aura que peu d’influence sur la note finale. C’est donc gaspiller de l’énergie. En s’économisant au début, les élèves se garantissent que, sous l’effet du stress et de l’anxiété, ils s’investiront doublement une fois que les échéances approcheront. Le rapport effort/renforcement sera maximum en matière de performance personnelle ressentie.
Il est plus facile de s’investir en fin de période, avant les évaluations, car ce travail sera rapidement suivi d’un renforcement par la réussite. Les efforts fournis plus tôt seront certes récompensés, mais avec un plus grand retard et donc un moins grand sentiment d’efficacité relative.



Les intervalles variables (IV)



Les renforcements sont délivrés après la première réponse qui suit un intervalle de temps variable.

Dans le cas des intervalles variables (IV), l’intervalle moyen est prédéterminé. Par exemple, dans un programme IV20, les renforcements sont donnés à un rythme moyen de 1 toutes les 20 secondes.

Ce programme génère un taux de réponse modéré, mais stable. L’extinction dans un programme IV est beaucoup plus lente que dans un programme IF.

Le comportement va changer lentement dans ce type de programme, l’extinction sera elle-même lente. Ici, le sujet ne peut prévoir laquelle de ses réponses sera renforcée.

L’approche peut être utile lorsqu’il s’agit de renforcer des comportements déjà établis.

Par exemple, un enseignant soumet régulièrement ses élèves à des évaluations à faibles enjeux qui sont non annoncées. Les élèves ne savent pas quelle est l’importance réelle de chaque évaluation ni comment la rétroaction va se manifester.
Cela génère de l’anxiété chez l’élève qui ne travaille pas régulièrement. Cela va stimuler son travail. 
  • Si les élèves travaillent régulièrement de façon naturelle, ce conditionnement peut être bénéfique pour maintenir le rythme, car la réussite aux évaluations à faibles enjeux va servir de renforcement positif. 
  • Si ce n’est pas le cas et que les élèves sont en partie désengagés, cette approche peut être contre-productive et mener à leur décrochage si des garde-fous ne sont pas mis en place.








Conclusion 


Le fait que l’élève sache qu’il y a un degré d’incertitude est essentiel dans la distribution du renforcement positif. Les élèves ne vont pas être amenés à fournir un effort constant s’ils pensent qu’ils seront récompensés quoi qu’ils fassent. La même chose se passe s’ils pensent qu’ils peuvent ne s’engager qu’en dents de scie dans des comportements attendus.

Les taux et intervalles variables offrent la dose de tension nécessaire et aident à maintenir l’engagement. Ils sont donc plus intéressants que leurs équivalents fixes et offrent une meilleure résistance à l’extinction.

Plus spécifiquement, les intervalles variables fonctionnent bien pour maintenir des comportements déjà installés tandis que le ratio variable est plus adéquat pour changer efficacement et rapidement des comportements.

En fonction du contexte et de la situation, nous avons intérêt à choisir entre eux ou combiner les deux. 

Ces manipulations de la prévisibilité rendent le comportement opérant plus résistant à l’extinction. Le caractère imprévisible amène l’individu à parier sur l’occurrence du renforcement s’il effectue le comportement, ce qui l’incite à l’exprimer et à le poursuivre. Ainsi, si le renforcement positif est important et efficace, c’est dans la mesure où il est distribué tactiquement. Il permet d’installer un comportement et de le maintenir à faible coût pour l’enseignant.


Mise à jour le 28/01/21


Bibliographie


Gerrig & Zimbardo. Psychologie 18e édition. Pearson. 2013, pp 145–154

David Didau & Nick Rose, What if every teacher needs to know about psychology, John Catt, 2016, pp 153–154

http://www.uqac.ca/deptdse/3psy206/facapp/condc.html

https://wikispaces.psu.edu/display/PSYCH484/3.+Reinforcement+Theory#id-3.ReinforcementTheory-schedulesofreinforcement

http://users.ipfw.edu/abbott/120/Schedules.html

0 comments:

Enregistrer un commentaire