mercredi 8 mai 2019

Paramètres de distribution du renforcement positif en classe

La modification du comportement par le conditionnement opérant demande une certaine maitrise de ses concepts. Elle doit être soigneusement planifiée. Il peut être tout à fait opportun d’inscrire cette démarche à l’intérieur d’un programme de renforcement positif qui peut être soutenu à l’échelle d’un établissement.

(Photographie : Raoul Gatepin)




Nous l’avons vu dans un article sur le conditionnement opérant. Le renforcement tend à mieux fonctionner que la punition pour le façonnement du comportement. Cela n’exclut toutefois pas l’utilité de cette dernière.



Comprendre le renforcement dans la perspective de l’ABC


Le renforcement et la punition sont des conséquences contingentes et postérieures à un comportement. Dans la perspective de l’ABC du comportement, la conséquence peut être définie comme l’effet d’une action qui peut à son tour devenir un antécédent pour un comportement ultérieur. L’enjeu des conséquences est d’affecter le comportement futur. Elles peuvent contribuer à l’augmenter, à le diminuer ou à le maintenir.

Comme tout animal soumis à un conditionnement opérant, un élève peut apprendre en présence de certains stimuli. Il ne va pas apprendre en présence d’autres stimuli. Si nous voulons travailler sur l’impact des conséquences, il faut que le système soit intelligemment pensé et qu’il puisse être optimisé. De la même manière, il doit posséder une certaine marge de manœuvre pour répondre à des cas particuliers.

Renforcements et punitions n’ont pas la même efficacité, les premiers l’emportant largement sur les seconds sans que nous puissions nous passer des dernières non plus. 

De plus, l’efficacité et la valeur d’une conséquence sont déterminées par la manière dont elle va rencontrer la motivation de l’élève et l’amener à contrôler son comportement. Si une punition tend à diminuer la fréquence d’un comportement perturbateur, elle n’a pas d’influence directe sur le comportement attendu. Par contre, le renforcement peut agir directement en augmentant la fréquence du comportement attendu.

L’idée est que prenant en compte l’ABC du comportement, nous pouvons agir pour limiter un comportement dans un contexte particulier en jouant sur les antécédents et les conséquences :
Par exemple, un élève peut systématiquement poser problème avec un ou plusieurs enseignants et jamais avec d’autres alors que tous appliquent les mêmes routines et règles de classe.
Dans cette situation, visiblement, le système de gestion de la discipline, tel qu’il est, présente des failles. Il est donc intéressant de s’intéresser aux antécédents qui déterminent le comportement perturbateur.
Lorsque nous comprenons quels sont les éléments déclencheurs, nous pouvons agir spécifiquement et d’une manière individualisée pour tâcher d’éteindre et d’amenuiser efficacement la fréquence de ce comportement.


Un autre principe intéressant est que les individus généralisent leurs réponses à typique à certains stimuli à ceux qui leur ressemblent. Un individu qui a connu une mauvaise expérience avec un grand chien risque d’avoir peur de tels chiens. Il peut également ressentir peu à peu de la peur à la vue de n’importe quel chien. 

Une fois qu’une réponse a été renforcée en présence d’un stimulus discriminant, un stimulus similaire est susceptible de devenir un stimulus discriminant pour cette même réponse.

Par exemple, un enjeu scolaire est que les élèves adoptent le même comportement en classe, quel que soit l’enseignant, de manière à obtenir des conditions de travail exemplaires et une certaine uniformité.
Les enseignants ont dès lors intérêt à adopter les mêmes routines de classe et les mêmes procédures pour les renforcer et les installer.
Si les élèves perçoivent ce cadre, il est plus facile pour eux de s’y conformer d’un enseignant à l’autre. De même si un nouvel enseignant apprend ce cadre, l’adopte et le met en place en classe, il y a plus de chances que la relation qu’il créera avec ses élèves sera positive. 

Dans le cadre de la gestion scolaire de la discipline, nous visons à ce que les élèves se comportent de la même manière dans chaque classe et dans chaque cours. De même, il faut qu’ils suivent un comportement spécifique et cohérent en fonction du lieu. Ainsi, une uniformité des règles et des routines de classe entre enseignants facilite les processus de discrimination et de généralisation du comportement chez les élèves.

L’usage du renforcement doit toujours être pensé et optimisé comme un élément de l’écosystème et comme un des leviers du modèle de l’ABC.



Facteurs susceptibles d’influencer la forme et l’impact du renforcement


De manière générale, l’effet du renforcement sur le comportement dépend de différents facteurs qui vont grandement influencer son efficacité :
  • Forme : positif ou négatif
  • Type : 
    • extrinsèque (s’il est extérieur à la personne) ou intrinsèque (s’il dépend de la personne)
    • public ou privé
    • concret ou abstrait
    • verbal ou non verbal
  • Nature : 
    • individuel ou collectif
    • adapté à l’âge, au genre ou à l’origine de l’élève
  • Temporalité : immédiat ou retardé
  • Durée : court ou prolongé
  • Utilisation : systématique ou non
  • Répétition : fréquent ou rare
  • Intensité : léger (symbolique) ou conséquent 
  • Contexte : utilisé seul ou en association avec d’autres renforcements
Nous le percevons aisément à l’aperçu de cette complexité. Laisser le renforcement s’exprimer dans l’instant en fonction des intuitions et des sensibilités individuelles, sans anticipation et vision cohérente de ses caractéristiques, n’est pas gage d’efficacité. 



Risques liés à un renforcement continu



Pour bien comprendre la raison pour laquelle un renforcement distribué à profusion de manière continue et systématique se révèle contre-productif, nous devons bien saisir les idées suivantes :
  • Un renforcement partiel correspond à la situation où un renforcement n’est pas attribué systématiquement à la suite du comportement. 
  • Skinner a montré qu’un renforcement partiel fournit le même niveau de renforcement qu’un renforcement systématique. Il n’est pas nécessaire de le renforcer chaque fois.
  • De même, il a montré que lorsque le renforcement est partiel, l’extinction opérante sera ralentie lorsque le renforcement cesse d’être distribué. 
  • Par contre, si le renforcement est systématique, l’extinction opérante est plus rapide. L’extinction opérante correspondant à un retour à la situation initiale, avant le conditionnement.
Nous pouvons en conclure qu’un renforcement partiel conduira à un meilleur apprentissage, plus durable dans le temps. Si nous voulons utiliser le renforcement pour favoriser une augmentation ou une diminution de la fréquence d’un comportement, nous avons tout intérêt à ne pas le manifester chaque fois que les conditions sont propices à sa distribution.

En conclusion, il n’y a pas de sens à renforcer chaque réponse correcte donnée par l’élève ou chaque manifestation adéquate du comportement. À trop donner du renforcement, nous sommes susceptibles d’installer rapidement le comportement voulu. Toutefois, celui-ci restera fragile et quelque peu superficiel. L’arrêt de la distribution du renforcement peut entraîner une extinction rapide du comportement souhaité, ce qui n’est pas l’effet recherché.

Un exemple parlant est celui d’un distributeur de boissons. Chaque fois qu’un élève mettra de l’argent dans le distributeur, il obtiendra une boisson. Une relation donnant/donnant s’installe.
Si un jour l’élève met de l’argent, mais n’obtient pas de boisson, il va peut-être récidiver une seconde fois, mais s’il n’a toujours pas de boisson, il arrêtera vite. Le risque d’un renforcement continu c’est qu’il risque la mise en place d’une relation de dépendance entre le comportement et la récompense pour l’élève.
Nous pouvons en arriver à une situation où l’élève adopte le comportement voulu, mais de façon purement extrinsèque et externe.    

Dans une situation donnant/donnant, le caractère contingent n’est plus respecté, car toujours vérifié. Comme le renforcement est toujours assuré, il correspond à un état de satiété à maintenir. Lorsque celui-ci s’arrête, la modification de comportement s’aligne rapidement.

Nous pouvons en conclure qu’il faut évider de donner systématiquement du renforcement pour un comportement dont nous voulons assurer la promotion. À partir de là, la question se pose de savoir quelle est la meilleure manière de distribuer un renforcement positif.

Skinner a étudié quatre programmes de renforcement que nous allons maintenant présenter :





Le ratio fixe (RF ou FR)


Dans ce premier programme, les renforcements sont délivrés après un certain nombre de réponses.

Un renforcement d’un comportement désiré ne se produit qu’après qu’un certain nombre d’actions ont été effectuées. RF1 indique un renforcement après chaque réponse, RF10 indique un renforcement toutes les 10 réponses (10 est le ratio).

De brèves pauses dans l’exécution du comportement sont constatées après chaque renforcement donné. Elles sont d’autant plus importantes que le ratio est élevé. Directement après la réception du renforcement, le comportement voulu devient moins exprimé par l’organisme concerné.

De plus, le processus de conditionnement ralentit avec l’augmentation du ratio. Trop étirer le ratio peut même mener à l’extinction.

En conclusion, le comportement est susceptible d’évoluer assez rapidement dans ce type de programme (tant que le ratio reste raisonnable). Il correspond à des situations où l’excellence et la conformité sont visées. Le souci est que lorsque le renforcement cessera d’être distribué, une extinction rapide suivra. En bref, le programme RF n’est guère plus efficace qu’un renforcement systématique. Son principal problème est d’être prévisible pour l’organisme qui peut l’anticiper d’une certaine manière.

Exemple : un élève reçoit systématiquement une récompense après un certain nombre de fois où il exécute le comportement désiré, par exemple après une série d’exercices ou de tâches déterminées.
La recherche montre que lorsque l’attribution de la récompense cesse, le comportement est lui-même rapidement abandonné.
Les élèves ne seront pas par la suite plus motivés à faire des exercices si le renforcement disparaît.

 

L’approche du ratio fixe être utile pour installer un nouveau comportement appris :

Par exemple, un enseignant peut instaurer une évaluation sommative régulière, par exemple toutes les semaines au même moment pour une classe d’élèves peu engagés. L’enjeu est de l’amener à travailler de manière régulière. Cependant, une fois les élèves plus engagés, il est intéressant de modifier l’approche pour continuer à développer leur motivation et éviter que la dépendance et le travail soient uniquement fonction du test. Sinon les élèves ne travailleraient que pour le test, risqueraient de s’y mettre sérieusement un ou deux jours avant et ne feraient rien les quelques jours qui le suivent.



Le ratio variable (RV)


Les renforcements sont délivrés après un nombre variable d’exécutions du comportement ciblé.

Dans ce programme, le nombre moyen de réponses entre les renforcements est prédéterminé. Un programme RV10 donne en moyenne un renforcement après 10 réponses, mais il peut advenir après 1 ou après 20 réponses.

Le jeu est sous le contrôle du programme RV mais l’individu concerné est amené à parier sur le fait que la récompense arrivera ou non après l’exécution suivante du comportement attendu. 

Un fait très intéressant est que le RV a une plus grande résistance face à l’extinction que le RF.

Le comportement va changer rapidement dans ce type de programme. Il correspond à des situations où l’excellence et la conformité sont visées. Ce programme ne présente pas de pauses après le renforcement comme le RF en avait et l’extinction sera de même ralentie par rapport au RF.

L’absence de pauses significatives est une caractéristique frappante des programmes de ratios variables, étant donné leur omniprésence sur les programmes de ratios fixes.

Le fait que les pauses soient éliminées rend le conditionnement rapide.

Par exemple, ce mode de renforcement peut servir à soutenir la performance. Nous pouvons imaginer une tâche de pratique autonome en classe. Durant celle-ci, l’enseignant circule et vérifie le travail exécuté en passant aléatoirement dans les bancs. En fonction de la qualité ou de la quantité de travail fourni, l’élève est soit renforcé positivement et autorisé à passer à la suite ou faire ce qu’il veut, soit il doit améliorer et reprendre son travail. Le conditionnement incite l’élève à fournir un rendement élevé et un travail soigné. Le côté variable du passage de l’enseignant soutient un engagement constant.   



Les intervalles fixes (IF)


Les renforcements sont délivrés après la première réponse qui suit un intervalle de temps donné et fixe.

Le renforcement est donné après la première réponse, après un intervalle de temps fixé. Sur un programme IF10, le sujet, après avoir reçu un renforcement, doit atteindre 10 secondes (ou 10 minutes, 10 jours, 10 semaines par exemple) avant qu’une autre réponse puisse être renforcée, quel que soit le nombre de réponses.

Immédiatement après chaque réponse donnée, le sujet donne peu de réponses ou n’en donne aucune. Toute réponse donnée pendant ce délai n’est pas renforcée. À mesure que nous nous approchons du moment de la récompense, le sujet répond de plus en plus. Le sujet apprend à retenir son geste jusqu’à l’écoulement d’un délai.

Le comportement va changer lentement dans ce type de programme, l’extinction sera elle-même rapide.

La transition de la non-réponse (après le renforcement) à la réponse à taux élevé (vers la fin de l’intervalle fixe) prend habituellement la forme d’une courbe. Elle n’a pas l’allure d’un saut soudain d’un niveau plat à un niveau en forte hausse.

Par exemple : Les élèves reçoivent un bulletin d’évaluation à des périodes fixes. Les élèves vont peu travailler en début de période et peu s’investir. Au fur et à mesure que nous nous approchons du bulletin suivant, les élèves vont se mettre à travailler de plus en plus intensément. Ils savent que ça va se traduire par des points (qui servent de renforcement).

La conséquence de renforcements à intervalles fixes est que cela peut mener à un rendement moyen et assez bas en matière de conditionnement. 

Ce type de programme et de placement des échéances peut favoriser la procrastination chez les élèves qui ont une faible capacité d’autorégulation. L’élève se contente du minimum requis, n’appuyant sur l’accélérateur que dans les dernières longueurs. L’élève attend le dernier moment, ce qui se traduit par un travail plus négligé, un rendement faible et un apprentissage plus superficiel.
Comment expliquer ce comportement des élèves ?

Travailler trop tôt n’aura que peu d’influence sur la note finale. C’est donc gaspiller de l’énergie. En s’économisant au début, les élèves se garantissent que, sous l’effet du stress et de l’anxiété, ils s’investiront doublement une fois que les échéances approcheront. Le rapport effort/renforcement sera maximum en matière de performance personnelle ressentie.
Il est plus facile de s’investir en fin de période, avant les évaluations, car ce travail sera rapidement suivi d’un renforcement par la réussite. Les efforts fournis plus tôt seront certes récompensés, mais avec un plus grand retard et donc un moins grand sentiment d’efficacité relative.



Les intervalles variables (IV)


Les renforcements sont délivrés après la première réponse qui suit un intervalle de temps variable.

Dans le cas des intervalles variables (IV), l’intervalle moyen est prédéterminé. Par exemple, dans un programme IV20, les renforcements sont donnés à un rythme moyen de 1 toutes les 20 secondes.

Ce programme génère un taux de réponse modéré, mais stable. L’extinction dans un programme IV est beaucoup plus lente que dans un programme IF.

Le comportement va changer lentement dans ce type de programme, l’extinction sera elle-même lente. Ici, le sujet ne peut prévoir laquelle de ses réponses sera renforcée.

L’approche peut être utile lorsqu’il s’agit de renforcer des comportements déjà établis.

Par exemple, un enseignant soumet régulièrement ses élèves à des évaluations à faibles enjeux qui sont non annoncées. Les élèves ne savent pas quelle est l’importance réelle de chaque évaluation ni comment la rétroaction va se manifester.
Cela génère de l’anxiété chez l’élève qui ne travaille pas régulièrement. Cela va stimuler son travail. 
  • Si les élèves travaillent régulièrement de façon naturelle, ce conditionnement peut être bénéfique pour maintenir le rythme, car la réussite aux évaluations à faibles enjeux va servir de renforcement positif. 
  • Si ce n’est pas le cas et que les élèves sont en partie désengagés, cette approche peut être contre-productive et mener à leur décrochage si des garde-fous ne sont pas mis en place.



Comment distribuer efficacement le renforcement en classe


Le fait que l’élève sache qu’il y a un degré d’incertitude est essentiel dans la distribution du renforcement positif. Les élèves ne vont pas être amenés à fournir un effort constant s’ils pensent qu’ils seront récompensés quoiqu’ils fassent. La même chose se passe s’ils pensent qu’ils peuvent ne s’engager qu’en dents de scie dans des comportements attendus.

Les taux et intervalles variables offrent la dose de tension nécessaire et aident à maintenir l’engagement. Ils sont donc plus intéressants que leurs équivalents fixes et offrent une meilleure résistance à l’extinction.

Plus spécifiquement, les intervalles variables fonctionnent bien pour maintenir des comportements déjà installés tandis que le ratio variable est plus adéquat pour changer efficacement et rapidement des comportements.

En fonction du contexte et de la situation, nous avons intérêt à choisir entre eux ou combiner les deux. 

Ces manipulations de la prévisibilité rendent le comportement opérant plus résistant à l’extinction. Le caractère imprévisible amène l’individu à parier sur l’occurrence du renforcement s’il effectue le comportement, ce qui l’incite à l’exprimer et à le poursuivre. Ainsi, si le renforcement positif est important et efficace, c’est dans la mesure où il est distribué tactiquement. Il permet d’installer un comportement et de le maintenir à faible coût pour l’enseignant.



Comment utiliser efficacement le renforcement en classe


La question qui préoccupe l’enseignant est de savoir quand et comment délivrer un renforcement positif verbal pour générer une réelle efficacité.

L’enjeu est d’agir à la fois sur la motivation et le comportement de l’élève.

En effet, il est avéré que des remarques positives mal formulées ou distribuées au mauvais moment peuvent avoir des effets néfastes sur la motivation d’un élève. Un renforcement positif doit être spontané, authentique et sincère :
  • Première règle : les commentaires inattendus ont un effet motivant plus que ceux qui sont anticipés. 
    • Par exemple, il peut être problématique qu’un élève obtienne toujours des commentaires positifs de la part d’un enseignant, dans un certain contexte ou à l’occasion du terme d’un type spécifique de tâches. Ceux-ci sont à la fois attendus et déjà considérés comme allant de soi avant même d’être obtenus. 
    • Ils deviennent une routine et perdent leur influence sur l’amélioration du comportement ou de la motivation. 
    • De plus leur arrêt aura rapidement des conséquences négatives sur le comportement soutenu qui risque de régresser. 
  • Deuxième règle : si des élèves s’engagent dans des tâches spécifiquement parce qu’ils s’attendent à recevoir des commentaires positifs en échange, il est alors probable que cela aura un effet défavorable sur l’autodétermination de leur motivation.  
  • Troisième règle : un commentaire positif ne doit pas être utilisé pour essayer de manipuler ou de contrôler un élève. 
    • Tout ce qui peut être interprété en ce sens (chantage, menace voilée ou coercition) est susceptible de diminuer la motivation. 
    • Il n’existe pas de raccourci pour ce genre d’approche, car nous courrons le risque du rapport de coercition. 
  • Quatrième règle : Promouvoir la qualité du travail fourni et ses caractéristiques en progrès et ne pas féliciter pour l’effort fourni de manière ciblée. 
    • Se centrer sur l’effort est risqué, car nous n’avons qu’une mesure subjective de sa quantification, des difficultés rencontrées et du ressenti de l’élève lui-même pas rapport à celui-ci. 
    • Quand nous devons renforcer les investissements de 30 élèves, il est impossible de les observer assez pour s’assurer de la justesse de nos hypothèses. 
    • Nous risquons donc de féliciter un effort inexistant. Parfois, en fait, aucun effort n’a été fourni. Nous risquons également de reconnaitre un effort moyen alors que l’élève s’est vraiment démené et est déçu du rapport entre son investissement et son résultat. 
    • Dans le premier cas l’élève va considérer que nous le sous-estimons, dans le second cas, l’élève va considérer que nous le surestimons. 

Dans les deux cas, l’effet se révèle négatif pour la motivation et l’estime de soi de l’élève. De même si nous félicitons l’élève pour un effort qui semble manifeste et avéré alors qu’il ne l’est pas, l’élève risque également d’être déçu et considérer qu’il est sous-estimé. 

L’effort que fournit un élève lui appartient et n’est accessible qu’à lui, un enseignant à toutes les chances de viser à côté. Dans tous les cas, les élèves attendent d’être évalués sur pièce, pour leur production, car c’est là que se trouvent l’expertise réelle et la valeur ajoutée de l’enseignant.



Comment associer le renforcement et la rétroaction


Imaginons que nous avons des informations à faire passer concernant le comportement ou le travail de l’élève. Ceux-ci dépassent l’enjeu de simplement en augmenter la fréquence, il peut être utile de passer du renforcement à la rétroaction ou de combiner les deux. 

La rétroaction ne se situe pas dans un rapport de manipulation ou de contrôle, mais dans une démarche d’influence qui conseille l’élève dans la manière de progresser. 

La rétroaction trouve son sens et une formulation juste qu’à travers une relation établie de coaching ou de mentorat entre l’enseignant et ses élèves :
  • La rétroaction est la réponse à un diagnostic. 
  • Elle offre des pistes concrètes, peut faire l’objet d’une discussion, d’échanges et aboutir à une forme négociée, concrète et vérifiable, quasi contractuelle que l’élève peut établir avec lui-même.
  • Dans un second temps, l’enseignant peut valider, puis constater ou non la réalisation des pistes proposées. 
  • Dans le cadre d’un échange, le commentaire prend plus la forme d’une résolution formulée finalement par l’élève. Ce dernier prend un engagement et se définit un objectif personnel. 
La rétroaction peut comme le renforcement tomber dans le piège de la manipulation, de la menace et de la coercition et devenir contre-productive. Par exemple, de simples remarques comme « Tu as fourni des efforts, mais pour la suite, il faudra les intensifier afin d’arriver à une réussite, tu en es capable. » ou « C’était un bon travail, mais des efforts supplémentaires seront nécessaires en vue de la maitrise du vocabulaire. Ça dépend de toi. » risquent ainsi d’être interprétées par une tentative de contrôle ou de manipulation contre-productive pour la motivation. 

Notre but est d’éviter cet effet secondaire. Il est sans doute plus utile de relever positivement les avancées et les éléments réussis pour augmenter la motivation. Nous complétons alors de manière neutre et informationnelle avec les éléments non acquis, sans y adjoindre un souhait contraignant ou menaçant qui se veut élément de pression. En ce sens, le renforcement positif et la rétroaction qui fournit des pistes et aide à établir des objectifs peuvent être couplées.

Cela donnerait par exemple « Un travail sérieux a été fourni et s’est traduit par des améliorations remarquées sur les points suivants. Les éléments suivants restent à acquérir rapidement. Je te propose à cette fin de… » ou « Les qualités suivantes du travail ont été reconnues. Les éléments suivants nécessitent une attention particulière. Tu peux faire… ». Ces deux commentaires émettent un renforcement positif sur le travail accompli et envoient un message informatif, mais neutre et précis sur ce qui est demandé par la suite. Il semble que la motivation de l’élève sera plus augmentée par un commentaire sur le chemin déjà accompli et une mention neutre, mais précise sur ce qui reste à accomplir. 

Un commentaire mitigé mi-figue mi-raisin, mi-positif, mi-contraignant est dangereux, car nous ignorons tout du ressenti, de l’implication réelle de l’élève et des causes formelles des difficultés sur lesquelles nous n’avons pas prise.  






Mise à jour le 06/05/2023


Bibliographie


Gerrig & Zimbardo. Psychologie 18e édition. Pearson. 2013, pp 145–154

David Didau & Nick Rose, What if every teacher needs to know about psychology, John Catt, 2016, pp 153–154

http://www.uqac.ca/deptdse/3psy206/facapp/condc.html

https://wikispaces.psu.edu/display/PSYCH484/3.+Reinforcement+Theory#id-3.ReinforcementTheory-schedulesofreinforcement

http://users.ipfw.edu/abbott/120/Schedules.html

0 comments:

Enregistrer un commentaire