mercredi 8 mai 2019

Paramètres de distribution du renforcement en gestion de classe

La modification du comportement par le conditionnement n’est pas une mince affaire et doit être soigneusement réfléchie. Il peut être tout à fait opportun d’inscrire cette démarche à l’intérieur d’un programme de renforcement préalablement élaboré à l’échelle d’un établissement.

On l’a vu dans l’article précédent sur le conditionnement opérant, le renforcement tend à mieux marcher que la punition pour le façonnement du comportement, ce qui n’exclut toutefois pas l’utilité de cette dernière.


(Photographie : Raoul Gatepin)

Importance du renforcement


Le renforcement (comme la punition) est une conséquence contingente et postérieure au comportement.  Dans la perspective de la contingence à trois termes, elle peut être définie comme l'effet ou la cause d'une action ou d'une condition antérieure. L’enjeu de ces conséquences est d’affecter le comportement futur en servant à l'augmenter, le diminuer ou le maintenir.

Le fait est que comme tout organisme soumis à un conditionnement opérant, un élève va apprendre en présence de certains stimuli et pas en présence d’autres et qu’il faut donc que le système soit intelligemment pensé et qu’il puisse être optimisé et posséder une certaine marge de manœuvre pour des cas particuliers.

Renforcement et punitions n’ont pas la même efficacité. En outre, l'efficacité et la valeur d'une conséquence sont déterminées par la manière dont ils rencontrent la motivation de l’élève à contrôler son comportement.

L’idée est que prenant en compte la contingence à trois termes, on peut agir pour limiter un comportement dans un contexte particulier.

Par exemple, un élève peut systématiquement poser problème avec un ou plusieurs enseignants et jamais avec d’autres alors que tous appliquent les mêmes routines et règles de classe. Dans cette situation, visiblement, le système de gestion de la discipline, tel qu’il est, présente des failles. Il est donc intéressant de s’intéresser aux antécédents qui déterminent le comportement perturbateur. Lorsque l'on comprend quels sont les éléments déclencheurs, on peut agir spécifiquement et d’une manière individualisée pour éteindre efficacement ce comportement.

Un autre principe intéressant est que les individus généralisent leurs réponses à d’autres stimuli qui ressemblent aux stimuli discriminants. Une fois qu’une réponse a été renforcée en présence d’un stimuli discriminant, un stimulus similaire peut devenir un stimulus discriminant pour cette même réponse.

Par exemple, un enjeu scolaire est que les élèves adoptent le même comportement en classe, quelque soit l’enseignant, de manière à obtenir des conditions de travail exemplaires et une certaine uniformité. Les enseignants ont dès lors intérêt à adopter tous les mêmes routines de classe et les mêmes procédures pour les renforcer et les installer. Si les élèves perçoivent ce cadre, il est plus facile pour eux de s’y conformer et pour un nouvel enseignant d’entrer directement dans le cadre si tout est clairement explicité et visible. 

Dans le cadre de la gestion scolaire de la discipline, on vise à ce que les élèves se comportement de la même manière dans chaque classe et dans chaque cours. De même il faut qu’ils suivent un comportement spécifique en fonction du lieu. Ainsi, une uniformité des règles et des routines de classe entre enseignants facilitent les processus de discrimination et de généralisation chez les élèves.



Facteurs influençant le renforcement


De manière générale, l’effet du renforcement sur le comportement dépend de toute une série de facteurs qui vont grandement influencer son efficacité :

  1. Forme : positif ou négatif
  2. Type : extrinsèque ou intrinsèque, public ou privé, concret ou abstrait, verbal ou non-verbal
  3. Nature : individuel ou collectif, adapté à l’âge, au genre ou à l’origine de l’élève
  4. Temporalité : immédiat ou retardé
  5. Durée : court ou prolongé
  6. Utilisation : systématique ou non
  7. Répétition : fréquent ou rare
  8. Intensité : léger (symbolique) ou conséquent 
  9. Contexte : utilisé seul ou en association avec d’autres renforcements
On le perçoit aisément à la vue de cette complexité, laisser le renforcement s'exprimer dans l'instant en fonction des intuitions et des sensibilités individuelles, sans anticipation et vision cohérente, n n'est pas un gage d'efficacité. 



Risques liés à un renforcement continu



Pour bien comprendre la raison pour laquelle un renforcement distribué à profusion, de manière continue et systématique se révèle contre productif, il faut bien saisir les deux idées suivantes :

  1. La première est que Skinner a montré qu’un renforcement partiel - , c’est-à-dire lorsque le renforcement n’est pas attribué systématiquement suite à la réalisation du comportement voulu -,  fournit le même niveau de renforcement qu’un renforcement systématique. Il n’est pas nécessaire de renforcer à chaque fois.
  2. De même, il a montré que lorsque le renforcement est non systématique, l’extinction opérante sera ralentie lorsque le renforcement cesse d'être distribué. Si le renforcement est systématique, l’extinction opérante est plus rapide. L’extinction opérante correspondant à un retour à la situation initiale, avant le conditionnement.
On peut en conclure qu’un renforcement partiel conduit à un meilleur apprentissage, plus durable dans le temps. Si on veut utiliser le renforcement pour favoriser un augmenter ou diminuer la fréquence d’un comportement on a donc tout intérêt à ne pas le manifester à chaque fois que les conditions sont propices à sa distribution.

En conclusion, il n’y a pas de sens à renforcer chaque réponse donnée par l'élève ou chaque manifestation correcte du comportement. A trop donner du renforcement, on installe rapidement le comportement voulu mais il reste fragile et superficiel. Le retrait du renforçateur entraîne une extinction rapide, ce qui n’est pas l’effet recherché.

Un exemple parlant est celui d'un distributeur de boisson. Chaque fois qu'un élève mettra de l’argent dans le distributeur, il obtiendra une boisson. Une relation donnant / donnant s'installe. Si une fois l'élève met de l’argent mais n’obtient pas de boisson, il va peut-être récidiver une seconde fois, mais s’il n’a toujours pas de boisson, il arrêtera vite. Le risque d'un renforcement continu c'est qu'il risque la mise en place de cette forme de dépendance chez les élèves. On peut en arriver à une situation où l'élève adopte le comportement voulu mais de façon purement extrinsèque et externe.    

Dans une situation donnant / donnant, le caractère contingent n’est plus respecté car toujours vérifié. Comme le renforcement est toujours vérifié, il correspond à un état de satiété à maintenir. Lorsque celui-ci s’arrête, la modification de comportement s’aligne rapidement.

Il est donc plus indispensable de ne pas donner systématiquement des renforçateurs. La question est donc de savoir quelle est la meilleure manière de le distribuer.

Skinner a étudié 4 programmes de renforcement que nous allons maintenant présenter :





Le ratio fixe (RF)


Dans ce premier mode, les renforcements sont délivrés après un certain nombre de réponses.

Un renforcement d'un comportement désiré ne se produit qu'après qu'un certain nombre d'actions aient été effectuées. RF1 indique un renforcement après chaque réponse, RF10 indique un renforcement toutes les 10 réponses (10 est la ratio).

De brèves pauses dans l’exécution du comportement sont constatées après chaque renforcement donné, d’autant plus que le ratio est élevé. Directement après la réception du renforcement, le comportement voulu est moins produit.

Le processus de conditionnement ralentit avec l’augmentation du ratio. Trop étirer le ratio peut mener à l’extinction.

En conclusion, le comportement va changer rapidement dans ce type de programme, on vise l’excellence, mais l’extinction sera elle-même rapide.

Exemple : un élève reçoit systématiquement une récompense après un certain nombre de fois où il exécute le comportement désiré, par exemple après une série d’exercices. La recherche montre que lorsque l’attribution de la récompense cesse, le comportement est lui-même rapidement abandonné. Les élèves ne seront pas par la suite plus motivés à faire des exercices si le renforcement disparaît. 
L’approche du ratio fixe être utile pour installer un nouveau comportement :

Par exemple un enseignant peut instaurer une évaluation régulière, toutes les semaines au même moment pour une classe d'élèves peu engagés. Cependant, une fois les élèves plus engagés, il est intéressant de modifier l'approche pour continuer à développer leur motivation.





Le ratio variable (RV)


Les renforcements sont délivrés après un certain nombre variable d’exécutions du comportement.

Dans ce cas, le nombre moyen de réponses entre les renforcements est prédéterminé. Un programme RV10 donne en moyenne un renforcement après 10 réponses, mais il peut advenir après 1 ou après 20 réponses.

Le jeu est sous le contrôle du programme RV mais l’individu concerné est amené à parier que la récompense arrivera après la réponse suivante.  Le RV a une plus grande résistance à l’extinction que le RF.

Le comportement va changer rapidement dans ce type de programme, on vise l’excellence. Ce programme ne présente pas de pauses comme le RF et l’extinction sera de même ralentie.

L'absence de pauses significatives est une caractéristique frappante des programmes de ratios variables, étant donné leur omniprésence sur les programmes de ratios fixes.

Le fait que les pauses soient éliminées rend le conditionnement rapide.

Par exemple, ce mode de renforcement peut servir à soutenir la performance. On peut imaginer en classe une tâche de pratique autonome en classe, durant laquelle l’enseignant circule et vérifie le travail exécuté en passant aléatoirement dans les bancs. En fonction de la qualité ou de la quantité de travail fourni, l'élève est soit autorisé à passer à la suite ou faire ce qu'il veut, soit doit améliorer et reprendre son travail. Le conditionnement incite l’élève à fournir un rendement élevé et un travail soigné.   




Les intervalles fixes (IF)


Les renforcements sont délivrés après la première réponse qui suit un intervalle de temps donné et fixe.

Le renforcement est donné suite à la première réponse, après un intervalle de temps fixé. Sur un programme IF10, le sujet, après avoir reçu un renforcement, doit atteindre 10 secondes avant qu’une autre réponse puisse être renforcée, quel que soit le nombre de réponses.

Immédiatement après chaque réponse donnée, le sujet donne peu de réponses, sinon aucune. Toute réponse donnée pendant ce délai n'est pas renforcée. A mesure que l’on s’approche du moment de la récompense, le sujet répond de plus en plus. Le sujet apprend à retenir son geste jusqu'à l'écoulement d'un délai.

Le comportement va changer lentement dans ce type de programme, l’extinction sera elle-même rapide.

La transition de la non-réponse (après le renforcement) à la réponse à taux élevé (vers la fin de l'intervalle fixe) prend habituellement la forme d'une courbe plutôt que d'un saut soudain d'un niveau plat à un niveau en forte hausse.

Par exemple : Les élèves reçoivent un bulletin d’évaluation à des périodes fixes. Les élèves vont peu travailler en début de période et peu s’investir. Au fur et à mesure qu’on s’approche du bulletin suivant, les élèves vont se mettre à travailler de plus en plus intensément parce qu’ils savent que ça va se traduire par des points (qui servent de renforcement).

La conséquence de renforcements à intervalles fixes est que cela peut mener à un rendement moyen est assez bas en terme de conditionnement. L’élève se contente du minimum requis, n’appuyant sur l’accélérateur que dans les dernières longueurs. L'élève attend le dernier moment, ce qui se traduit par un travail plus négligé.
 

Comment expliquer ce comportement des élèves ?

  1. Travailler trop tôt n’aura que peu d’influence sur la note finale. C’est donc gaspiller de l’énergie. En s’économisant au début, les élèves se garantissent que, sous l’effet du stress et de l’anxiété, ils s’investiront doublement une fois que les échéances approcheront. Le rapport effort / renforcement sera maximum en termes de performance personnelle ressentie.
  2. Il est plus facile de s’investir en fin de période, avant les évaluations, car ce travail sera rapidement suivi d'un renforcement par la réussite. Les efforts fournis plus tôt seront certes récompensés mais avec un plus grand retard et donc un moins grand sentiment d’efficacité relative.


Les intervalles variables (IV)



Les renforcements sont délivrés après la première réponse qui suit un intervalle de temps variable.

Dans le cas des intervalles variables (IV), l’intervalle moyen est prédéterminé. Par exemple, dans un programme IV20, les renforcements sont donnés à un rythme moyen de 1 tous les 20 secondes.

Ce programme génère un taux de réponse modéré mais stable. L’extinction dans un programme IV est beaucoup plus lente que dans un programme IF.

Le comportement va changer lentement dans ce type de programme, l’extinction sera elle-même lente. Ici le sujet ne peut prévoir laquelle de ses réponses sera renforcée.

L’approche peut être utile lorsqu’il s’agit de renforcer des comportements déjà établis.


Par exemple, un enseignant soumet régulièrement ses élèves à des évaluations non annoncées. Les élèves ne savent pas quelle est l’importance réelle de chaque évaluation. Cela génère de l'anxiété qui stimule leur travail. Si les élèves travaillent régulièrement de façon naturelle, ce conditionnement peut être bénéfique pour maintenir le rythme. Si ce n’est pas le cas et que les élèves sont en partir désengagés, cette approche peut être contre-productive.








Conclusion 


Le fait de savoir qu'il y a un degré d'incertitude est essentiel dans la distribution du renforcement car les élèves ne vont pas être amenés à fournir un effort constant s’ils pensent qu'ils seront récompensés  quoi qu'ils fassent ou lorsqu'ils s’engagent en dents de scie dans des comportements attendus.

Les taux et intervalles variables offrent une dose de tension nécessaire et aident à maintenir l’engagement.  Ils sont donc plus intéressants que leur équivalents fixes et offrent une meilleure résistance à l'extinction.

Plus spécifiquement les intervalles variables fonctionnent bien pour maintenir des comportements déjà installés tandis que le ratio variable est plus adéquat pour changer efficacement et rapidement des comportements.

En fonction du contexte et de la situation on a donc intérêt à choisir entre ou combiner les deux. Le renforcement continu peut lui-même avoir un intérêt comme entrée en matière mais il a intérêt à rapidement céder la place.

La manipulation de la prévisibilité rend le comportement opérant plus résistant à l’extinction. Le caractère imprévisible amène l’individu à parier sur l’occurrence du renforcement s’il effectue le comportement, ce qui l’incite à le produire. Ainsi, si les renforçateurs sont importants et efficaces c’est dans la mesure où ils sont distribués tactiquement. Ils permettent ainsi d’installer un comportement et de le maintenir à faible coût pour l’enseignant.


Bibliographie


Gerrig & Zimbardo. Psychologie 18ème édition. Pearson. 2013, p 145-154

David Didau & Nick Rose, What if every teacher needs to know about psychology, John Catt, 2016, p 153-154

http://www.uqac.ca/deptdse/3psy206/facapp/condc.html

https://wikispaces.psu.edu/display/PSYCH484/3.+Reinforcement+Theory#id-3.ReinforcementTheory-schedulesofreinforcement

http://users.ipfw.edu/abbott/120/Schedules.html

0 comments:

Publier un commentaire