jeudi 18 avril 2019

Principes généraux du conditionnement opérant en lien avec la gestion de classe

Le béhaviorisme est souvent rapidement présenté comme une approche rétrograde et problématique dans ses liens avec la pédagogie scolaire. Le terme est parfois utilisé péjorativement pour décrire certaines approches de gestion de la discipline ou d’enseignement. 

Toutefois, toute école adoptant un système de récompenses ou de sanctions en vue de gérer le comportement des élèves utilise de manière implicite une approche béhavioriste.

(photographie : Paul Graham)


Le béhaviorisme dans les dimensions qu’en a développées Burrhus F. Skinner (1904-1990) mérite cependant plus que des critiques stéréotypées et des raccourcis, d’autant que nombre de recherches depuis ont affiné et précisé ses découvertes. Voici une synthèse des principes généraux du conditionnement opérant :


Le béhaviorisme radical de Skinner


À partir de 1945, Burrhus F. Skinner (1904-1990) est porteur d’un nouveau courant au sein du béhaviorisme classique (voir article) que l’on appelle béhaviorisme radical. Il conçoit une science entièrement dédiée à l’étude du comportement, sans référence aux explications internes de nature mentale.

Le comportement selon Skinner désigne l’interaction et les rapports qu’un organisme entretient avec son environnement. Ce comportement peut être public. Il peut être privé, s’il n’est accessible qu’à la personne qui le réalise.

Selon Skinner, les événements mentaux, comme penser ou imaginer, ne sont pas les causes de comportements, ce sont plutôt des exemples de comportements causés par des stimuli environnementaux.

Pour Skinner, si nous voulons comprendre les raisons d’un comportement, il n’est pas nécessaire de comprendre les états psychologiques internes. Il suffit de comprendre les principes d’apprentissage qui permettent d’acquérir une association entre un comportement et une récompense.  




La loi de l’effet de Thorndike


Selon Edward L. Thorndike (1874-1969), qui a étudié le comportement chez le chat, et a été une influence prépondérante pour Skinner :
  • Les comportements suivis de manière répétée par des récompenses génèrent de la satisfaction. Cela a pour conséquence de les renforcer jusqu’au point où les récompenses ne sont plus systématiquement nécessaires pour les entraîner.
  • À l’opposé, les comportements suivis par des conséquences désagréables s’affaiblissent et le caractère inhibant de la situation peut même les neutraliser et les faire disparaître.  
Thorndike en a déduit ce qu’il a appelé la loi de l’effet : 
  • Une réponse qui est suivie de conséquences satisfaisantes devient de plus en plus probable
  • .
  • Une réponse suivie de conséquences non satisfaisantes devient de moins en moins probable
  • .
Selon cette loi, l’apprentissage progresse dans la mesure où une réponse donnée se révèle satisfaisante. Le comportement résulte de l’effet qu’il procure.

L’apprentissage dépend directement du nombre de fixations d’une connexion entre une situation et une réponse. 

Thorndike en est venu à voir l’apprentissage comme le produit de l’association entre un stimulus et une réponse apprise, une connexion stimulus-réponse (S-R).

L’apprentissage de ces connexions S-R a lieu graduellement et automatiquement de façon mécanique au fur et à mesure que l’animal expérimente les conséquences de ses actions par des essais et des erreurs en aveugle.




Le conditionnement opérant selon Skinner


Le conditionnement opérant est un concept du béhaviorisme initié par Edward Thorndike et développé par Skinner au milieu du XXe siècle. Cette théorie s’intéresse à un apprentissage qui résulte en une modification du comportement, en fonction des conséquences de ce dernier. Récompenses et punitions vont rendre plus ou moins probable la reproduction d’un comportement donné. 

Le conditionnement opérant repose ainsi sur deux éléments, le renforcement et la punition. Chacun d’entre eux peut être soit positif soit négatif.

Le conditionnement opérant ne prend aucunement en considération des états internes (mentaux ou neuronaux. Ce qui compte c’est ce qu’on peut observer.

Skinner distingue le conditionnement opérant du conditionnement classique par le fait que la conduite humaine est conditionnée par les conséquences du comportement. La réponse du sujet est volontaire, parce que motivée par ses conséquences.

Le comportement opérant figure déjà dans le répertoire d’un organisme et il est causé par des conditions internes et il est exécuté régulièrement de manière spontanée en l’absence de stimuli externes particuliers.

La plupart des comportements volontaires sont opérants tandis que le conditionnement classique traite plutôt de réponses réflexes. Le comportement opérant n’est pas suscité par des stimuli précis, comme le sont les réponses dans un conditionnement classique.

L’analyse de Skinner était essentiellement expérimentale et empirique avant d’être théorique. Skinner organisait des expériences, collectait et évaluait les données sans être guidé par une théorie préalable.

Dans un contexte scolaire, l’intérêt du conditionnement opérant est qu’un agent extérieur [enseignant, parent, entraîneur ou coach] peut organiser, chez un individu, des contingences de renforcement [récompenses et punitions]. Elles permettent d’accroître la probabilité d’apparition de réponses opérantes devant un ou plusieurs stimuli.  




La contingence de comportement


La contingence de comportement est une relation stable entre un comportement et les conséquences qu’il produit de manière régulière, mais non systématique. La contingence est l’éventualité de la relation entre ces deux événements, l’un étant conséquence contingente [probable, mais pas certaine d’avoir lieu] de l’autre événement.

Une contingence comportementale est une relation de dépendance entre le comportement et ses conséquences :
  • Les conséquences [punitions ou récompenses] doivent être contingentes au comportement donné ou être perçues comme telles. Les conséquences doivent aussi avoir lieu régulièrement après ce comportement, mais pas après des comportements différents. Il doit y avoir une relation de spécificité entre les deux.   
  • La nature des conséquences détermine la probabilité que ce même comportement se reproduise dans des conditions similaires. Il y a une sélection par les conséquences : en agissant, un individu entraîne des conséquences dans son environnement immédiat et celles-ci renforcent ou non son comportement. 
Les contingences les plus simples impliquent au moins trois éléments :
  • Un stimulus : un renforçateur positif ou négatif, une punition positive ou négative 
  • Une réponse : c’est le comportement visé 
  • Un effet : le renforcement ou la punition augmentent ou diminuent la fréquence de la réponse



Les renforçateurs


Les stimuli renforçateurs [conséquences contingences] sont toujours définis de façon empirique quant à leurs effets sur le changement de la probabilité d’une réponse.

Il existe trois types de stimuli :
  • Neutres, s’ils nous laissent indifférents.
  • Appétants, s’ils nous attirent.
  • Aversifs, si nous cherchons à les éviter.

Le fait de savoir s’ils seront effectivement des renforçateurs positifs ou négatifs va dépendre également du comportement propre à l’individu. Certains aliments, certaines activités, certains privilèges ou formes de reconnaissance ou de récompense peuvent être neutres pour certains, appétants ou aversifs pour d’autres.

Si nous voulons utiliser un stimulus pour un conditionnement, il faut donc au préalable s’assurer qu’il jouera effectivement le rôle escompté pour le public visé. 

Les renforçateurs modifient ou maintiennent le comportement. Ils peuvent être appris par l’expérience.




Renforçateurs primaires ou conditionnels


Les renforçateurs primaires sont innés et biologiquement déterminés : la faim, la soif, la peur, le besoin de sécurité, etc.

Avec le temps, par conditionnement, des stimuli initialement neutres se sont associés à des renforçateurs primaires et fonctionnent aujourd’hui en tant que renforçateurs conditionnels pour des réponses opérantes. 

Comme dans le conditionnement classique, nous mettons en évidence qu’un stimulus neutre peut être conditionné lorsqu’il est associé à un renforçateur primaire. Ce stimulus neutre devient alors un renforçateur conditionné ou secondaire.

Il semble que le comportement humain soit moins façonné par des renforçateurs primaires importants sur le plan biologique que par une grande variété de renforçateurs conditionnés ou secondaires [par exemple de l’argent, des notes, des privilèges, des éloges].

Dans le cadre de la gestion du comportement en contexte scolaire, ce sont des renforçateurs conditionnels qui sont utilisés :
  1. Les renforçateurs primaires ne sont pas accessibles tandis que tout ce qui est sous le contrôle de l’enseignant est susceptible de devenir un renforçateur conditionnel.
  2. Les renforçateurs conditionnels sont susceptibles d’être distribués facilement et rapidement. 
  3. Leur effet est immédiat, car il dépend de la façon dont l’élève les reçoit et non d’un processus biologique. 
  4. Ils peuvent être utilisés dans des systèmes d’économie à jetons. Ces jetons peuvent être accumulés et valorisés plus tard.



Une vue d’ensemble des renforçateurs





Les renforcements positifs et négatifs


Renforcement positif


Le renforcement positif vise une augmentation de la fréquence d’un comportement, grâce à la présence contingente d’une conséquence appétante.

Le renforçateur positif est un stimulus appétant. Il entraîne le fait que le comportement qui l’a précédé, et auquel il est contingent, aura une plus forte probabilité de réapparaitre dans le futur sous les mêmes conditions.

Exemples : 


1) Afin de susciter l’engagement de ses élèves, de les récompenser pour leur participation et leur attitude, un enseignant leur promet une activité exceptionnelle (par exemple une sortie ou un jeu). Il doit à ce moment-là explicitement mentionner pourquoi il agit de la sorte de façon à ce que les élèves associent la conséquence à leurs comportements. 

2) L’enseignant félicite un élève en classe brièvement après qu’il ait répondu correctement à une question sur un point de matière nouveau, montrant ainsi sa compréhension. L’élève sourit et son sentiment d’auto-efficacité s’en trouve renforcé ce qui l’incite à rester engagé et à participer encore par la suite. 



Renforcement négatif 


Le renforcement négatif vise une augmentation de la fréquence d’un comportement grâce à l’absence contingente d’une conséquence aversive.

Lorsqu’un comportement est suivi par le retrait d’un stimulus aversif, nous parlons de renforcement négatif. 

Le renforçateur négatif est un stimulus qui fait que l’absence du comportement attendu qui l’a précédé et auquel il est contingent aura une plus faible probabilité de se produire dans le futur sous les mêmes conditions.

Le renforcement devient négatif si l’absence d’un comportement est suivie d’une conséquence négative (stimulus déplaisant ou dérangeant). Il l’est également lorsque le retrait ou l’évitement d’une conséquence de ce genre accroît la probabilité que ce comportement survienne de nouveau.

Les renforçateurs négatifs affaiblissent et font disparaître les comportements non voulus qui les font survenir et augmentent les comportements recherchés qui les suppriment. 

Il existe différents types de circonstances d’apprentissage où s’applique ce renforcement négatif.
Essentiellement, elles prennent la forme de conditionnement d’évasion ou d’évitement. Nous adoptons ou acquérons un comportement qui permet d’échapper ou d’éviter des stimuli aversifs avant qu’ils n’arrivent.

Exemples : 


1) Selon le principe de la vérification de la compréhension en enseignement explicite, l’enseignant interroge systématiquement au hasard ses élèves sur la matière en cours. De manière à éviter de répondre une question sur un élément enseigné durant un temps où ils n’auraient pas été attentifs, les élèves vont apprendre à être plus engagés au cours. Ainsi, ils peuvent échapper à ce cas de figure.

2) Un enseignant donne de manière régulière des préparations et devoirs à réaliser. Il vérifie régulièrement avant une correction commune leur réalisation. Les élèves sont incités à les réaliser pour éviter des remarques négatives de celui-ci. Sans cette vérification, certains élèves n’exécuteraient pas le travail demandé.

3) Considérons le cas d’un élève qui oublie systématiquement une partie de son matériel ou de faire ses préparations ou devoirs. Conformément aux règles de classe explicitées en début d’année scolaire, en cas d’oubli répété, l’enseignant commence par lui faire deux avertissements. Il en garde la trace. Si l’oubli se répète une troisième fois, il peut demander à l’élève d’observer le comportement de ses condisciples qui appliquent correctement la règle concernée. Un peu plus tard, il doit lui les noms de cinq élèves qui le font. La réalisation de cette action correspond à un renforcement négatif.

4) Lors d’une séance de pratique autonome, un élève ne travaille pas. L’enseignant s’approche de lui ce qui représente un renforcement négatif. L’élève se met alors au travail et l’enseignant s’éloigne. Se mettre au travail permet à l’élève d’échapper au stimulus négatif.



Les punitions positives ou négatives


La punition est une autre manière d’éteindre un comportement. Nous cherchons à faire décroître la probabilité que survienne un comportement souvent jugé indésirable.

Une punition correspond à tout stimulus qui lorsqu’il est contingent d’une réponse, en diminue la probabilité d’expression. Une punition est toute conséquence qui diminue la probabilité d’un comportement.

Tout comme il existe un renforcement négatif et un renforcement positif, il existe une punition positive et une punition négative.
  1. Lorsqu’un comportement est suivi de la libération d’un stimulus aversif, nous parlons de punition positive :
    • Les punitions primaires sont typiquement la faim, la douleur et la soif. 
    • Les punitions sociales sont de l’ordre de la désapprobation, du reproche, des réprimandes, de l’ostracisme ou de l’isolation. 
  2. Lorsqu’un comportement est suivi par le retrait d’un stimulus appétant, nous parlons de punition négative. 
    • C’est tout ce qui est de l’ordre de la perte ou de la privation, que ce soit de l’ordre symbolique ou de privilèges. 

Exemples : 


1) Le cas de la punition positive est le plus courant, nous donnons une tâche supplémentaire à l’élève coupable d’une infraction ce qui l’amène à réfléchir sur la problématique visée ou qui fait figure de réparation. Cela peut prendre également la forme d’heures supplémentaires à prester dans l’école.

2) Le cas de la punition négative correspond au retrait d’un avantage. L’élève qui était libre de se placer dans une classe peut se retrouver avec une place fixe durant une période donnée. Nous pouvons également par exemple lui retirer un avantage comme celui de pouvoir sortir de l’établissement scolaire sur le temps de midi.   

Les punitions ne sont pas d’emblée efficaces : il faut les mettre à l’essai et constater empiriquement leur efficacité. 





Comparaison entre punition ou renforcement dans un cadre éducatif


Les résultats des recherches en psychologie sur la punition et le renforcement ont conduit à quatre conclusions importantes pour tout enseignant :
  1. La punition s’avère souvent moins efficace que le renforcement, car bien qu’elle supprime temporairement une réaction, elle ne l’affaiblit pas :
    • La punition est souvent détachée du comportement punissable. De ce fait, l’élève a du mal à lui donner sens et elle est rarement une occasion d’apprendre le comportement adapté. Elle n’enseigne pas le comportement attendu à l’élève. Dans le meilleur des cas, elle arrête le comportement inadéquat.
    • Les modifications du comportement engendrées par la punition ne sont pas aussi prévisibles que celles produites par le renforcement :
      • Dans certaines circonstances, la punition tend à figer le comportement plutôt qu’à l’éliminer
      • L’élève puni peut en arriver à détester la personne qui a administré la punition et le lieu où il l’a subie.
  2. La punition devient efficace lorsque l’individu choisit un autre comportement que nous pouvons ensuite récompenser par du renforcement positif. Il est dès lors important de s’assurer que l’élève soit dans de bonnes conditions et accompagné dans l’apprentissage du comportement souhaité.
  3. L’intervention la plus puissante pour modifier des comportements inadéquats est le recours au renforcement positif, en particulier :
    1. Les systèmes d’économie à jeton : l’élève se voit octroyer des jetons pour l’adoption de bons comportements, préalablement enseignés, jetons qu’il pourra éventuellement échanger contre un privilège.
    2. La contingence de groupe : les éléments sont aménagés de sorte que les conséquences soient délivrées par l’un des membres du groupe ou par l’ensemble du groupe. Cela a lieu en fonction des performances d’un membre du groupe ou de l’ensemble du groupe.
  4. En milieu scolaire, la majorité des systèmes de renforcement mise sur des approches nettement moins efficaces comme le renforcement négatif, la punition ou le coût de la réponse. Dans ce dernier système d’économie à jetons, un élève peut se voir retirer des points ou des jetons qu’il a obtenus auparavant pour ses bons comportements. 



Extinction opérante et restauration opérante


Si le renforcement est retiré, l’extinction opérante a lieu, c’est-à-dire que le conditionnement opérant s’atténue peu à peu. Par exemple, si l’enseignant cesse de vérifier les préparations durant une période prolongée, celles-ci ont de grandes chances de ne plus être faites correctement par nombre d’élèves.

Ainsi, si un comportement ne produit plus les conséquences prévisibles, il retrouve son niveau d’avant le conditionnement opérant.

La restauration spontanée est également une caractéristique du conditionnement opérant. Lorsqu’un conditionnement opérant a été éteint ou a quasi disparu, il est rapidement réinstallé si le système de renforcement ou de punition qui avait permis de l’instaurer est rétabli.


Exemples :

 

1) Si l’enseignant cesse d’interroger au hasard les élèves, mais sélectionne uniquement les volontaires, bon nombre d’élèves peuvent en conclure qu’ils peuvent se reposer et leur engagement diminue.

2) Si l’enseignant recommence à vérifier les préparations ou à interroger au hasard les élèves après un temps d’arrêt, ils vont rapidement retrouver les comportements opérants antérieurs.

3) Une conséquence naturelle et utile de ces phénomènes intervient au retour d’une période de vacances prolongées. Il est alors opportun et préventif de rappeler les règles et routines de classe de manière concrète et positive aux élèves.




Le phénomène de satiété


Le phénomène de satiété apparait lorsque les élèves perdent l’intérêt pour certains types de renforçateurs (punitions ou renforcements) utilisés par l’enseignant. D’appétants ou aversifs, ils peuvent devenir neutres. 

Les élèves ont tendance à rapidement remarquer qu’ils sont manipulés par l’instauration d’un système de renforcement. Parfois, ils peuvent détourner le système pour en détecter les failles et les utiliser à leur avantage contre celui de l’enseignant en manipulant le critère amenant à la distribution du renforçateur. Ce problème mène souvent l’enseignant à constamment alimenter les élèves de nouvelles récompenses ou augmenter la fréquence du renforçateur pour que les élèves manifestent le comportement attendu. 



Développements au départ du conditionnement opérant dans l’éducation


Initialement, les techniques béhavioristes en contexte scolaires ont été centrées sur :
  • Le façonnement du comportement : il s’agit du renforcement différentiel d’approximations successives d’un comportement cible jusqu’à ce que la personne fasse le bon comportement.
  • L’utilisation de renforcements : les comportements désirés étaient renforcés par des félicitations ou du matériel de récompense (jetons) et ceux non désirés étaient éteints par l’ignorance de leur existence.

Des recherches ultérieures ont ajouté à ces techniques :
  • L’enseignement explicite des comportements à adopter en classe. Il comporte des techniques d’autorégulation qui mobilisent des stratégies de modelage à partir de verbalisations autoadministrées par l’enseignant. Par exemple :
    • L’enseignant illustre le comportement désiré, il exécute le geste, verbalise ses pensées en l’exécutant afin d’en guider l’exécution. 
    • Les élèves ont l’occasion d’exécuter le comportement sous la supervision de l’enseignant.
    • Pour finir, ils réalisent l’activité par eux-mêmes, de façon autonome. 
  • L’apprentissage vicariant où l’enfant apprend par imitation.
  • Des stratégies de modification du comportement à partir d’approches faisant davantage appel à la cognition.
Des programmes en gestion de classe en sont issus, le plus remarquable étant le COMP (Classroom Organisation and Management Program) de Evertson (1988).

Des programmes de gestion des comportements au niveau de l’école, comme le PBIS (Positive Behavioral Intervention and Supports) ont été créés.



L’enseignement programmé et les machines à enseigner


Skinner est parti de différentes constatations sur l’enseignement traditionnel :
  • Le degré de difficulté de certaines tâches scolaires est régulièrement trop élevé en rapport avec les capacités de certains élèves. Cette situation les incite à adopter des comportements de désengagement et affaiblit les comportements d’engagement.
  • Le délai entre la réalisation d’une tâche et la réception d’un renforcement en rapport avec celle-ci est souvent trop long dans un cadre scolaire.
  • Une pédagogie traditionnelle, à la fois autoritaire, arbitraire et répressive laisse l’élève dans l’incertitude et l’indétermination.
Cette situation selon le point de vue de Skinner est susceptible de générer chez les élèves de l’anxiété, de l’insécurité et de l’agressivité, toutes nuisibles au comportement scolaire. Elle peut être corrigée par l’instauration et l’application rigoureuse de systèmes de contingences de renforcements. 

Cependant, selon le point de vue de Skinner, un enseignant face à 20 ou 30 élèves ne sera pas en capacité de respecter dans ses interactions en classe, les principes pédagogiques qu’il a déduits à travers le conditionnement opérant. 

Pour y remédier, Skinner s’est investi dans deux approches permettant un enseignement plus individualisé :
  • L’enseignement programmé
  • Les machines à enseigner 



L’enseignement programmé


Le bilan de l’enseignement programmé est plutôt mitigé, car il n’a pas permis une véritable amélioration de la réussite scolaire. Son idée dans les deux cas était de libérer du temps pour que l’enseignant puisse multiplier des contacts humains (affectifs, culturels et intellectuels) favorisant leur engagement.

La démarche consiste à découper les objectifs d’apprentissage en fragments plus petits.
Il y avait deux problèmes :
  • Manque de sens pour les élèves qui ne pouvaient pas globaliser la matière, celle-ci étant fragmentée.
  • L’accent est mis sur la performance à chaque tâche. Il laisse de côté la question des stratégies cognitives qui sont pourtant cruciales à l’apprentissage, la tendance du béhaviorisme à ne pas rentrer dans la boîte noire de l’esprit humain y contribuant. 
Certains éléments de l’enseignement programmé ont été mis en évidence par les recherches empiriques qui ont mené à l’établissement de l’enseignement explicite. C’est par exemple comme le besoin d’aller du simple vers le complexe en découpant les apprentissages selon une approche systématique et graduelle, de même que l’idée d’un temps actif d’apprentissage ou du surapprentissage. 



Les machines à enseigner


Les prototypes de machine à enseigner créés par Skinner proposaient aux élèves des problèmes de mathématiques selon un ordre aléatoire et offraient une rétroaction immédiate après chaque résolution. 

Cette machine permettait d’exercer des habiletés déjà acquises, mais elle ne conduisait pas à l’apprentissage de nouveaux savoir-faire. Les élèves sont donc mis dans des situations d’entraînement, d’exercice intensif.

Le but de la machine à enseigner selon Skinner est de donner plus d’importance au rôle humain de l’enseignant. L’enseignant est dès lors plus disponible pour l’observation de leurs comportements d’apprentissage et l’application de renforcements appropriés.

La machine ne remplaçait pas l’enseignant, c’était un dispositif auxiliaire que l’enseignant utilise de manière à optimiser les conditions d’apprentissage.

Trois avantages :
  • Chaque élève fournit une réponse à chaque problème réalisé.
  • Validation et rétroaction immédiate.
  • Focalisation de l’attention sur des éléments ciblés de l’apprentissage.

Les caractéristiques des machines à enseigner sont :
  • Plus de temps disponible pour la supervision des apprentissages par les élèves.
  • Chaque élève avance à son rythme.
  • La machine à enseigner fournit des rétroactions et des renforcements immédiats.
  • Les élèves sont confrontés à des tâches réduites qui vont du simple vers le complexe de manière précédemment planifiée par l’enseignant. La résolution de chaque tâche demande que les précédentes aient été résolues.
  • L’attrait de la technologie peut présenter un attrait pour les élèves. 

Certains de ces principes se retrouvent dans des applications numériques actuelles destinées à soutenir l’apprentissage en classe.




Mis à jour le 12/04/2023


Bibliographie 


Gerrig & Zimbardo. Psychologie 18e édition. Pearson. 2013, p 145-154

Jean-François Desbiens, Le béhaviorisme et l’approche scientifique de l’enseignement, in Clermont Gauthier & Maurice Tardif, La Pédagogie (4e Édition), Chenelière Éducation, 2017, PP 199-206

David Didau & Nick Rose, What every teacher needs to know about psychology, John Catt, 2016, pp 151–161

Franck Ramus, De la perturbation à l’implication : comment faire adhérer les élèves ?, 2019, https://soundcloud.com/institutcatholiquedeparis/de-la-perturbation-a-limplication-comment-faire-adherer-les-eleves

Steve Bissonnette, Clermont Gauthier & Mireille Castonguay, L’enseignement explicite des comportements, Chenelière, 2017

1 commentaire:

  1. Merci pour votre occupation, je crois que c'est un document important pour faire comprendre la théorie du Behavior ( ou le comportementalisme) et son application dans l'enseignement. Toutefois, il est un peu difficile d'utiliser leur terminologie pour faire apprendre aux enseignants cambodgiens.

    RépondreSupprimer