dimanche 3 août 2025

L’usage d’une échelle de notation

L’échelle de notation est un élément central dans l’élaboration et dans le pilotage d’un processus d’évaluation formative. Voici une analyse de la question synthétisée à partir du livre de Raphaël Pasquini (2021).


(Photographie : ives57)




Répartition des résultats d’une évaluation sur une courbe de Gauss


Une échelle de notation peut servir à juger de la production d’un élève par le biais d’échelles de points et de barèmes. Ceux-ci serviront d’élément médiateur que l’évaluateur utilise pour apprécier les niveaux d’acquisition des objectifs d’apprentissage par les élèves.

Ces éléments jouent un rôle particulièrement important dans le cadre d’une notation normative qui se fonde sur une échelle discriminante pour départager qui réussit et qui échoue à une épreuve. 

De nombreux travaux démontrent qu’une proportion conséquente d’enseignants construisent leurs notes en référence à une norme extérieure à l’apprentissage de l’élève. 

Deux éléments symboliques à ce titre sont la moyenne et la distribution des points obtenus par l’ensemble des élèves dans une épreuve. La courbe de Gauss modélise ce phénomène.

La répartition des résultats d’une évaluation sur une courbe de Gauss est également connue sous le nom de distribution normale. Elle représente un outil statistique central pour analyser et interpréter la répartition des résultats à une évaluation.

 
Elle repose sur l’idée que, dans de nombreux phénomènes naturels, sociaux et cognitifs, la majorité des scores se concentrent autour de la moyenne, tandis que les scores extrêmes (très faibles ou très élevés) sont moins fréquents (Howell, 2013). Les performances tendent à se distribuer selon une forme en cloche symétrique, caractérisée par la moyenne, la variance et l’écart-type (DeCarlo, 1997).


Moyenne, variance et écart-type


L’interprétation d’une courbe de Gauss repose sur trois paramètres clés :
  • La moyenne (μ)
    • La valeur centrale autour de laquelle se regroupent les données de la courbe. Elle représente le score moyen du groupe.
    • Dans une distribution normale (symétrique), la moyenne, la médiane et le mode sont identiques.
  • La variance :
    • Elle quantifie à quel point les données d’une évaluation sont dispersées.
    • La variance est moins intuitive et moins utilisée que l’écart-type, car elle est exprimée en unités au carré.
    • Une faible variance indique que les scores sont très proches de la moyenne. La courbe de Gauss est alors étroite et pointue. Cela peut signifier que l’évaluation n’a pas été assez difficile ou au contraire, trop facile pour le groupe, ne permettant pas de discriminer les différents niveaux de compétence.
    • Une forte variance signifie que les scores sont très dispersés autour de la moyenne. La courbe de Gauss est alors plate et large. Cela peut être le signe d’une grande hétérogénéité des performances des élèves, ou d’une évaluation qui a une grande capacité à différencier les niveaux, en produisant un grand écart entre les meilleurs et les moins bons scores.
  • L’écart-type (σ) :
    • Ce paramètre mesure la dispersion des scores autour de la moyenne et garde la même unité que le paramètre étudié. Il est la racine carrée de la variance.
    • Un petit écart-type indique que les résultats sont très homogènes et proches de la moyenne.
    • Un grand écart-type signifie que les scores sont très dispersés, ce qui peut indiquer que les résultats sont très hétérogènes.


Répartition des données sur la courbe de Gauss


68 % des individus se situent à ±1 écart-type de la moyenne, 95 % à ±2 écarts-types, et 99,7 % à ±3 écarts-types.

Appliquée aux résultats d’une évaluation scolaire, la courbe de Gauss permet de distinguer différentes zones de performance (Thorndike & Thorndike-Christ, 2010) :
  • Les scores proches de la moyenne reflètent la majorité des élèves, traduisant un niveau attendu ou « typique » de compétence.
  • Les scores situés à +2 écarts-types ou plus peuvent indiquer une performance exceptionnelle, révélant des compétences particulièrement élevées.
  • Les scores situés à -2 écarts-types ou plus signalent des difficultés significatives, pouvant nécessiter un soutien ciblé.


Symétrie et asymétrie de la courbe



Une courbe de Gauss parfaite est symétrique. Cela signifie que la distribution des scores est équilibrée, avec autant d’élèves sous la moyenne que d’étudiants au-dessus.

Une distribution qui s’écarte de la symétrie peut être révélatrice d’une :
  • Asymétrie positive : 
    • La queue de la distribution est étirée vers les scores élevés. 
    • Cela signifie que la majorité des élèves ont eu des résultats faibles. Cela peut indiquer que l’évaluation était trop difficile ou que le groupe n’avait pas les prérequis.
  • Asymétrie négative : 
    • La queue de la distribution est étirée vers les scores faibles. 
    • La majorité des élèves ont obtenu de bons résultats. L’évaluation était peut-être trop facile, ou le groupe était particulièrement performant.


Aplatissement de la courbe de Gauss ou kurtosis

L’aplatissement de la courbe, ou kurtosis fournit également des informations :
  • Courbe leptokurtique (pointue) : 
    • Les scores sont très concentrés autour de la moyenne, avec un petit écart-type. Cela peut signifier que l’évaluation était trop homogène et n’a pas permis de distinguer les niveaux de compétence.
  • Courbe platykurtique (aplatie) : 
    • Les scores sont très dispersés, avec un grand écart-type. L’évaluation a produit une grande hétérogénéité de résultats, ce qui peut signifier que les questions étaient trop variées ou que le groupe était très disparate en matière de compétences.


Interprétation de la courbe de Gauss


L’analyse de la répartition des scores sur la courbe de Gauss permet de tirer plusieurs conclusions sur l’évaluation (Cohen et coll., 2013). Interpréter la répartition des résultats sur une courbe de Gauss offre une perspective statistique précieuse sur la qualité d’une évaluation et la performance d’un groupe (Salkind, 2010). Cela permet aux enseignants de vérifier si une évaluation est adaptée au niveau des élèves et si elle est assez discriminante.

Une courbe qui ressemble à une distribution normale idéale suggère que l’évaluation est équilibrée et qu’elle a bien mesuré la variabilité des compétences au sein du groupe. La majorité des élèves ont des performances « moyennes », tandis qu’une minorité obtient des résultats exceptionnels ou très faibles. 

Tous les résultats d’évaluation ne suivent pas une distribution normale ; certaines épreuves présentent une distribution asymétrique liée à la difficulté du test, à l’hétérogénéité de l’échantillon ou aux effets pédagogiques (Zumbo & Coulombe, 1997).

Par ailleurs, réduire l’évaluation à une comparaison statistique peut occulter des dimensions qualitatives, comme la progression individuelle ou la pertinence du contenu évalué (Black & Wiliam, 1998).

La courbe de Gauss est un outil qui permet de situer un individu dans un groupe et analyser la dispersion des performances. Toutefois, son usage doit s’accompagner d’une réflexion sur la validité et l’équité de l’évaluation. Il est crucial de contextualiser ces données avec d’autres informations qualitatives sur le processus d’apprentissage.


Mobilisation de la courbe de Gauss


Par le biais de la courbe de Gauss, un élève peut être classé à partir de ses résultats propres par comparaison avec les résultats de ses camarades. Ainsi, il fera partie symboliquement des bons élèves, des élèves moyens ou des élèves faibles en fonction de ces éléments.

Nous pouvons alors parler d’évaluation normative ou de notation normative, car elle aboutit à la mise en évidence des différences entre les individus. Cette démarche s’inscrit sans une visée de comparaison sociale et correspond à des démarches de sélection et de compétition. 

À partir de ces mêmes éléments de référence, un enseignant est considéré comme plus efficace lorsqu’il améliore la moyenne de ses élèves et en diminue la variance (la distribution). 

L’évaluation normative tendra à répartir les notes des élèves sur une courbe de Gauss dont les deux parties sont symétriques par rapport à la moyenne arithmétique des résultats. De nombreux facteurs vont toutefois interférer : le nombre réduit d’élèves, leurs caractéristiques propres ou la construction de l’évaluation.



Interprétation normative de la distribution des résultats en courbe de Gauss


Si l’on considère qu’une tendance naturelle à la distribution des notes est de s’approcher d’une courbe de Gauss, deux questions se posent :
  • Comment influencer la courbe de Gauss ?
  • Comment interpréter la courbe de Gauss ?
Pour la question de l’influence de la courbe de Gauss, elle fait partie de l’objet des recherches en efficacité de l’enseignement. Globalement nous allons viser à augmenter la moyenne et à diminuer la variance. 

Pour la question de l’interprétation, la problématique est simple. Tout porte sur l’endroit de la courbe où nous allons placer une droite verticale qui déterminera à droite la situation de réussite et à gauche la situation d’échec.

Il existe deux approches qui fonctionnent comme des pôles et que les enseignants vont souvent être amenés à combiner.

Le premier pôle consiste à déterminer l’échelle de notation au moment où est conçue l’épreuve, c’est-à-dire en amont de sa passation et de la correction des copies. Elle sera respectée à la lettre pour la correction.

Dans ce cas, les seuils des notes ont été posés en référence à des éléments contextuels comme :
  • Les objectifs d’apprentissage
  • L’enseignement dispensé
  • Les activités d’apprentissages
  • Les opportunités d’évaluation formative offertes aux élèves
  • La difficulté des tâches incluses. 
Dans cette situation, le résultat de chaque élève sera considéré comme indépendant de celui de ses camarades et déterminera seul sa réussite ou son échec face à l’échelle de notation.

Toutefois, nous pouvons avancer que l’échelle de notation devient potentiellement destructrice lorsqu’elle est exploitée sans qu’elle ait de lien explicite avec l’apprentissage. Le problème est dès lors moins l’existence de la note que la manière dont elle est construite. 

Le second pôle consiste à construire l’échelle de notation consécutivement à la correction de l’épreuve ou dans le cadre de celle-ci. 

Dans ce cas de figure, ce sont la moyenne des élèves et la distribution de leurs résultats qui vont contribuer à définir les seuils des notes. Dans cette perspective, l’enseignant possède une marge pour déterminer son taux de réussite qui peut être plus élevé ou plus faible que celui issu d’une échelle de notation conçue en amont. Il va tâcher de faire correspondre les résultats à ses attentes.

Entre ces pôles, des situations intermédiaires existent et un enseignant peut modifier lors de la correction une échelle de notation conçue en amont. 

La subjectivité de l’enseignant joue un rôle important avec ce second pôle. Le danger est qu’un élève peut réussir ou rater en fonction de l’enseignant qui l’évalue et en fonction du niveau de la classe dans laquelle il se trouve. 

Un élève d’un niveau donné sera favorisé dans sa note par une classe plus faible et par un évaluateur moins exigeant. Il sera défavorisé par une classe plus forte ou un évaluateur plus exigeant. 

Certains élèves échouent non pas uniquement en raison de leurs insuffisances, mais surtout parce que le groupe auquel ils appartiennent produit une moyenne de scores plus élevée que leur propre résultat. Une autre possibilité est que l’enseignant place un niveau d’exigence plus élevé au niveau de l’évaluation sommative notée.

Une évaluation va accroitre sa dimension normative lorsqu’elle met davantage en évidence les écarts des individus relativement à la norme que leurs acquisitions réelles (Crahay, 2007). 

L’autre logique néfaste de l’évaluation normative est qu’elle vise à mettre toujours des élèves en échec, quel que soit le niveau des performances du groupe classe. En effet, bon nombre d’enseignants croient à la pertinence de comparer les élèves entre eux pour avoir établir des notes justes. Certaines pratiques de notation apparaissent dès lors comme discriminantes. 

La voie à privilégier est que le fait qu’une équipe d’enseignants donnant le même cours construise une échelle en amont de la passation de l’épreuve. Cette démarche annule cette perspective normative et rend la construction de la note plus cohérente. 



Des enjeux pour l’élaboration d’échelles de notation


Il y a un bénéfice évident à former et à accompagner les enseignants pour qu’ils s’approprient la 
complexité des pratiques de notation.

Il faut sortir de la logique où il s’agit de savoir à quel pourcentage de points mettre les différentes notes pour les combiner ou quelle moyenne accepter pour une réussite ou une dispense.

Il est bien davantage pertinent de déterminer ce que l’élève est censé maîtriser dans l’épreuve pour obtenir telle ou telle note. 

Pour y parvenir, trois éléments doivent être pris en comparaison :
  • Les enseignants détiennent l’expertise des pratiques d’enseignement et des processus d’apprentissage. Il doit en être de même des pratiques d’évaluation sommative notée. C’est le jugement professionnel de l’enseignant qui doit lui permettre de créer des échelles spécifiques. 
  • Il est possible de construire une échelle de notation en amont de la passation d’une épreuve :
    • Pour autant que :
      • Les élèves aient eu suffisamment de temps d’apprentissage
      • Les conditions de la démarche d’évaluation soient transparentes. 
    • Ce travail :
      • Est idéalement réalisé en équipe
      • Conjugue la planification des leçons avec l’élaboration des épreuves
      • Définit les apprentissages essentiels. 
  • Une construction de note référée à l’apprentissage et à haute valeur informative est possible à condition :
    • De formuler des objectifs d’apprentissage
    • De construire des tâches significatives
    • D’élaborer des critères d’évaluation.
L’objet de l’évaluation sommative notée (Mottier Lopez et Laveault, 2008) est de situer l’élève par rapport à ses apprentissages plutôt que par rapport à ses pairs. Nous devons passer de l’évaluation normative à l’évaluation critériée.


Mis à jour le 03/08/2025

Bibliographie


Pasquini, R. (2021). Quand la note devient constructive. Évaluer pour certifier et soutenir les apprentissages. Presses de l’Université Laval. http://hdl.handle.net/20.500.12162/4900

Crahay, M. (2007). Peut-on lutter contre l’échec scolaire ? De Boeck.

Mottier Lopez, L. et Laveault, D. (2008). L’évaluation des apprentissages en contexte scolaire : développements, enjeux et controverses. Mesure et Évaluation en éducation, 31(3), 5-34. https ://doi.org/10.7202/1024962ar

Black, P., & Wiliam, D. (1998). Assessment and classroom learning. Assessment in Education: Principles, Policy & Practice, 5(1), 7–74. https://doi.org/10.1080/0969595980050102

Cohen, R. J., Swerdlik, M. E., & Sturman, E. D. (2013). Psychological testing and assessment: An introduction to tests and measurement (8ᵉ éd.). McGraw-Hill.

DeCarlo, L. T. (1997). On the meaning and use of kurtosis. Psychological Methods, 2(3), 292–307. https://doi.org/10.1037/1082-989X.2.3.292

Howell, D. C. (2013). Statistical methods for psychology (8ᵉ éd.). Cengage Learning.

Salkind, N. J. (2010). Statistics for people who (think they) hate statistics (4ᵉ éd.). SAGE Publications.

Thorndike, R. M., & Thorndike-Christ, T. (2010). Measurement and evaluation in psychology and education (8ᵉ éd.). Pearson.

Zumbo, B. D., & Coulombe, D. (1997). Investigation of the robust rank-order test under non-normality and variance heterogeneity. Canadian Journal of Experimental Psychology, 51(2), 139–149. https://doi.org/10.1037/1196-1961.51.2.139

0 comments:

Enregistrer un commentaire