[Suite1]

 

 

II. Généralités sur l'évaluation

 

Commençons par une définition triviale : évaluer, c'est situer un sujet en fonction de ses performances dans une matière, par rapport à une population(1), en principe pour ajuster, en retour, l'acte pédagogique de façon plus appropriée aux progrès du sujet. Nous touchons ici au domaine de l'évaluation formative ; mais nous n'irons pas plus avant sur ce terrain, puisque notre analyse se situe sur le plan de la comparaison des performances réalisées, et donc de l'évaluation sommative ; ce qui ne saurait étonner puisqu'il s'agit de parvenir à l'ordination des sujets en fonction de leurs résultats.

Dans le système antérieur (Réforme Christian Beullac), les disparités d'évaluation, qui ne pouvaient en tout état de cause avoir grande amplitude (Module validé, module non validé) ne prêtaient guère à conséquence. Dans le nouveau système, au contraire, il en est tout autrement. Et l'on sait que les efforts d'harmonisation des corrections du Baccalauréat ont eu pour origine les contestations, si souvent fondées, de candidats malheureux(2).

Qu'aucune protestation ne se soit jamais élevée dans les séminaires laïques n'invalide pas la démarche que nous entreprenons : la vérité, comme dit le sage, ne devient pas erreur parce que personne ne la voit (ou ne souhaite la voir). Car "il faut bien vérifier les connaissances acquises, et le concept de vérification renvoie à la notion de vérité"(3) .

Dans le système actuel, donc, l'ensemble des évaluations par matières est additionné sans autre forme de procès pour donner l'ordination générale des résultats, très improprement appelé classement final. Cette procédure simpliste, mais dangereuse, peut produire des résultats défiant toute équité. Et ce n'est pas d'hier que nous le savons(4) , même si nous feignons de croire irréalisable toute tentative d'harmonisation a posteriori(5) , ce qu'on appelle classiquement la réduction des notes(6).

Disons les choses autrement : il n'est pas gênant que des professeurs de classes parallèles utilisent, à l'intérieur des groupes dont ils ont la charge, des échelles de notation différentes de celles de leurs collègues (à partir d'exercices différents eux aussi). Mais ce procédé devient inopérant - et gravement injuste - s'ils entreprennent de comparer leurs classes entre elles. C'est d'ailleurs pour des motifs semblables que, selon L. Legrand, la ventilation des élèves dans les sixièmes I, II et de Transition(7) n'aurait pas été plus mal faite si le hasard seul en avait décidé(8) !

Mais venons-en au fait : à leur entrée à l'École Normale, les élèves-instituteurs sont répartis en classes selon le strict ordre alphabétique(9). Dès lors, et sans autre démonstration, on admettra qu'il s'agit de groupes équivalents(10) dont les résultats, d'une section à l'autre, ne sauraient être très significativement différents(11).
Or, on va le voir, l'étude des résultats (obtenus en fin de formation) montre que c'est très loin d'être le cas.

Commençons donc par présenter ces derniers pour deux disciplines importantes (coefficient 3) : on trouvera en pièce jointe l'ensemble des résultats des 129 élèves d'une promotion (exemple de lecture : l'élève 1 appartient à la classe A. Il a obtenu 22.29 (sur 30) dans la discipline 1, et 18.33 (sur 30) dans la discipline 2. Le total (41.32) figure dans la cinquième colonne.

 

Pour la commodité de la démonstration qui va suivre, on pourra aussi trouver un fichier Excel regroupant (sous une forme légèrement différente) les résultats "bruts" obtenus au concours d'entrée.

 

Quelques commentaires rapides s'imposent d'emblée : dans la discipline 1, par exemple, nous observons que six élèves ont obtenu la note 21.49(12). Mais cette note n'a pas du tout le même poids selon la classe d'appartenance, car les moyennes (des classes) sont respectivement de 19.53, 22.02, 21.09 et 22.23, comme on peut le lire dans la 2e colonne du tableau n° 2 (au début du fichier suivant).
D'un autre côté, on remarque que trois élèves reçoivent la même note dans les deux disciplines(13) : ici encore, les deux notes n'ont pas, en réalité, le même poids, car elles appartiennent respectivement à des séries de moyennes différentes(14).

Cependant, la moyenne (indice de valeur centrale) n'est pas la seule donnée à prendre en considération(15) ; l'écart-type (indice de dispersion) est tout aussi important, sinon plus : et, dans le cas des six élèves "21.49", il vaut respectivement 2.19, 1.76, 1.99 et 1.13 (cf. tableau n° 2, 4e colonne, au début du fichier suivant). Pour aller vite, disons que le 21.49 de la classe B(16) [19.53-2.19] vaut, en réalité, trois points (sur dix !) de plus que celui (les élèves 115 et 116) de la classe F [22.23-1.13]. Trois points qui ont été volés à l'élève "21.49" de la classe B, lequel avait la malchance de suivre un cours dont l'évaluation fut d'une certaine rigueur (plus faible moyenne, plus fort écart-type(17) ).

Nous introduisons ici, sans crier gare, une notion (l'écart-type) qui n'est peut-être pas familière à tous les lecteurs : usons donc d'un exemple élémentaire pour nous faire comprendre(18).

Soient les deux séries de notes suivantes (9 élèves) :

 


- 10, 9, 8, 7, 6, 5, 4, 3, 2

- 6, 6, 6, 6, 6, 6, 6, 6, 6.

 

On pourra vérifier que la somme est identique dans les deux cas [54], et donc la moyenne [6] ; mais, s'agissant de l'écart-type(19) , il est considérablement différent d'une distribution à l'autre, puisque nul dans la seconde, tandis qu'égal à 2.58(20). dans la première.

Dès lors, ou les deux distributions reflètent les performances d'élèves très différents, ou encore elles ont été obtenues lors d'épreuves sans rapport aucun entre elles ; dans le cas où les groupes peuvent être considérés comme équivalents (et a fortiori s'il s'agit du même groupe), alors une réduction des notes s'impose, sans quoi aucune comparaison (ni addition) ne peut être légitimement établie(21).

 

Ce point sera d'ailleurs développé dans une autre direction en Annexe, car le procédé permet d'établir aisément des comparaisons explicites à l'usage des enfants et de leurs parents.

Ces quelques précisions apportées, nous pouvons maintenant travailler sur des données réelles, nous bornant comme annoncé aux résultats obtenus dans trois disciplines importantes.

 

 

Notes

 

(1) L. Legrand, "Problèmes généraux de l'évaluation", in Repères n° 23, janvier 1974, p. 63.
(2) Cf., à cet égard, la dernière Note de service en date, au BOEN n° 3 du 22 janvier 1987, page 199, "Baccalauréat : harmonisation des corrections et des résultats".
(3) J. Ardoino, L'imaginaire dans la formation permanente, 1976, Préface, p. XIII. Notons que, précisément, une protestation s'est récemment élevée, venue de candidats malheureux au concours de professeur des écoles (Académie de Grenoble). Selon Le Monde du 26 juin 1993, les contestataires reprochent au Rectorat "une mauvaise qualification des correcteurs, l'absence d'un barème cohérent, ainsi qu'une composition hâtive du jury". Les pages qu'on va lire, rédigées quatre années avant la dite protestation, pourraient bien apporter aux plaignants quelques éléments de preuves...
(4) Cf. M. Reuchlin : "La simple addition des notes [...] détruit la hiérarchie établie entre les matières voulue par les autorités académiques", in "Étude sur l'examen d'entrée en 6e dans cinq établissements scolaires parisiens", Bulletin INOP, 1958. Exemple rapporté par Reuchlin, à propos d'un même établissement : l'écart-type de la dictée était de 7.15, et celui de la présentation de 1.60. Dès lors, le coefficient réel de la dictée s'est élevé de 3 à 5, tandis que celui de la présentation passait de 1 à .40. De même, le compte-rendu de lecture baissait de 3 à 2. (loc. cit., p. 8).
(5) En fait, les procédures d'harmonisation a priori fonctionnent bel et bien, et de façon satisfaisante, semble-t-il, lors des épreuves écrites du Concours d'entrée (double correction, établissement contradictoire d'un barème de notation strict, détaillé et précis). Nous empruntons à Noizet-Caverni, Psychologie de l'évaluation scolaire, les notions d'amélioration a priori et a posteriori de l'évaluation.
(6) Modèle statistique dans lequel, pour une fois, les Français sont les premiers, en particulier grâce aux travaux de Piéron, Laugier, et Mlle Weinberg. Rappelons que la première étude de Piéron, portant sur l'examen du Certificat d’Études primaires, date de 1922.
(7) Réforme Berthoin, appliquée de 1959 à 1974.
(8) L. Legrand, Pour une politique démocratique de l'éducation, P.U.F, 1977, pp. 54-59. Cf. aussi "Évaluation psycho-pédagogique au niveau de la classe de 5e", M.E.N., Seis, Collection Etudes et Documents, 1977, p. 17.
(9) Les quelques exceptions apparentes qu'on pourra constater à la lecture (deux premières colonnes) de la liste des résultats bruts proviennent de jeunes femmes ayant changé de statut matrimonial au cours de leur formation. [Pour des raisons évidentes, cette note est devenue caduque : les résultats étant ici publiés de façon anonymée]
(10) Une validation fine de cette affirmation ne pourrait être faite que par l'examen des notes obtenues au Concours d'entrée ; mais l'approximation nous paraît, jusqu'à plus ample informé, très suffisante.
(11) On sait que, dans le domaine du jugement statistique, l'administration de la preuve s'effectue non en termes péremptoires, mais en seuils de probabilité. Nous dirons donc a priori que nos différents groupes ne diffèrent pas de façon systématique, c'est à dire, au sens statistique, de manière non aléatoire.
(12) Sur un maximum de 30 (coefficient 3). Soit l'extrait suivant du tableau d'ensemble :

 

Cl. Discipline 1 Discipline 2 Total
B 24 21,49 16,28 37,77
C 53 21,49 22,74 44,23
C 54 21.49 21,99 43,48
E 93 21.49 18,99 40,48
F 115 21.49 27,49 49,98
F 116 21.49 19,50 40,99

(13) Soit l'extrait suivant du tableau général des résultats :

 

Cl. Discipline 1 Discipline 2 Total
E 94 16,50 16,50 33
E 96 19,99 19,99 39,98
D 118 21,99 21,99 43,98

(14) Exemple pour l'élève 118, de la classe D. Le 21.99 dont il est gratifié dans les deux disciplines est loin d'avoir le même poids. L'examen des tableaux des pages [à venir !] révèle que dans la discipline 1 (moyenne de la classe D : 21.74) il s'agit d'une note à peine 'moyenne', pour reprendre une expression consacrée, alors que dans la discipline 2 (moyenne de la classe D : 20.01), elle est supérieure d'un point et demi à la moyenne des résultats de la classe.
(15) Cf. par exemple RTS Promotion, Série Statistique, mars-avril 1970, émission V (F. Viallet), "La moyenne ne suffit pas". La circulaire "Harmonisation..." déjà citée s'arrête hélas à la comparaison des différentes moyennes des examinateurs dans chaque discipline.
(16) Le numéro 24 (premier élève dans l'ordre alphabétique, de la classe B) dans le tableau général.
(17) Cf. infra, la note n° 1 du chapitre III ("Sur un premier exemple réel").
(18) Emprunté à R. Brisebois, La Statistique à l'école normale et au Baccalauréat en pédagogie, Montréal, 1959, p. 90.
(19) Qu'on définira comme la racine carrée de la moyenne du carré des écarts à la moyenne ; comme son nom l'indique, l'écart-type mesure l'importance de la dispersion autour de la valeur moyenne.
Voici un exemple simple de calcul d'écart-type (appelé traditionnellement sigma -σ-) : soit la série (artificielle) suivante, de 12 notes, de moyenne 9. L'écart à la moyenne de la note 9 est donc de zéro. Les autres écarts sont élevés au carré (élimination des nombres négatifs), puis additionnés. La racine carrée de la moyenne obtenue (ici, 17.16) est le σ de cette série (4.14).

 

3 - 6 36
4 - 5 25
5 - 4 16
6 - 3 9
7 - 2 4
8 - 1 1
9 0 0 206 : 12 = 17,16
10 1 1
11 2 4
12 3 9
13 4 16
14 5 25 Racine carrée : 4,14
15 6 36
16 7 49
Le procédé décrit dans ces pages se dit aussi standardisation. D'ailleurs, l'écart-type (σ) est nommé Standard deviation en anglais.
(20) 2.73, si on applique la correction de Yates concernant les petits échantillons.
(21) "Ce n'est qu'après un tel traitement statistique [la réduction en Z] que peut s'envisager raisonnablement la question des coefficients", Mialaret-Pham, Statistique à l'usage des éducateurs, P.U.F, p. 101.

 

S. H., octobre 1989

 

Cliquer pour accéder à la suite de ce texte

 

 

 

 

 

 

ANNEXE

 

 

Tableau n° 1 : résultats bruts

 

Cl. Discipline 1 Discipline 2 Total

 

       

A

1

22.99

18.33

41.32

A

2

23.74

22.17

45.91

A

3

24.75

21.51

46.26

A

4

24.49

19.92

44.41

A

5

23.49

18.99

42.48

A

6

22.24

22.33

44.57

A

7

23.25

22.26

45.51

A

8

23.49

24.09

47.58

A

9

24.00

20.34

44.34

A

10

22.50

23.43

45.93

F

11

23.25

20.49

43.74

E

12

23.66

21.24

44.90

A

13

25.24

17.67

42.91

A

14

22.50

20.49

42.99

A

15

22.99

15.00

37.99

A

16

24.00

21.58

45.58

A

17

22.50

22.33

44.83

A

18

22.99

21.67

44.66

A

19

22.99

20.67

43.66

A

20

23.25

20.67

43.92

A

21

23.49

18.93

42.42

A

22

22.99

22.59

45.58

A

23

22.50

21.99

44.49

B

24

21.49

16.28

37.77

B

25

18.62

23.78

42.40

B

26

20.25

20.14

40.39

B

27

21.24

26.14

47.38

B

28

22.74

22.50

45.24

B

29

21.24

22.71

43.95

B

30

18.37

16.71

35.08

B

31

20.12

20.14

40.26

B

32

15.75

21.85

37.60

B

33

18.62

23.14

41.76

B

34

17.74

16.50

34.24

B

35

17.25

18.00

35.25

B

36

21.99

25.71

47.70

B

37

16.50

21.42

37.92

B

38

18.75

20.14

38.89

B

39

22.74

24.85

47.59

B

40

19.62

25.28

44.90

B

41

15.24

24.42

39.66

B

43

19.50

21.21

40.71

B

42

22.12

18.42

40.54

B

44

19.74

21.85

41.59

B

45

22.24

22.50

44.74

B

46

17.37

19.71

37.08

F

47

21.24

18.49

39.73

C

48

21.39

15.00

36.39

C

49

21.64

17.25

38.89

C

50

23.79

18.00

41.79

C

51

22.50

23.25

45.75

C

52

21.39

21.24

42.63

C

53

21.49

22.74

44.23

C

54

21.49

21.99

43.48

C

55

23.10

16.99

40.09

C

56

24.00

24.75

48.75

C

57

24.79

19.99

44.78

C

58

23.04

21.49

44.53

C

59

23.40

21.49

44.89

C

60

22.80

22.74

45.54

D

61

18.49

16.24

34.73

C

62

16.99

22.50

39.49

D

63

22.80

22.50

45.30

F

64

19.74

16.74

36.48

C

65

21.34

19.50

40.84

D

66

20.70

22.24

42.94

F

67

22.99

22.24

45.23

C

68

21.04

15.49

36.53

C

69

22.50

19.74

42.24

C

70

22.14

16.50

38.64

C

71

18.00

16.99

34.99

C

72

22.80

24.00

46.80

D

73

24.00

21.00

45.00

D

74

19.69

16.24

35.93

D

75

21.54

23.49

45.03

D

76

21.39

18.24

39.63

D

77

20.79

20.49

41.28

D

78

18.09

18.00

36.09

D

79

24.09

20.49

44.58

D

80

22.39

19.50

41.89

D

81

24.60

20.74

45.34

D

82

21.99

22.50

44.49

D

83

22.20

21.24

43.44

D

84

21.79

17.25

39.04

E

85

23.74

26.49

50.23

D

86

23.40

22.50

45.90

D

87

22.54

21.49

44.03

D

88

22.44

19.74

42.18

D

89

21.19

15.99

37.18

D

90

20.40

18.24

38.64

E

91

21.66

17.74

39.40

F

92

22.50

23.49

45.99

E

93

21.49

18.99

40.48

E

94

16.50

16.50

33.00

E

95

20.82

20.25

41.07

E

96

19.99

19.99

39.98

C

97

22.69

25.50

48.19

E

98

18.49

14.25

32.74

E

99

18.66

19.50

38.16

E

100

21.91

21.75

43.66

E

101

23.82

21.00

44.82

E

102

22.16

25.50

47.66

E

103

20.66

24.00

44.66

E

104

24.66

18.99

43.65

E

105

22.50

20.49

42.99

E

106

20.16

19.50

39.66

E

107

19.99

19.50

39.49

E

108

18.91

21.00

39.91

E

109

19.57

22.24

41.81

E

110

21.82

18.00

39.82

E

111

22.83

19.99

42.82

E

112

19.91

19.50

39.41

F

113

24.00

21.49

45.49

F

114

23.74

20.25

43.99

F

115

21.49

27.49

48.98

F

116

21.49

19.50

40.99

F

117

21.75

22.24

43.99

D

118

21.99

21.99

43.98

F

119

21.75

19.99

41.74

F

120

21.99

24.99

46.98

F

121

22.50

18.00

40.50

F

122

20.25

19.99

40.24

A

123

23.25

22.33

45.58

F

124

21.24

15.00

36.24

F

125

23.25

20.74

43.99

F

126

23.25

21.00

44.25

F

127

21.75

18.49

40.24

F

128

23.74

23.25

46.99

F

129

22.74

17.74

40.48

 

Tableau n° 1 - Résultats bruts dans deux disciplines

[Retour au texte]