L'enrichissement du vocabulaire : suite 1 de la mise en ligne

 

 

 

 

 

II. LA NOTION DE FRÉQUENCE LEXICALE

 

 

A. Qu'est-ce que la fréquence ?

 

Il ne viendrait à l'esprit d'aucun Directeur de l’Équipement de répartir des fonds, de manière aléatoire, sur l'ensemble du réseau routier dont il est le responsable ; c'est au contraire d'après le résultat d'un comptage objectif des flux de circulation qu'il décidera d'engager telle ou telle priorité. Un chemin secondaire, sur lequel circulent en moyenne dix véhicules par jour, ne doit pas être traité comme la route principale qui en voit passer dix mille. Mutatis mutandis, c'est avec le même état d'esprit qu'ont agi ceux qui se sont préoccupés de fréquence lexicale : dans l'apprentissage d'une langue, maternelle ou seconde, le premier effort doit être porté sur les mots les plus fréquemment employés.

C'était l'objectif de l'Abbé de l’Épée (1712-1789) qui avait, dit-on, fait tapisser les murs de son école pour sourds-muets de 5 400 mots fréquents, afin qu'ils soient retenus avec plus d'aisance(1). L'histoire ne dit pas comment il avait sélectionné ces mots. Elle est cependant instructive en ce sens qu'elle montre un pédagogue dans ses œuvres : se rendre le plus utile possible aux enfants dont il a la charge. Et c'est bien la même notion d'efficience qu'avaient en tête ceux qui, outre-Atlantique, et sous l'égide des American and Canadian Committees for the Modern Languages, entreprirent, comme l'écrit Henmon, "the laborious task of determining objectively what words, what idioms and what syntactical phenomena the Frenchman... find most necessary or use most often in the expression of ideas, particularly in written discourse"(2).

Quelles étaient, alors, les visées de ces travaux ? Si l'on se réfère à l'article d'Henmon, cité à l'instant, elles étaient au nombre de trois(3):

- aider les enseignants de français à préparer des textes de lecture et des exercices ;

- proposer aux rédacteurs de textes pour débutants des listes de mots fréquents (constitution d'exercices d'entraînement et de révision) ;

- permettre la rédaction de tests standardisés pour mesurer l'accroissement du vocabulaire acquis.

Il va de soi qu'elles ne peuvent être que très partiellement les nôtres : perfectionner l'usage de la langue maternelle ne présente pas les mêmes difficultés que s'efforcer d'apprendre une langue seconde(4). Cependant, un point au moins est commun : il convient de faire porter l'effort sur ce qui est, statistiquement, le plus fréquemment utilisé. Ceci ne concerne d'ailleurs pas seulement l'apprentissage lexical mais aussi, au plan de la communication écrite, l'orthographe. Nous reviendrons, au cours de notre deuxième partie, sur ce fait.

Ces approches quantitatives du langage n'ont pas manqué de recevoir, en Europe, quelques échos. Ainsi, la constitution d'un vocabulaire de base est-elle mentionnée par Émile Planchard(5). C'est aussi une telle entreprise qu'appelait de ses vœux Théodore Simon (du test Binet-Simon) lorsqu'il écrivait, l'année même où paraissait l'opuscule d'Henmon : "Comment constituer ce premier langage [de mots orthographiquement maîtrisés vers 10-12 ans] ? Probablement d'abord parmi les mots les plus courants de notre langue, et l'on serait heureux de posséder un relevé des mille mots les plus usités de nos enfants, comme les Américains l'ont dressé pour les leurs"(6).

En définitive on peut trouver, dans la préface du ‘Vocabulaire vert’ genevois(7), une bonne définition de la fréquence lexicale : "Ils [les mots listés] ont été choisis avec soin et nous pouvons t'assurer [les auteurs s'adressent à "l'élève de l'école primaire genevoise"] que ce sont les mots les plus importants du français, les mots les plus utiles. Quand on en connaît le sens et qu'on en possède l'orthographe, on peut écrire une lettre sans faute, on peut comprendre la plupart des textes imprimés ; on se tire d'affaire dans presque toutes les circonstances de la vie. Voilà donc ce 'Vocabulaire' entre tes mains. Il attend que tu étudies les mots qu'il contient ; il attend aussi que tu l'enrichisses de mots nouveaux. Il attend enfin ton beau travail d'écolier ou d'écolière".

 

 

B. Comment la fréquence ?

 

1. Un travail de bénédictin...

 

Mais comment conduire à bonne fin la recherche des mots les plus fréquents d'une langue donnée ? À une époque où l'aide de l'ordinateur n'était même pas concevable, c'était véritablement un travail ingrat que de dépouiller, occurrence après occurrence(8), ne fût-ce que des "tranches de textes" de 5 000 mots, comme le firent les collaborateurs d'Henmon, et de les comptabiliser à l'aide d'encres et de crayons de couleurs différentes(9). On est saisi d'admiration devant le laborious task de ces pionniers, qui devaient effectuer leurs relevés à la main(10). Et on peut écrire, avec R. Moreau : "nous savons tous combien il est fastidieux de compter à la main la fréquence d'un signe linguistique dans un corpus, et quelles erreurs entraînent la fatigue ou l'inattention"(11).

Et si le progrès technologique s'accélère sous nos yeux de façon vertigineuse, c'est pourtant encore crayon en main que Pierre Guiraud (1912-1983) a élaboré ses études sur le lexique(12) des Symbolistes(13). Il y a fort peu, avec l'aide des premiers balbutiements de l'informatique cette fois, c'est en tant que dactylographes maladroits que des professeurs passionnés d'informatique se relayaient sur les claviers de machines maintenant antédiluviennes, pour entrer en mémoire la totalité du Grand Meaulnes avant/afin de pouvoir l'étudier. Au lieu que de nos jours, les ouvrages sont composés directement sous informatique, et il est théoriquement possible de se les procurer sous forme de disquettes. En tout état de cause, un texte peut aujourd'hui être numérisé à l'aide d'un scanner, et il n'est plus besoin de l'entrer directement au clavier.

Les travaux de Guiraud ont dû lui coûter des mois, voire des années de travail assidu. De notre côté, nous avons appliqué son approche aux Fleurs du Mal : cela nous a pris - outre l'écriture d'un programme adéquat de préparation et de traitement du texte - au plus dix minutes. Puissent les facilités que nous offre le progrès permettre la poursuite de l'effort de recherche que nous ont légué en exemple tant et tant de chercheurs !

 

2. Aide de l'informatique

 

L'emploi de l'outil informatique n'a d'ailleurs pas que l'avantage de la rapidité : il a aussi celui de l'exhaustivité ; l'ordinateur va au bout de la tâche demandée - à condition qu'on l'ait étroitement circonscrite -, et il ne commet ni erreurs de calculs, ni omissions. Tandis que, faute de cet outil, une erreur commise par Vander Beke lors de l'examen du travail de son devancier Henmon s'est perpétuée jusqu'à nos jours ; ses conséquences ne sont pas incalculables. Mais comme une citation qui, de deuxième en troisième main, prend peu à peu de sérieuses libertés avec la rédaction originelle, qu'elle tend à oublier, la liste d'Henmon, telle qu'elle nous est parvenue, n'est plus très conforme à celle qui se trouve au début de l'index hiérarchique du French Word Book.

 

a). Les problèmes

 

Si l'informatique permet aujourd'hui un traitement automatisé, ultra-rapide et exhaustif des données, pour autant les difficultés ne s'estompent pas ; nous en présenterons ci-après quelques-unes.

Ouvrons, au hasard, Les Mots(14), de J.P. Sartre, à la page 16. Nous comptons sept à (préposition). Mais il y en a deux autres qui commencent une phrase ; ils figurent en caractères majuscules, ce qui entraîne la disparition du signe diacritique(15). Rien ne permet à la machine de distinguer, ici, la préposition de la troisième personne du présent de l'auxiliaire avoir. On peut alors tenter de tourner la difficulté, et préparer un élément de programme avertissant la machine en ces termes (ou à peu près !) : si, après un point, tu rencontres un A suivi d'un blanc (espace), alors tu le transformes en à. Ce qui correspond, pour ceux qui possèdent quelques rudiments de programmation (en Basic), à une formulation du type :

IF CHR$(46) + CHR$(32) +CHR$(65) + CHR$(32) THEN CHR$(133) +CHR$(32)(16)

Mais nous ne sommes pas au bout de nos peines. Cette ‘astuce’ convient pour le recensement lexical de la page extraite des Mots, récit ne comprenant pratiquement pas de dialogues. Mais si, à l'aide de la même formule, on traite des phrases du type :

"A bien participé, ce trimestre",


alors on commettra une erreur...

Reprenons notre page 16. On y rencontre trois occurrences de mourir. Mais l'une, en début de phrase, commence évidemment par une majuscule. Le traitement automatisé distinguera, à tort :

mourir, 2           Mourir, 1

 

b). ‘Préparer’ un texte

 

C'est pourquoi, si la préparation d'un texte commence par sa mise en minuscules, ce qui sauvegarde l'essentiel des diacritiques, cette première modification ne résout pas pour autant le problème de l'homonyme grammatical A, soulevé à l'instant. Elle se poursuit par un toilettage automatique des apostrophes, et leur remplacement par des blancs, en sorte que l'ordinateur reconnaisse comme occurrences les unités précédées et suivies par un blanc (espace). Mais elle comprend aussi une part de travail ‘humain’, l'ordinateur étant appelé à rendre la main et attendant de l'opérateur la réponse satisfaisante chaque fois qu'il est mis en présence d'une forme qui lui a été signalée comme ambiguë(17).

Poursuivons encore, en examinant l'exemple suivant, dont on voudra bien nous pardonner le caractère trivial :

"Il a ramassé les pommes de terre que nous avions laissées à même le champ. La récolte était trop abondante pour nous, il n'était pas question de ramasser le tout".

La première tâche assignée à l'ordinateur sera le passage en minuscules ; ensuite, l'élimination des apostrophes (et des marques de ponctuation) et leur remplacement par des blancs, ce qui donne trente et une occurrences. Mais l'analyse automatique de ces deux phrases laisse demeurer quatre ambiguïtés, au moins. Elle indique, en effet :

- n, une occurrence ; était, deux occurrences. Ce qui est ici exact, mais ne fonctionnera plus si l'on rencontre d'ailleurs, aujourd'hui ou presqu'île, etc., qui seront faussement segmentés en :

d ailleurs ; aujourd hui ; presqu île, indiquant six occurrences là où il n'y en a que trois.

- il, deux occurrences. Or chacun sent bien que les deux il ne sont pas de même nature, et ne devraient pas figurer sous la même rubrique ; le pronom personnel et le pronom à usage d'indéfini ne relèvent à l'évidence pas de la même catégorie.

- pommes, une occurrence ; de, deux occurrences ; terre, une occurrence.

Ici, il est clair qu'il n'y a qu'une unité lexicale dans pomme de terre, et qu'il est inexact d'en compter trois. Mais si l'on décide d'indiquer à l'ordinateur que ce mot se traduit par trois unités graphiques (par exemple en usant de tirets : pomme-de-terre), devra-t-on faire de même avec : pomme de discorde, pomme de pin, etc. ? Où convient-il de s'arrêter ? Et quand bien même ce problème serait résolu, comme par exemple dans grand-père, peut-être, etc., comment l'ordinateur distinguerait-il entre l'usage lexical et l'usage grammatical du tiret, comme dans chauve-souris, a-t-il, disait-elle, veux-tu, etc. ?

- tout, une occurrence. Mais ne faudrait-il pas distinguer tout, employé ici comme substantif, de l'adjectif, du pronom et de l'adverbe homonymes ?

- avions, une occurrence. Mais rien n'indique qu'il s'agit là d'un paradigme de avoir, utilisé comme auxiliaire. Nous avons affaire à un de ces nombreux homonymes de la langue française(18) :

- avions laissées. Ici, la machine ne saura se saisir du verbe laisser, au plus-que-parfait du mode Indicatif. Il faudra renoncer à prendre en compte la forme verbale composée, ou la traiter à la main.

La définition minimale du mot n'est donc pas aisée à traduire en termes informatiques. C'est un ensemble précédé et suivi d'un ‘blanc’. Cela convient dans la majorité des cas, comme par exemple :   

     
il fit la connaissance d anne-marie s empara de cette grande fille délaissée l épousa, etc.(19),

mais est souvent inadéquat (aujourd hui, pomme de terre...). C'est assez dire, et tous ceux qui se sont essayés à la lexicométrie le savent, que "le caractère le plus assuré d'une norme lexicale, c'est de ne satisfaire personne, à commencer par celui qui l'a établie et appliquée"(20). C'est assez dire aussi que les résultats fournis par l'ordinateur, pour plus fiables que les comptages effectués à la main qu'ils soient, et incommensurablement plus rapides, exigent un contrôle a posteriori, et qu'une certaine marge d'erreur est inévitable ! C'est ce que montre par exemple le tableau suivant, début de l'index hiérarchique des substantifs utilisés dans Alcools, tel qu'il nous est fourni par deux sources, l'une manuelle, l'autre informatisée(21) :

 

 

   P. Guiraud Car. stat. voc.  L'informatique au Lycée
         
1 avenir 53 automne 14
2 amour 51 jour (+ jours) 14
3 œil 47 amour 13
 4 main  40  yeux  13
 5  nuit  39  nuit  12
 6  ciel  34  vie  12
 7  mort  33  cheveux  11
 8  jour  30 femme (+ femmes)  11
 9  femme  29  mains  10
 10  ombre  28  cœur  9
 11  fleur  27  matin  9
 12  cœur  25  ciel  7
 13  oiseau  25  ombres  7
 14  vie 24  rue  7
 15  vent  24  soleil  7

 

 

Tableau 1. Index hiérarchique d'Alcools, selon deux sources différentes.

 

On peut donc légitimement se poser quelques questions...(22)

Encore resterait-il à rassembler les formes obtenues, lorsqu'elles renvoient à un même signifié(23). Cette opération se nomme lemmatisation. Le lemme, c'est la forme donnée par le dictionnaire ; la lemmatisation est donc une opération de regroupement des différentes formes dans une rubrique unique ; ex. : chanter, chante, chantai, chanteras, etc.(24). "Soit le lexème doux, adj. ; il a, dans le corpus de Nancy [le TLF], 18 840 occurrences... Cette donnée suppose la réunion des formes doux, douce et douces, donc une lemmatisation... Opération aisée, puisqu'aucune des trois formes n'a d'homographe"(25).

En réalité, il peut être intéressant d'en rester à une description brute du corpus, et donc de lister les formes originelles. Car l'inconvénient de la lemmatisation est bien souligné dans la définition suivante : "mode de regroupement standard des différentes variantes d'un même signe, dans le but de simplifier la présentation et ainsi de faciliter la consultation des relevés lexicaux en général.... Ce mode de regroupement des formes, indispensable en lexicographie, est parfois gênant en lexicologie descriptive et surtout en statistique lexicale, parce qu'il crédite à une forme unique des renseignements comptables qui ne lui appartiennent pas en propre"(26). Et la fréquence d'apparition des formes fléchies d'un verbe, est aussi un élément à prendre en considération.

Enfin, et c'est ici que nous retrouvons la recherche d'Henmon, il convient de séparer les mots dits 'pleins' des mots dits 'vides'(27), en d'autres termes de recenser à part les mots 'vides', ou encore mots-outils. Les mots-outils constituent ce qu'on nomme traditionnellement la "liste" d'Henmon. Cette liste (en réalité, le tout début de son index hiérarchique) est encore un outil de référence sur lequel nous aurons à revenir(28) Pour l'instant, il nous suffira d'indiquer que c'est à l'initiative de son continuateur, Vander Beke, que les premiers items de l'index d'Henmon (jusqu'à la fréquence absolue 450 incluse) ont été érigés en une liste à part.

Dès lors, l'index lexical de la phrase de Sartre dont un extrait vient d'être analysé ci-dessus, pourra être lu ainsi(29) :

 


Mots-outils du texte


Mots pleins du texte

 

   

4 : de

1 : cherbourg

2 : et

1 : officier

2 : fit

1 : marine

2 : la

1 : déjà

1 : cette

1 : rongé

1 : dans

1 : fièvres

1 : à

1 : cochinchine

1 : d

1 : connaissance

1 : en

1 : anne-marie

1 : enfant

1 : schweitzer

1 : au

1 : empara

1 : grande

1 : fille

1 : il

1 : délaissée

1 : l

1 : épousa

1 : les

1 : galop

1 : lui

1 : tenta

1 : moi

1 : réfugier

1 : par

1 : mort

1 : se

 

1 : s


[la date - 1904 - n'a pas été prise en compte]

1 : un

 

 

Tableau 2. Index hiérarchique d'une phrase des Mots (J. P. Sartre), p. 16.

 

 
[Cette phrase renferme 27 occurrences de mots-outils, soit environ 60 % de l'ensemble. Et elle comprend 45 mots, dont 18 mots pleins différents (hors mots-outils)].

 

Mais s'agissant du problème de la fréquence, demeure en tout état de cause, qu'on travaille à la main ou de façon automatisée, la question du choix des textes et du volume traité, en sorte d'obtenir une représentation la plus exacte possible de la physionomie lexicale de la langue.

 

c). Choix des textes dépouillés

 

Certains continuateurs ont reproché à Henmon d'avoir travaillé sur un corpus trop peu étendu (400 000 occurrences). C'est ainsi que Vander Beke reprend la recherche d'Henmon, et l'englobe dans un ensemble trois fois plus vaste (1 147 748 occurrences). Le travail très récent de Juilland(30) ne retient pas cette objection (son corpus est à peu près équivalent à celui d'Henmon : 500 000 occurrences).

D'autres chercheurs ont fait porter leur critique du French Word Book sur le choix des textes retenus, parfois vieillots, parfois trop spécialisés. Rien ne vaut donc de s'attarder quelque peu sur le détail du corpus dépouillé par Henmon et ses soixante collaborateurs, chacun d'entre eux ayant eu à comptabiliser une tranche de 5 000 mots. Curieusement, on trouve ce détail non dans son ouvrage, mais dans celui de Vander Beke(31). Nous le reproduisons ci-après, ajoutant quelques précisions concernant les auteurs :

 


Ouvrages utilisés pour le dépouillement Occurrences
   
Brète (Mlle Alice Cherbonnel, dite Jean de la -), 1858-1945, Mon oncle et mon curé (1889) 25 000
Brizeux, (Auguste), 1806-1858, poète breton, Marie (1831) 5 000
* Buffum (editor), French short stories, Holt, 100 pages  
Daudet (Alphonse), Tartarin de Tarascon (1872) 15 000
Daudet (Lucien), Évidences 35 000
Fabié, (François), 1846-1900, Fleurs de genêts (poésie, 1880) 5 000
Fontaine, (C.), Historiettes modernes 10 000
Guerber, Contes et légendes, American Book Co., 1895 25 000
Halévy, (Ludovic), 1834-1908, L'Abbé Constantin (1882) 10 000
* Harry, (Philip), French Anecdotes  
* House, (Roy Temple), Three French Comedies (79 pp.) [Meilhac et Halévy, "L'Eté de la Saint-Martin" (1873), E. Labiche, "La Lettre chargée" ; E. D'Hervilly, "Vent d'Ouest"]  
Hugo, (Victor), Les Misérables 20 000
Junka, (Paul), Notre oncle d'Amérique (sur les travaux de la Croix-Rouge américaine) 10 000
Laboulaye, (Édouard René de), 1811-1883, Contes bleus (1864) 15 000
Larronde, (C.), Anthologie des écrivains français morts pour la patrie 5 000
Maupassant, (Guy de), La Maison Tellier (1881) 35 000
* Méras and Roth, Petits contes de France (97 p.)  
Mercier, (Cardinal D. J.), Cours de Philosophie-Psychologie, Alcan, Paris, 1899 35 000
Mérimée, (P.), Quatre contes de Mérimée 15 000
Normand, (Gilles), La France au travail 10 000
Poincaré, (R.), Messages-Discours-Allocutions-Lettres et télégrammes (juillet 1914-novembre 1918) 20 000
Rousseau, (J.J.), L’Émile 40 000
Zévaco, (Michel), 1860-1918, Le Rival du roi 20 000
* Pour ces quatre textes, il n'a pas été prélevé d'unités de 5 000 mots, comme les autres. Ils représentent un ensemble de : 45 000
Total 400 000

 

Tableau 3. Le corpus dépouillé par V. A. C. Henmon.

 

Cette énumération fera sans doute sourire le lecteur d'aujourd'hui, à qui la plupart de ces titres ne rappelleront aucun souvenir. Mais nous ne savons rien, après tout, des lectures préférées, dans notre langue, par les Américains dans les années vingt. En revanche, nous pouvons constater que plusieurs des ouvrages retenus figuraient dans la célèbre collection Nelson, et l'on sait par ailleurs que les aventures de Pardaillan et autres bretteurs, sortis de l'imagination fertile de M. Zévaco, firent les délices de nombre de lecteurs de l'entre-deux guerres, dont le plus célèbre est assurément Jean-Paul Sartre, qui cite Zévaco à de nombreuses reprises(32). On ne peut donc guère reprocher à un chercheur d'appartenir à son temps : mais il est vrai que le corpus étudié par Vander Beke(33) est beaucoup plus tourné vers l'époque contemporaine, puisqu'il englobe des textes parus l'année même de la recherche. En tout état de cause, ces deux travaux tombent sous le coup de la critique ainsi formulée : "Presque tous ces décomptes faits avant la guerre portaient sur des parties restreintes d'une œuvre, souvent échantillonnées sans connaissance de la théorie des sondages, et les résultats obtenus étaient souvent sujets à caution"(34).

D'autres critiques, enfin, ont récusé l'étendue temporelle du corpus(35). Quoi qu’il en soit, au-delà du cadre qualitatif ou quantitatif des ouvrages dépouillés, il conviendrait d'évoquer l'origine écrite ou orale des matériaux décrits. Nous aborderons ci-après cette question, à propos de l'examen d'autres listes de fréquence.

 

Notes

(1) Cité d'après Gougenheim (G.), Rivenc (P.), Michéa (R.) et Sauvageot (A.), L'élaboration du français fondamental (Ier degré), Didier, 2e édition 1967, 302 pp., pp. 24-25.
(2) Henmon (V.A.C.), "The Vocabulary Problem in the Modern Foreign Languages", Monatshefte für deutschen Unterricht, volume XXII, février 1930, n° 2, pp. 33-39. Citation p. 33. En règle générale, nous ne traduirons pas des propos qui se comprennent sans difficulté. Mais nous les paraphraserons volontiers.
(3) Cf. Vander Beke (George E.), French Word Book (The Macmillan Company, New-York, 1929, 188 p.), p. 33, et Fotos (John T.), "Word and Idiom Frequency Count in French and their Value" (Modern Language Journal, 1931, n° 15, pp. 344-353), p. 349. En réalité, comme le rappelle opportunément A. Juilland, il s'est d'abord agi de sélectionner les mots français les plus fréquents pour aider les enseignants de... Latin à composer un vocabulaire utile aux étudiants qui, par la suite, se tourneraient vers l'étude du français : "The pioneering French word count of Henmon was an attempt to discover the most frequently used French words, so as to aid teachers of Latin in selecting a Latin vocabulary which would be helpful to students who later took up French" (Juilland (A.), et al., Frequency Dictionary of French Words, Mouton, 1970, 503 p., p. XI). Cf. aussi le début de la préface du French Word book d'Henmon (Annexe I).
(4) On pourrait d’ailleurs se demander si cette situation n’est pas, en définitive, celle que connaissent les nombreuses écoles accueillant de fortes proportions d’enfants d’étrangers. Et ce fait justifie, déjà, le survol historique auquel nous allons nous consacrer.
(5) Planchard (É.), Pédagogie scolaire contemporaine, Éd. Nauwelaerts, Belgique-Louvain, 2e édition, 1954, 518 pages. Cf. p. 151 : "L'idée des vocabulaires de base n'est d'ailleurs pas une découverte moderne, et ceux qui la rejettent oublient peut-être que, au XVIIe siècle déjà, Comenius l'avait appliquée...". Et, page 325 : "les recherches de ce genre présentent le plus grand intérêt pour de nombreuses questions de didactique : établissement d'échelles...., composition de livres scolaires et de lecture..., dictionnaires scolaires, etc.".
(6)Simon (Th.), Pédagogie expérimentale (Écriture, lecture, orthographe), 1924, A. Colin, 275 p. Simon fait allusion, p. 214, à l'étude de L.P. Ayres, A measuring scale for ability in spelling, New York, 1915, qu'il cite également p. 222. Cette étude préfigure les recherches (belges) de l'équipe du Professeur Raymond Buyse [cf. infra, notes 35 et 36].
(7) Ouvrage paru en 1961 (et réédité en 1982), à la suite des travaux d'une commission présidée par Samuel Roller. Il s'agit d'une synthèse réalisée à partir de listes de fréquence diverses, mais se recoupant largement :

- la liste Verlée (en partie empruntée à Vander Beke, Basis-Woordenboek voor de Franse Taal, Antwerp and Amsterdam, Hollande, 1954).
- les divers travaux effectués à Louvain, avant la seconde guerre mondiale, sous la direction du professeur R. Buyse [35] et [36].
- le Vocabulaire de base de Dottrens et Massarenti [42].
- le Français Fondamental Ier Degré [18].

Ainsi ont été recensés 4 738 mots, groupés en quarante-huit chapitres, à étudier dans les écoles entre la deuxième et la septième années (du CE1 à la classe de cinquième, chez nous).
(8) On nommera occurrence une suite de caractères entourée de blancs (Cf. Le Français moderne, Revue du Conseil international de la langue française, 62e année, n° 2, décembre 1994, "Autour du Trésor de la langue française"). C'est donc un parasynonyme de mot.
(9) Vander Beke (George E.), ouvr. cit., p. 11.
(10) Pierre Guiraud, de son côté, parle "d'obscurs et harassants travaux" (in Problèmes et méthodes de la statistique linguistique, P.U.F., 1960, 145 p. Citation p. 23).
(11) Moreau (R.), "Initiation à la méthode statistique en linguistique", Bulletin d'Information du Laboratoire d'Analyse lexicologique (Besançon), fascicule 6, 1963, pp. 1-28. Citation p. 9.
(12) On utilisera indifféremment lexique ou vocabulaire, pour désigner l'ensemble des mots d'une langue. Cependant, au plan linguistique, vocabulaire (terme spécifique) est hyponyme de lexique (terme générique). On peut préciser, avec J. Picoche, "Le lexique transcende les vocabulaires particuliers, mais n'est accessible que par eux" (in Précis de lexicologie française, Nathan, 1977, 182 p. Citation p. 45).
(13) Mentionnons ici que P. Guiraud a été le grand spécialiste français de l'approche statistique du vocabulaire. Il est, en particulier, l'auteur de quelque dix-huit Que sais-je ?, qui sont autant d'ouvrages de vulgarisation d'un excellent niveau.
(14) Sartre (J.-P.), Les mots, Gallimard, 1964 (Folio n° 607, 1991, 213 p.).
(15) Certains éditeurs, cependant, utilisent des majuscules accentuées. Mais c’est loin d’être le cas général.
(16) Dans le jeu de caractères IBM (table des codes ASCII étendus, sous Dos), chr$ (46) = le point, chr$(32) = espace, chr$ (65) = A majuscule, chr$ (133) = à (préposition).
(17) Pour aller un peu plus loin, dans la phrase : "Mes hommes derrière moi, qui suis le fourrier, nous nous portons, le long des buissons, vers la clairière", aucun ordinateur ne distinguera le suis de suivre, du suis de être (in Maurice Genevoix, Ceux de 14, Éd. Points, p. 215).
(18) Les concepteurs du Trésor de la langue française (désormais TLF), dont nous parlerons infra (Paragraphe C, 3e fichier mis en ligne), se sont attachés à cerner les formes homographes du français ; au nombre de 3 707, elles représentent 13, 5 % du corpus étudié, ce qui est considérable. S'agissant précisément de l'occurrence avions, le TLF nous indique qu'il s'agit à 84 % de la forme conjuguée avoir, et à 16 % du substantif avion au pluriel.
(19) J. P. Sartre, loc. cit., p. 16.
(20) Charles Muller, in Lafon (P.), Dépouillements et statistiques en lexicométrie, Champion, 1984, 217 p., p. VI. Dans son ouvrage Le vocabulaire de Georges Brassens (Éd. Klincksieck, 1976, 256 p.), Linda Hantrais passe en revue, de façon exhaustive semble-t-il, les problèmes préalables à l'établissement de relevés statistiques, et les solutions apportées par d'autres chercheurs avant elle (Chapitre 1, "Méthodologie", pp. 15-43). D'autres précisions, fort utiles, sont à trouver dans l'ouvrage plus ancien de G. Silva et C. Bellamy (Silva (G.) et Bellamy (C.), Some procedures and programs for processing language data, Monash University (Australia), 1969, 200 p.
(21) P. Guiraud, in Les caractères statistiques du vocabulaire, P.U.F., 1954, 116 p., p. 99, et Ministère de l'Éducation (Direction des Lycées), L'informatique au Lycée, 1980, 124 p., p. 61.
Exemple de lecture : le mot ciel apparaît 34 fois dans Alcools, selon Guiraud, et se situe au 6e rang de l'index hiérarchique qu'il dresse ; au contraire, dans l'opuscule L'informatique au Lycée, ciel n'arrive qu'en 12e position, et n'apparaît que 7 fois (on peut d'ailleurs se demander si le corpus analysé est bien le même dans les deux cas !) ; automne, premier à apparaître dans la liste de droite, n'arrive qu'en 17e position (22 occurrences, non représenté dans le tableau) chez Guiraud. On nommera index hiérarchique la liste exhaustive des mots d'un texte présentée par ordre de fréquence décroissante.
(22) Un coup d’œil rapide sur la base complète de l’Institut National de la Langue Française (hébergée sur Internet par le serveur américain chicago.edu !) fournit les résultats suivants : amour(s), 53 ; œil(s), 50 ; mort(s), 45 ; main(s), 40 ; nuit(s), 40 ; femme(s), 35 ; ciel(s), 34 ; jour(s), 29 ; soleil(s), 29 ; fleur(s), 28 ; vie(s), 28 ; ombre(s), 27 ; vent(s), 27 ; cœur(s), 26 ; oiseau(x), 25 ; automne(s), 23.
(23) À la suite de F. de Saussure (Cours de linguistique générale, Payot, 1968, 331 p.), on convient que le signe linguistique possède deux faces, l'une signifiante (Sa : le mot tel qu'il est entendu ou écrit), l'autre signifiée ( : le contenu sémantique).
(24) Définition de B. Combettes et R. Thomassone in Repères n° 23, 1974, p. 88.
(25) Ch. Muller, Langue française, linguistique quantitative, informatique, Slatkine Champion, 1985, 189 p. (pp. 31-32). Sur le TLF, se reporter à la note 18.
(26) Dictionnaire de didactique des langues, dirigé par R. Galisson et D. Coste, Hachette, 1976, 612 p. (page 314). On pourra aussi consulter avec fruit, dans l'ouvrage de D. Labbé, Le vocabulaire de François Mitterrand (Presses de la Fondation nationale des sciences politiques, 1990, 326 p.), le paragraphe intitulé "Norme de dépouillement et lemmatisation"  (p. 21). On pourra remarquer que les extraits de listes de fréquence présentés dans la partie Annexes offrent différents degrés de lemmatisation. Enfin, on notera ici qu’on peut définir la lexicographie (établissement de dictionnaires) comme une partie de la lexicologie (étude des mots, en général).
(27) A. Sauvageot : "Le vocabulaire d'une langue consiste en deux sortes de termes : ceux qui n'ont pour raison d'être que de permettre de construire à l'aide des autres une communication cohérente, transmettant le contenu qui est fourni par les mots ‘pleins’" (in Portrait du vocabulaire français, Larousse, 1964, 286 p. Citation p. 11).
(28) Cf. infra, le & "Usage des listes".
(29) Jean-Paul Sartre, ouvr. cit., p. 16 : "En 1904, à Cherbourg, officier de marine et déjà rongé par les fièvres de Cochinchine, il fit la connaissance d'Anne-Marie Schweitzer, s'empara de cette grande fille délaissée, l'épousa, lui fit un enfant au galop, moi, et tenta de se réfugier dans la mort".
(30) Juilland (A.), et al., Frequency Dictionary of French Words, Mouton, 1970, 503 p.
(31) Vander Beke (George E.), French Word Book, ouvr. cit., p. 2.
(32) Cf. par exemple : "Surtout, je lisais tous les jours dans Le Matin, le feuilleton de Michel Zévaco : cet auteur de génie, sous l'influence de Victor Hugo, avait inventé le roman de cape et d'épée républicain. Ses héros représentaient le peuple ... Le plus grand de tous, Pardaillan, c'était mon maître : cent fois, pour l'imiter, superbement campé sur mes jambes de coq, j'ai giflé Henri III et Louis XIII" (Jean-Paul Sartre, ouvr. cit., p. 110).
(33) Entièrement différent de celui d'Henmon, à une exception près, l'ouvrage d'Halévy, l'Abbé Constantin. Mais ce ne sont pas les mêmes passages qui ont été dépouillés. Les années couvertes vont de 1850 à 1930.
(34) Lafon (P.), Dépouillements et statistiques en lexicométrie, ouvr. cit., p. 9.
(35) Vander Beke (George E.), French Word Book, ouvr. cit., p. 2. Pour la récapitulation générale par genres, on se reportera à la préface écrite par Henmon (Annexe I, pp. 265 sq.). Ces objections seront reprises infra à propos de l'ouvrage de Juilland.

 

 

(© Emprunté à SH,  L'enrichissement du vocabulaire, CRDP de Grenoble, 1997, pp. 17-31)

 

 


 

 

Texte soumis aux droits d'auteur - Réservé à un usage privé ou éducatif.

 

 

Accéder à la suite de ce texte