Ces jours derniers, force révélations ont été délivrées au sujet des "Panama Papers", système sophistiqué d'évasion fiscale à taille mondiale. Il sera question de Papers, ici également, mais n'ayant rien à voir avec la dissimulation d'avoirs frauduleusement soustraits au fisc...
Au commencement... au commencement de ma quête, il y eut sans doute ma fringale pour les productions informatiques d'outre-Atlantique. Chaque fois que mes tâches me conduisaient à Paris, j'en profitais pour écumer les librairies spécialisées et acquérir, souvent à prix d'or car le franc et le dollar ne faisaient en ces temps pas très bon ménage, des magazines dont nous n'avions pas l'équivalent en France - jusqu'au moment où des publicistes avisés s'avisèrent de créer chez nous des titres prétendument originaux et qui n'étaient que copies conformes - simplement traduites - de publications américaines...

 

To the memory of James William Tankard (Newport News, Virginia, June 20, 1941 - Austin, Texas, August 12, 2005).

 

"Les premières applications de la statistique lexicale se sont faites dans le domaine de l’analyse des textes littéraires. Il s’agissait notamment de caractériser le style d’auteurs classiques en fonction des particularités lexicales de leurs textes, d’identifier une évolution de leur style au cours des années, de mettre en évidence des particularités lexicales de certains de leurs textes, etc. Éventuellement, les lois statistiques et les méthodes développées dans ce contexte peuvent aussi servir à confirmer ou infirmer le fait qu’un auteur présumé a bien la paternité d’un texte donné : il s’agit de techniques d’identification d’auteurs. Bien entendu, pour que les méthodes statistiques puissent prétendre à une certaine efficacité, il faut nécessairement travailler sur des corpus de grande taille. Cela n’aurait aucun sens de vouloir utiliser ces méthodes pour établir, par exemple, qu’un petit quatrain anonyme a bien été écrit par tel auteur du XVIIe siècle ! Certains ont abusé des méthodes statistiques en voulant leur faire dire plus qu’elles ne peuvent. Malgré cela, c’est un domaine d’étude qui est potentiellement très utile pour la recherche linguistique et ses applications pratiques. La statistique lexicale est exploitée maintenant bien au-delà du seul domaine littéraire. Elle trouve des applications notamment dans les logiciels d’aide à la traduction, d’extraction automatique d’informations contenues dans de très larges bases de données textuelles, etc."
(A. Polguère, Notions de base en lexicologie, Université de Montréal, 2002, pp. 95-96)

 

 

Parmi ces revues exotiques, j'appréciais particulièrement Byte, aujourd'hui disparu, dont les articles étaient - du moins à mon humble avis - d'un excellent niveau et stimulants pour l'esprit curieux. C'est ainsi qu'un beau jour du premier trimestre 1986, je découvris dans Byte un titre devant lequel je tombai en arrêt : The Literary Detective, dû à la plume d'un certain Jim Tankard(1).

 

 

 

I. Demandez le programme !

 

Il faut ajouter que dans ces mêmes années-là, Science & Vie Micro, une revue française - aujourd'hui disparue, elle aussi - comblait chaque mois ma soif d'apprendre car elle abritait un cahier détachable intitulé "Demandez le programme". Le programme du mois tournait invariablement autour de la linguistique appliquée - disons la lexicométrie. Écrit en Basic, le langage de programmation le plus populaire (parce que le plus simple) alors, il renfermait toujours de sacrées astuces de programmation - qui, aujourd'hui encore, m'émerveillent. Il faut dire que Frédéric Neuville, le jeune responsable de la rubrique (il avait 26 ans au moment de la parution d'Arbor, dont il va être question), était un brillant polytechnicien spécialiste en Biologie moléculaire, et donc rompu à la mathématique et à la logique (il a, depuis, poursuivi une très brillante carrière universitaire sous son vrai patronyme). Je me souviens entre autres de son "Thermomètre du vocabulaire"(2) que j'utilise toujours, non plus certes en Basic mais transposé en Pascal puis compilé par mon propre fils... Je me souviens également du programme "Arbor" qui réglait le problème alors impossible à résoudre (à cause de la mémoire des ordinateurs de l'époque) de la recherche des triplets (trigrammes) d'un texte. Programme qui, soit dit en passant, aurait comblé d'aise l'auteur de The Literary Detective - lequel, de l'autre côté de l'Atlantique, s'était heurté aux mêmes limites mémorielles...
Sous le titre "À s'y tromper", Neuville écrivait en effet(3) :

"En théorie, le problème de l'analyse de la fréquence des triplets est simple : il suffit de compter le nombre de fois où apparaît dans un texte un triplet de lettres donné. Comme ASS, par exemple.
Une approche simple consisterait à créer un tableau contenant toutes les combinaisons de triplets et à rajouter 1 dans la case du tableau correspondant (de AAA à ZZZ).
L'inconvénient d'une telle méthode est qu'elle est extrêmement "gourmande" en place mémoire. En effet, si l'on inclut le blanc comme séparateur de mots, il faut 27 caractères différents soit 27 x 27 x 27 = 19 683 triplets possibles. Un entier occupant en règle générale 2 octets de mémoire, cela fait presque 40 Ko bloqués par ce tableau. Ceci est d'autant plus dommage que la majorité des 19 683 triplets ne sont jamais employés : ainsi AAA, ZYY, HHB ... n'apparaissent jamais dans aucun mot de notre langue. Comme peu de micro-ordinateurs familiaux disposent de suffisamment de mémoire vive pour loger 40 Ko de variables, il faut trouver une autre méthode
pour compter les triplets.
En programmation, la structure des données est fréquemment aussi importante sinon plus que l'algorithme de calcul qu'elle conditionne souvent. Dans le cas qui nous préoccupe, la liste linéaire n'est pas adaptée au problème à résoudre, c'est pourquoi nous avons construit un fichier de triplets en forme d'arbre dont nous vous proposons de découvrir la structure et les avantages.
Le schéma ci-contre symbolise l'architecture des données.
Le fichier est un arbre à 3 niveaux de profondeur. Chaque ramification correspond à une lettre. En parcourant l'arbre depuis la racine jusqu'à l'extrémité d'une branche, on traverse successivement les lettres du triplet, on trouve au bout de l'arbre le nombre d'occurrences du triplet. Le programme Arbor construit petit à petit cette structure en ajoutant les branches au fur et à mesure qu'il analyse de nouveaux triplets. L'avantage de ce système un peu complexe est qu'il ne contient que des branches correspondant à des triplets existants (soit 2 000 à 3 000 sur les 19 683 possibles). Cela permet de diminuer d'un bon facteur deux la taille mémoire requise, sans perte d'information.
Il aurait été également possible de stocker les triplets en liste linéaire, dans l'ordre où ils arrivaient, pour éviter cette structure compliquée. A chaque nouveau triplet on commence par scruter la liste de ceux qu'on a déjà rencontrés. Si on le trouve, on augmente de 1 le nombre d'occurrences de ce triplet. S'il est nouveau, on le rajoute à la fin de la liste. L'inconvénient de cette méthode : on est obligé de scruter toute la liste des triplets (qui devient rapidement longue !) à chaque nouvelle lettre.
Un tel programme serait terriblement lent. Dans la structure en arbre au contraire, le système d"'aiguillage" ramifié permet de parcourir très rapidement toute la liste, sans rien omettre.
Les variables C 1 % (), C 2 % () et C 3 % () constituent l'arbre. C 1 % () contient les codes ASCII des lettres des triplets, C 2 % () les pointeurs vers les branches suivantes et C 3 % () les nombres d'occurrences.
À l'aide d'Arbor, nous avons analysé les fréquences en triplets de plusieurs articles parus récemment dans S&VM, et notamment Eurêka, le jeu du mois. Un total de 58 000 triplets a été ainsi digéré par Arbor. Si l'on élimine quelques effets dus à des noms propres souvent anglo-saxons ou abréviatifs dans les articles en question (ainsi, les triplets MSX ou SVM apparaissent dans les textes analysés), on possède une bonne idée de l'utilisation de ces triplets dans la langue française.
Les dix triplets les plus fréquents sont :


ENT        327
QUE        237
LES        234
ION        207
OUR        186
RES        176
EME        174
DES        164
TIO        163
EUR        159"

Neuville utilisait son "Arbor" non pas certes pour rechercher le véritable auteur de telle ou telle œuvre, mais pour montrer comment, à partir des triplets obtenus, on était en mesure de créer "à s'y tromper" du texte artificiel.

Bref, ce qui précède permettra de comprendre pourquoi la lecture de The Literary Detective fit tilt en moi(4)...

 

 

II. Les Disputed Federalist Papers

 

2.1. Le point de départ de Jim Tankard

 

Tankard emprunte son point de départ à des auteurs antérieurs, dont il résume les travaux : la question posée est de savoir s'il est possible d'attribuer certainement ou pas, telle œuvre à tel auteur en étudiant des écrits selon plusieurs critères, comme la longueur des mots employés, la fréquence de certains mots, ou encore celle des mots-outils, ou celle des lettres, ou enfin celle des paires de lettres (digrammes).
Ainsi, l'auteur cite entre autres les recherches de Mendenhall, prenant pour point de départ la courbe de fréquence de la longueur des mots utilisés par Shakespeare et Bacon, pour infirmer la thèse attribuant la paternité des écrits du premier au second de ces auteurs. Il mentionne également une approche différente (la fréquence d'emploi de certains noms) effectuée par Yule pour attribuer la rédaction de l'Imitation de Jésus-Christ à Thomas a Kempis, et non à de Gerson. Et il en vient à mentionner l'étude de Mosteller et Wallace, qui tente de voir clair au sujet des "Disputed Federalist Papers" à partir de l'étude des mots-outils (qualifiés de "mots d'intérêt secondaire" !) contenus dans ces textes. Mais il estime plus pertinente la recherche de Bennett qui s'attaque au même sujet à partir de l'étude des digrammes.
Nul besoin d'ajouter que cet article m'intéressa vivement : j'écrivis d'ailleurs à son auteur. À cette époque, le Web balbutiait encore, plus exactement nous étions sous Gopher qui disparaîtrait bientôt devant le succès de son concurrent, et je louais moi-même les services d'un "FAI" - sigle qui n'était pas encore en usage - aujourd'hui disparu (décidément...), qui s'intitulait Calvacom, et me coûtait l'équivalent de 10 euro mensuels...
Jim Tankard avait donc entrepris de vérifier les hypothèses de Mosteller et Wallace et surtout de celle de William Ralph Bennett(5) à propos des "Federalist Papers", œuvre dont auparavant je n'avais jamais, au grand jamais, entendu parler. Il est vrai qu'il s'agit d'écrits bien spécifiques.
Les Federalist Papers sont en effet une série de 85 textes relativement courts (par exemple le n° 49, dont il va être question, comprend 1 647 mots, et "tient" sur quatre pages de format Word traditionnel), sortes de brouillons préparatoires à la rédaction de la Constitution des États-Unis. Trois auteurs s'étaient attelés à la tâche : Alexander Hamilton, James Madison (appelé aussi le "père de la Constitution", il devint le 4e Président des États-Unis) et John Jay. Curieusement, il convient de noter, pour montrer l'importance des  Federalist Papers dans l'imaginaire américain, que ces trois auteurs sont explicitement mentionnés dans le livret officiel remis de nos jours à chaque individu admis à devenir citoyen des États-Unis. On peut en effet lire, au début de "The Citizen's Almanac" (U.S. Citizenship & Immigration Services), ceci :

"As you will read in this booklet, The Citizen's Almanac, naturalized citizens have played an important role in shaping this country. From Alexander Hamilton to Albert Einstein, foreign-born Americans have contributed to all aspects of society - literature, motion pictures, public service, and athletics, to name just a few. As a citizen of the United States, it is now your turn to add to this great legacy".

Ajoutons que dans ce même livret, cinq pages (55-59) sont entièrement consacrées aux Federalist Papers.
Ces "Papers" parurent sous le couvert d'un sigle aussi générique qu'anonyme : "Publius", en 1787-1788. Ce n'est que lors de la publication d'une traduction française, en 1792, que les auteurs se dévoilèrent. Si la paternité de la plupart des "Papers" ne soulève aucune contestation, en revanche douze d'entre eux (de 49 à 58, et 62-63) furent revendiqués à la fois par Hamilton et Madison : ce sont les "Disputed Federalist Papers". L'étude de Tankard porte en priorité sur le premier d'entre eux, le n° 49, "Method of Guarding Against the Encroachments of Any One Department of Government by Appealing to the People Through a Convention", dont il confronte le système des lettres puis des digrammes à d'autres corpus attribués sans contestation à l'un ou à l'autre rédacteurs (par exemple, pour Hamilton, les n°s 21 à 36, et pour Madison, les n°s 37 à 48).

J'écrivis donc un jour à l'auteur, professeur de communication à l'Université du Texas d'Austin, lui disant tout le bien que je pensais de son article, et le priant de bien vouloir me faire parvenir les programmes informatiques qu'il avait écrits - dans le même temps, je m'étais adressé à la revue Byte pour la même raison, ce qui fit que je reçus bientôt deux séries identiques de programmes. Ils étaient rédigés pour l'Apple IIe, j'eus donc à les transférer en Basic classique, ce qui ne fut pas très difficile - la programmation de la sortie sur Imprimante DWP-410, en revanche, ne fut pas exactement une promenade de santé. Je me lançai alors dans la vérification des hypothèses de Tankard, grâce à la vitesse "affolante" (pour l'époque !) de mon cher Tandy TRS-IV qui "tournait" (était cadencé) à 4 MHz, ce qui entraîna que les calculs se firent beaucoup plus rapidement que sur l'Apple - Jim Tankard en fut fort étonné.
Aujourd'hui, le système dit d'horloge est différent (et le système dit de la mémoire-cache a été ajouté), mais on peut au moins dire que l'ordinateur le plus poussif tourne désormais à 200 Mhz, et l'on mesure les fantastiques progrès accomplis : les calculs qui exigeaient, pour le travail de Tankard, une bonne quinzaine de minutes, voire une demi-heure s'effectuent maintenant en une seconde, sinon une fraction de seconde...

Bref, nous entretînmes une correspondance de part et d'autre de l'Atlantique, et le professeur de communication fut surpris au vu de mes résultats, non seulement par la "rapidité" avec laquelle ils avaient été obtenus, mais surtout parce qu'ils montraient certaines divergences par rapport aux siens propres, tels qu'il les avait exposés dans son article. Et nous finîmes par en comprendre l'origine : la version des Federalist Papers, dont il s'était servi, était quelque peu fautive et erronée (pour ne rien dire des fautes de frappe qu'il avait commises !), par rapport à celle que j'avais utilisée, l'empruntant à une très grande bibliothèque américaine (celle du Congrès américain, ce me semble - ce qui demanda plus d'une heure de "téléchargement") ! Ce fait ne laissa pas de nous surprendre !

Bref, Tankard concluait son étude en attribuant les Disputed Papers tantôt à Hamilton (49, 56, 63) tantôt à Madison (tous les autres) ; mais ce constat, qui valait pour l'étude de la fréquence des lettres isolées, était quelque peu infirmé par les résultats  obtenus sur les digrammes...

From ... Mon Apr 10 22:27:09 1995
Received:     from     utxvm.cc.utexas.edu     by     cicg-communication.grenet.fr
(4.1/Ccomm.94021501)
id AA26853; Mon, 10 Apr 9523:22:30 +0200
Posted-Date: Mon, 10 Apr 1995 16:24:01 -0500
Received: from [128.83.128.128] by utxvm.cc.utexas.edu (IBM VM SMTP V2R2)
with TCP; Mon, 10 Apr 95 16:23:47 CDT
 Mime-Version: 1.0
Content-Type: text/plain; charset="us-ascii"
Date: Mon, 10 Apr 1995 '24:01 -
To: ...................
From: Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser. (James W. Tankard, Jr.)
Subject: Re: The literary detective
Yes, I am the author of the article dealing with "The Literary Detective. "
I will try to send you the program files attached to an e-mail message. I think this program --
Eudora -- will allow me to attach a file to a message. I will not be able to do this for a day or
two, however. I have to find those old files, which are on an Apple Ile disk, and get them
ready to send.
I appreciate your interest. These programs are old and may not be the best thing around
anymore, but I will be glad to send them to you.

James W. Tankard, Jr.
Department of Journalism
The University of Texas at Austin
Austin, Texas 78712
512-471-1997
Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.

......................................

Posted-Date: Sun, 16 Apr 1995 18:09:00 -0500
Subject: Lit detective
l received the files you sent. You have been busy. Thanks for sending them.
It may take me a while to look over your results and get back to you with
detailed comments. For now, I offer a few comments. When I did my
analyses, I myself typed into the computer the Federalist Papers that I
analyzed. So there could be some typing errors in the files I was using.
For one thing, I think I put two spaces between sentences. The files you
downloaded might have had only one space between sentences. Also, I could
have just made some errors in typing, although I tried to check the files.
I will try to get back to you with some other thoughts as soon as I can.

..........................................

Subject: Thanks for the files
Thanks for all the files you have sent. They arrived in good shape,
including the copy of The Federalist. It was okay that you sent the whole
file. I am glad to have it.
It looks like you made good progress on the trigram program, I would like
to try out your program, but I am not sure when I will be able to. I have
a Macintosh computer in my office. I will either need to try to convert
your program to Microsoft Basic for the Macintosh, or else find a computer
around here with MS-DOS Basic.
You have done a lot of impressive work.

...............................................

Subject: Gobbler3. 1
Cc:
Bec:
X-Attachments:
A:\GOBBLER3.BAS;A:\ANALYZE3.BAS;A:\DISPUT50.ASC;A:\DISPUT51.ASC;A:\DISPUT52.ASC;
Here is the end (perhaps, temporary) of my "impressive work" (I had some holidays...). Gobbler3.BAS
and Analyze3.BAS seem (to me) to be allright.
You'll see that the results (Analyze3.DOC) are enough different with the two other frequencies
Analyzes.
The triplets are, the most often, about 1000 (see the variable K).
So I decided to list the frequencies from highest to lowest, and to retain only the first 500. The
comparisons are so made.

.......................................

Subject: Gobbler3. 2
Cc:
Bec:
X-Attachments:
A:\ANALYZE3.DOC;A:\DISPUT53.ASC;A:\DISPUT55.ASC;A\DISPUT56.ASC;A:\DISPUT57.ASC; A:\DISPUT58.ASC;A:\DISPUT62.ASC;A:\DISPUT63.ASC;  

Perhaps, it would better to list the frequencies from lowest to highest. Because an author's originality
is to find, in my opinion, in the lowest frequencies.
But I didn't have time to try this way.
If you're interested, please only change in the sub-routine "Compteur"
the sign <= into >=.
It would be better for you to try the programs on a PC : because I
made a slight surprise for you, at the very beginning of Gobbler3 !

Have good computations !

.................................

 

2.2. Données numériques

 

S'il est aisé de suivre le cheminement de Tankard lorsqu'il s'agit des lettres "simples", car à l'évidence nous obtenons toujours des fichiers de 26 données (pas tout à fait cependant, le Federalist Paper n° 50 ne contient pas - il est le seul du corpus - la lettre Z), l'affaire se complique avec les digrammes, et plus encore avec les trigrammes (que notre auteur n'a pas pu traiter, à cause des limitations imposées, à l'époque, aux ordinateurs).
En effet, si en théorie les possibilités de digrammes s'élèvent à 676 (26*26), dans la réalité il en est tout autrement, les réalisations n'étant pas équivalentes : le nombre de digrammes observés diffère d'un fichier à l'autre : 386 pour le Federalist 49, 399 pour le n° 1, et 413 pour le n° 10.
S'agissant des trigrammes, ce sont des variations comparables, que l'on observe, alors qu'on pouvait en attendre, en théorie, 15 576 (26*26*26). Ainsi, il n'y a que 1 906 réalisations dans le Federalist 49, 2 087 dans le n° 1 et 2 425 dans le n° 10. Il est donc difficile des "réduire les fichiers au même dénominateur", si je puis m'exprimer ainsi ! Le tableau n° 1, "Généralités", résume les données et se passe de toute explication complémentaire.

 

 

Federalist Nombre de mots Nbre de caractères Nbre de Lettres Nbre de Digrammes Nbre de Trigrammes
1 1608 7819 7678 399 2087
10 2998 14862 14513 413 2425
49 1647 8234 8045 386 1906
50 1101 5676 5520 348 1598
51 1910 9635 9429 386 1968
52 1844 9154 8942 387 1973
53 2163 10818 10564 395 2130
54 1992 9765 9528 375 1921
55 2043 9969 9746 394 2130
56 1651 8337 8144 361 1779
57 2204 10744 10541 400 2185
58 2078 10516 10286 391 2131
62 2387 11737 11460 401 2325
63 3039 15198 14841 409 2492

 

Tableau n° 1 - Généralités concernant les douze "Papers".

 

 

 TkByte86

 

Tableau n° 2 - Les résultats initiaux obtenus par Jim Tankard.

 

 

 

DP n° Paper n° 1 Paper n° 10 Attribué à
49 58 81 Ham
50 92 69 Mad
51 71 54 Mad
52 92 91 Mad
53 75 66 Mad
54 106 107 Ham
55 87 78 Mad
56 85 92 Ham
57 84 89 Ham
58 68 73 Ham
62 52 53 Ham
63 69 74 Ham

 

Tableau n° 3 - Mes résultats s'agissant des "lettres simples" (cf. Table 1 de J. Tankard, ci-dessus).

 

DP n° Paper n° 1 Paper n° 10 Attribué à
49 2008 2434 Hamilton
50 2461 2622 Hamilton
51 2236 2537 Hamilton
52 2460 2509 Hamilton
53 1895 2468 Hamilton
54 2578 2612 Hamilton
55 2455 2474 Hamilton
56 2337 2539 Hamilton
57 2171 2508 Hamilton
58 2092 2543 Hamilton
62 2135 2392 Hamilton
63 2375 2490 Hamilton

 

Tableau n° 4 - Mes résultats s'agissant des digrammes (cf. Table 2 de J. Tankard, ci-dessus).

 

 

 

2.2 Explications, critiques et difficultés

 

Pour parvenir aux résultats que synthétise le Tableau n° 1, Tankard procède d'abord à une "normalisation" des données brutes. Prenons donc l'exemple du Federalist Paper n° 49, et des cinq premières lettres (ordre alphabétique).

Lettre Total brut 'Normalisation'
A 555 69
B 138 17
C 248 31
D 273 34
E 1097 136

Explications :

La lettre "A" est rencontrée 555 fois dans le texte n° 49. Pour parvenir à la donnée 'normalisée' 69, Tankard fait subir à la donnée brute une opération décrite dans son programme Basic : cette donnée est divisée par le nombre total de lettres (8 045, cf. Tableau n° 1) puis multipliée par 1 000 (pour les digrammes, notre auteur procèdera de la même manière, mais en multipliant par 10 000 - s'il avait pu traiter des trigrammes, aurait-il multiplié par 100 000 ?)

Nous avons bien ABS (555/8045)*1000 : 69. Et ceci jusqu'à la lettre Z. Ce qui ramène effectivement à des ensembles de 1000 lettres.

Chaque Federalist Paper "disputé" subit la même "normalisation" ;  il s'agit donc ensuite de confronter ces ensembles "normalisés", un à un, au Paper n° 1 (Hamilton), puis au Paper n° 10 (Madison), ces deux échantillons étant utilisés comme références.

Ainsi recherche-t-on la valeur absolue de la soustraction (Paper n°1 - Paper n° 49) sur les 26 lettres, ce qui conduit à la synthèse que présente la Table n° 1 de Tankard. Les cinq premières lettres "normalisées" du Paper n° 1 sont respectivement :  70, 16, 31, 33, 129. On procède donc à (69-70) + (17 - 16) + (31 - 31) + (34-33) + (136-129)...... jusqu'à atteindre la lettre Z. Le total obtenu est bien 58. Il est de 79, s'agissant de l'écrit n° 10. Selon notre auteur, c'est la donnée la plus basse qui départage entre Hamilton et Madison... On peut trouver cette manière d'opérer un brin sommaire...

Et d’abord parce qu'un des échantillons, comme on l'a dit antérieurement, ne comprend pas la lettre Z. Un moyen artificiel de pallier cette difficulté serait de ne pas tenir compte de cette dernière lettre de l'alphabet, puisque qu'elle ne figure pas dans Fed_50 ; mais serait-ce véritablement légitime, quand on remarque que sa distribution est très inégale selon les fichiers ? La voici d'ailleurs : Fed_1 (8) ; Fed_10 (18) ; Fed_49 (1) ; Fed_50 (0) ; Fed_51 (5) ; Fed_52 (3) ; Fed_53 (3) ; Fed_54 (3) ; Fed_55 (7) ; Fed_56 (1) ; Fed_57 (11) ; Fed_58 (2) ; Fed_62 (7) ; Fed_63 (3).

Ensuite parce que ce que notre auteur nomme "normalisation" n'en est pas exactement une (c'est une sorte de réduction au même dénominateur - à la même échelle, plus exactement). Pour comparer valablement des échantillons, il convient au préalable de s'efforcer de procéder à une normalisation, une vraie standardisation, au sens statistique du terme. Une standardisation des données  peut par exemple être obtenue par ce qu'Excel nomme la "centrée-réduite"(6), qui consiste à confronter la donnée brute à la moyenne de l'échantillon et à son écart-type : on obtient alors un total de zéro, s'agissant des 26 lettres, pour un écart-type de 1. Pour la commodité des comparaisons, et pour supprimer les nombres négatifs, on introduit un coefficient multiplicateur. Ce qui change quelque peu la donne...

Et si nous en venons aux digrammes, nous constatons (Tableau n° 1, colonne 5) que si nos quatorze échantillons renferment en moyenne 389 digrammes, les variations sont importantes entre le Federalist n° 50 (348 digrammes) et le n° 10 (413) : cette "plage" de 65 digrammes me paraît rendre assez aléatoire toute tentative de comparaison, ce qui apparemment a échappé à Jim Tankard. Et ne parlons pas des trigrammes...

 

 

III. Des Federalist Papers à La Recherche...

 

Pour sourire, je me suis essayé à comparer les digrammes et les trigrammes obtenus sur deux textes de Proust, très exactement le début et la fin de "À la recherche...". Ce qui a produit les résultats suivants que le lecteur curieux pourra interpréter à sa façon, voire même poursuivre plus avant.

 

3.1. Première partie

Il s'agit des dix premières pages de À La Recherche, depuis "Longtemps je me suis couché..." jusqu'à "était toujours en train de sécher un pleur involontaire"). Soit 18 570 lettres, 4 030 mots, 366 digrammes et 2 363 trigrammes. 

 

3.1.1. Les vingt premiers digrammes (en tout 366)

 


1 ES    516
2 RE    408
3 DE    396
4 EN    382
5 AI    379
6 LE    375
7 OU    308
8 NT    294
9 ET    294
10 ER    285
11 TE    285
12 IT    282
13 AN    266
14 ME    257
15 EL    249
16 ON    246
17 IS    243
18 SE    240
19 EM    226
20 QU    222

 

3.1.2. Et les vingt premiers trigrammes


AIT     156
ENT     148
AIS     134
LES     128
QUE     127
EDE     115
DES     108
ANT     93
EME     91
OUR     88
ERE     85
ELA     74
MEN     73
VAI     71
LLE     71
NTE     70
TAI     68
RES     67
DEL     67
ANS     66

 

 

3.2. Dernière partie

 


Il s'agit des dix dernières pages de La Recherche, depuis "Mais pour me contenter de distinguer les deux sortes de dangers menaçant l'esprit..." jusqu'à "à des époques vécues par eux, si distantes - entre lesquelles tant de jours sont venus se placer - dans le Temps". Soit 23 442 lettres, 5 042 mots, 362 digrammes et 2 377 triplets.

 

3.2.1. Les vingt premiers digrammes (en tout 362)

 


QUE     231
ENT     229
AIS     216
AIT     180
LES     146
EME     131
EDE     128
EQU     117
OUR     115
TAI     105
VAI     103
ANT     103
ELA     99
TRE     97
ETA     97
QUI     96
SQU     96
NTE     96
RES     95
RAI     92

 

 

3.2.2. Les vingt premiers trigrammes (en tout 2 377)

 


ES    622
EN    599
AI    535
RE    506
DE    471
NT    430
LE    404
QU    389
ER    380
ET    360
TE    358
IS    356
ME    354
SE    337
OU    330
EM    316
EL    313
ON    312
AN    296
UE    283

 

 

3.3. Un peu de normalisation...

 


D1 N1 D2 N2
AB 9,27 AA 8,22
AC 11,29 AB 9,02
AD 8,96 AC 11,04
AE 8,19 AD 9,2
AF 9 AE 8,43
AG 10,13 AF 8,52
AH 8,19 AG 8,84
AI 22,72 AH 8,19
AJ 8,27 AI 23,97
AL 11,25 AJ 8,16
AM 10,79 AL 11,13
AN 18,34 AM 10,89
AO 8,07 AN 16,87
AP 11,13 AO 8,13
AQ 8,38 AP 10,15
AR 12,76 AQ 8,43
AS 11,02 AR 11,73
AT 10,48 AS 11,22
AU 13,03 AT 10,24
AV 11,56 AU 12,02
AY 8,34 AV 12,14
AZ 8,07 AY 8,4
BA 8,85 AZ 8,16
BE 8,54 BA 8,34

 

 

 

Explications :

La normalisation présentée ici (après tri par ordre alphabétique des digrammes) est à moyenne dix, pour un écart-type de trois.

D1/N1 renvoient au premier extrait de La Recherche, D2/N2 au second extrait (fin de La Recherche).

On n'a listé ici que les vingt-cinq premiers items, pour ne pas alourdir la présentation.

On remarquera - entre autres - que le digramme AA ne se rencontre pas dans le premier extrait.

Sur l'ensemble des données (366 et 362 digrammes, respectivement, soit 726 degrés de liberté), le T de Student calculé est de 0,02.

                                                                                                                            

 

 

3.4. Essai de corrélation...

 

Lettres Brut_1 Brut_2
A 1613 1934
B 182 149
C 536 757
D 733 838
E 3243 4171
F 177 236
G 179 148
H 184 144
I 1338 1731
J 150 224
K 3 0
L 987 1114
M 670 924
N 1265 1676
O 995 1205
P 506 693
Q 222 389
R 1211 1542
S 1445 1873
T 1293 1615
U 1204 1553
V 309 397
W 0 3
X 63 77
Y 55 37
Z 9 14

 

 

 

Explications :

 Un essai de corrélation concernant seulement les lettres des deux extraits, avant même tout essai de "normalisation", aboutit à un coefficient de .99. Apparemment, les deux extraits sont donc bien du même auteur...

 

 

IV. L'Affaire Molière

 

Pour revenir à la préoccupation initiale exprimée dans l'article de J. Tankard, il faut bien constater que l'attribution d'ouvrages à leurs véritables auteurs n'a pas cessé d'être d'actualité. Ainsi, le colonel de Gaulle est réputé avoir rédigé une œuvre officiellement de la plume du maréchal Pétain. De même, Étiemble affirma qu'il avait écrit le Corydon signé par Gide...
On sait par ailleurs que d'autres études, conduites par le biais de programmes informatiques, ont semble-t-il abouti à d'intéressantes découvertes. Ainsi de la base de données Shaxicon, qui a permis à l'universitaire américain Donald Foster d'attribuer à Shakespeare un texte de 578 vers, "Élégie funèbre" publié sous les initiales W. S. et consacrée à un certain William Peter, décédé de mort violente le 25 janvier 1612(7).

 

1. De Pierre Louÿs à Hippolyte Wouters

 

Mais venons-en au sujet de ce paragraphe, qu'on pourrait intituler "l'Affaire Molière", ou encore "Corneille, nègre de Molière". Et rappelons tout d'abord que si Molière a été copieusement insulté de son vivant (on lui reprochait entre autres, fort injustement, d'avoir épousé sa fille !), jamais ses contemporains n'ont émis le moindre doute sur la paternité de ses œuvres.
C'est à Pierre Louÿs qu'on doit le lancement de cette thèse, en 1919, dans un article intitulé "Corneille est-il l'auteur d'Amphitryon ?". Le sulfureux auteur des Chansons de Bilitis remit le couvert avec "Molière est un chef-d'œuvre de Corneille". Il prétendait avoir remarqué une grande proximité entre "L'Amphitryon" de Molière et l'œuvre cornélienne, et dénonçait une supercherie littéraire. Le romancier Henry Poulaille (bien oublié aujourd'hui) lui emboîta le pas dans les années 50, suivi, en 1990, par l'avocat belge H. Wouters. Pour aller vite, ces différents auteurs s'appuient sur un voyage de Molière à Rouen (où il rencontra Corneille qui, rappelons-le, était son aîné de seize années) et sur de prétendues difficultés d'argent du créateur du Cid pour en tirer la conclusion que l'aîné rédigea en sous-main, moyennant finances, les comédies du cadet.

Notons que Molière s'est copieusement moqué de son aîné (et de son frère Thomas) dans la Querelle de l’École des femmes, et que les deux intéressés en furent fort fâchés :


"Je sais un paysan qu'on appelait Gros-Pierre
Qui n'ayant pour tout bien qu'un seul quartier de terre
Y fit tout à l'entour faire un fossé bourbeux
Et de Monsieur de l'Isle en prit le nom pompeux"
(Thomas Corneille se faisait appeler le sieur de l'Isle)

 

2. Dominique et Cyril Labbé, et la distance inter-textuelle

 

Cette thèse, qui avait très largement fait long feu, faute d'arguments autant solides qu'irréfutables, réapparut à l'occasion d'un article publié en décembre 2001 dans la revue Journal of Quantitative Linguistics (pp. 213-231), sous le titre "Inter-Textual Distance and Authorship Attribution Corneille and Molière". Les auteurs (les Labbé père et fils) présentaient leurs travaux en ces mots : "The calculation proposed in this paper measures neighbourhood between several texts. It leads to a normalized metric and a distance scale which can be used for authorship attribution. An experiment is presented on one of the famous cases in French literature: Corneille and Molière. The calculation clearly makes the difference between the two works but it also demonstrates that Corneille contributed to many of Molière's masterpieces".
Cet article connut une traduction française en avril 2002. Presque aussitôt, le Dauphiné libéré fit ses choux gras de "l'étonnante révélation" du modeste maître de conférences de l'IEP de Grenoble - au moins à la mi-octobre 2002, puis début juin 2003. Le quotidien grenoblois dévoilait à ses lecteurs la méthode Labbé, qui consistait à calculer "la distance intertextuelle de textes étudiés deux à deux". "Formule de calcul révolutionnaire", s'il en fut, était-il indiqué.
L'auteur (Dominique, le père) s'y déclarait "sûr de [ses] méthodes et de la qualité du travail qui a été effectué", ajoutant qu'il n'était pas "un littéraire". Ce qui laissait entendre, donc, qu'il était un scientifique.
Les media audio-visuels (eu égard à la qualité de leurs contenus, ne devrait-on pas, plutôt, utiliser le terme de merdias ?) lui permirent d'obtenir son heure de gloire, car il fut largement interviewé, et put même se pavaner en avril 2003 au 20 heures de France 2...
Là dessus, les thèses des Labbé furent largement développées dans leur ouvrage, "Corneille dans l'ombre de Molière"(8).

 

3. Discours sur la méthode Labbé : une "théorie inconsistante"

 


Si Labbé n'était pas un littéraire, en revanche quelques galopins, qui étaient, eux, des littéraires, lui montrèrent de quels vers ils se chauffaient. Et si je parle de galopins, c'est que j'ai remarqué qu'ils sont tous nés autour de l'année 51, à l'époque où, en classe de cinquième, je vivais l'incident "Enfants, aimez les champs" - auquel on pourra se rapporter par ailleurs...

Ainsi donc le pourfendeur le plus fougueux, peut-être des Labbé père et fils (et Saint-Esprit - et je me permets de faire incidemment observer que ce n'est pas parce qu'on a un fils prénommé Cyril que pour autant on travaille avec méthode) fut Georges Forestier (né le 13 juin 1951 à Nice), universitaire spécialiste du théâtre du XVIIe siècle - et motard passionné à ses heures perdues. Cet individu, qui alimente plusieurs sites Internet - le lecteur intéressé aura tout intérêt à s'y reporter(9), n'a pas hésité à dégonfler la baudruche en déclarant tout de go :  "Il suffit d'une poignée de farfelus pour semer le trouble". Et voilà la messe dite...

Et son collègue Patrick Dandrey alla dans le même sens : "Je compare Labbé à tous ceux qui affirment que Napoléon a été empoisonné, que les pyramides ont été bâties par des extra-terrestres, ou encore que le Masque de fer était le frère de Louis XIV. Moi, j'appelle ça un canular assisté par ordinateur".

Mais voici que Le Monde entra à son tour dans la danse. Considérant d'abord de façon plutôt sympathique la fameuse "distance intertextuelle de textes étudiés deux à deux", il fit plus tard appel à d'autres spécialistes (livraison du 11 juin 2003), et la musique "intextextuelle" changea du tout au tout. Ce fut tout d'abord Jean-Pierre Barthélémy, qui se dit "atterré par ces errements méthodologiques et épistémologiques", ajoutant : "Cette utilisation des méthodes que j'ai contribué à mettre au point est un non-sens. On ne peut pas faire passer pour des statistiques inférentielles, avec lesquelles on peut éprouver des hypothèses, des statistiques descriptives, d'abord destinées à faire réfléchir des spécialistes". Dans le même numéro, le linguiste Pierre Lafon (dans le civil ancien professeur de Labbé père !) enfonçait le clou : "La lexicologie statistique ne peut fournir avec certitude le nom d'un auteur. Elle permet seulement d'étayer une hypothèse. La méthode de Labbé, c'est du bricolage, un faux scoop pour se faire connaître". Que nous étions loin de l'interview triomphante au 20 heures de France 2 !

Mais le plus savoureux, pratiquement clochemerlesque, était à venir. La journaliste Fabienne Dumontet (qui était à l'origine de cette pleine page du Monde) avait réussi à faire accepter par Dominique Labbé le principe d'une rencontre avec un chercheur en statistiques lexicales de Besançon, M. Jean-Marie Viprey. Mme Dumontet et M. Viprey avaient donc rendez-vous (le 29 avril 2003) à Grenoble, au domicile de D. Labbé. La suite serait délectable, malheureusement je ne peux... que la résumer succinctement : "Monsieur Labbé nous a brusquement éconduits", écrit Madame Dumontet... Et M. Viprey se paya pour rien les 650 km aller-retour de son Université à Grenoble ! Enfin, pas tout à fait ; car Labbé entr'ouvrit sa porte et balança à ses deux visiteurs une enveloppe contenant quelques documents et les corpus sur lesquels il avait travaillé, ajoutant, "vous ne serez pas venus pour rien" !!!
Aussi, pour que le lecteur ne soit pas venu ici "pour rien" - mais rien ne l'empêche de juger in petto la surprenante attitude du chercheur grenoblois, je produis ci-après un court extrait de la critique de J.-M. Viprey, qui, d'une façon générale, a récusé la fiabilité de la formule de Labbé et la pertinence de ses choix techniques - n'hésitant pas à parler de "certitudes à l'emporte-pièce".

Ainsi écrit-il : "Nous montrerons successivement :

(1) que l'indice de distance proposé par MM. Labbé dans leur article, si nous avons bien compris sa formulation et les deux compléments qui sont indiqués dans le texte, mais non intégrés à la formule elle-même, n'est pas fiable.

(2) que la lemmatisation des textes, présentée comme un préalable nécessaire, n'a qu'une incidence mineure sur les résultats et semble destinée à ralentir ou bloquer les tests de vérification envisagés par les autres chercheurs

(3) que l'échelle de pertinence qui a permis à MM. Labbé d'affirmer détenir une preuve pour l'attribution certaine à Corneille de 16 pièces faussement signées de Molière, est inopérante et absurde

(4) que la démarche de MM. Labbé se situe aux antipodes de la scientificité et relève d'une imprudence rarement rencontrée à ce stade en sciences humaines ; qu'ils confondent allègrement preuves et présomptions, présomptions et faisceaux de présomptions.


On peut s'étonner, dans le même ordre d'idées, de voir ainsi régler le sort de Molière et de Corneille sans que jamais un vers ne soit cité et étudié, ni pratiquement un mot, sans qu'aucune approche stylistique d'ensemble ou de détail ne vienne à l'appui : en résumé, c'est la version la plus détestable et la plus caricaturale de l'application des statistiques lexicales aux objets littéraires"(10).

Fermez le ban.

Mais sans omettre de signaler auparavant qu'un ouvrage - et un site Internet - résument tous les "arguments" des tenants de la thèse "Pierre Louÿs" ; on y apprend que les opposants, les Forestier, les Dandrey et autres Viprey ne sont que des "sorbonnards" (!). Cet ouvrage, qui a pour auteur un certain Denis Boissier, ressasse sans le moindre esprit critique tous les arguments que nous avons rapidement évoqués, afin de tenter d'étayer la thèse de "la grande supercherie littéraire". On pourra toujours s'y reporter(11)... 

 

 

Conclusion

 

Je ne la souhaite pas trop détestable, encore que ce "canular assisté par ordinateur" le soit assez franchement. Mais il me semble que l'affaire dépasse la bien modeste personne des Labbé. Il s'agit au vrai de Grenoble, capitale des Alpes qui se la pète, comme dit ma fille (pure littéraire). De Grenoble, devenue grenouille qui veut se faire aussi grosse que le bœuf. Malheureusement, cela ne va pas loin, en dépit de tous les marquis voulant avoir des pages. C'est aujourd'hui la ville par excellence des bobos, la ville qui s'enchante à la moindre occasion avec son Dauphiné libéré, la ville qui vote à l'extrême gauche alors que partout ailleurs, c'est la Droite qui l'emporte. La ville qui croit que parce que son Université s'intitule Pierre Mendès-France, elle-même a hérité des exceptionnelles qualités d'intelligence de ce grand homme. La ville qui proclame vous allez voir ce que vous allez voir avec son GF38 qui s'étend, s'enfle, et se travaille, veut jouer dans la cour des Grands, avant d'en être méchamment expulsé et se retrouver fort bas, de dégringolade en dégringolade. La ville qui se veut terre de rugby, qui n'arrête pas de célébrer la divine surprise du 23 mai 54 (acquise à Toulouse, aux dépens de l'US Cognac : "Une équipe pour la vie, un titre pour l'Histoire..."), qui s'enorgueillit de posséder un stade sur-dimensionné - est-ce assez ? dites-moi - et vous allez voir ce que vous allez voir... et puis on finit à quelques doigts de la "descente". La ville "écologiste, solidaire et citoyenne" (défense de rire) qui va mettre en place des "autoroutes à vélos" (sic), songe à faire ramasser les poubelles par des véhicules hippomobiles, et envisage de confier la gestion "raisonnée" des pentes de Chartreuse à... quelques moutons... La ville qui a une réputation scientifique internationale... largement à cause des savants étrangers qui y travaillent... Et qui ne sont pas des bobos, eux. La ville dont la constante est "l'ultra-violence" de sa délinquance, en passe de faire la pige à son homologue marseillaise. Et elle s'intitule "métropole apaisée" ! Pour cela, il faudrait commencer par être maître aux pôles... Et la seule réaction de tous ces cons, c'est de supprimer les caméras de surveillance, et d'appeler à la dépénalisation du cannabis... Le monde, voyez-vous, est plein de gens qui ne sont pas sages...

 

 

 

 

V. ANNEXE I. TEXT PROCESSING : THE LITERARY DETECTIVE, BY JIM TANKARD

 

 

Use your computer to identify an unknown author

 

The power to play literary detective bas been granted to all of us by the invention of the microcomputer. The literary detective tries to identify an author purely by examining samples of writing. Some of the problems facing the literary detective might be trying to determine whether a famous author really wrote the works attributed to him or her, which of two likely candidates actually wrote a disputed document, or who wrote some famous but anonymous papers.

Researchers have taken various approaches to the problem of identifying the unknown author. T. C. Mendenhall used a word-length frequency approach to explore the controversy over whether Shakespeare actually wrote the plays attributed to him. Mendenhall counted the lengths of 400,000 words from Shakespeare and 200,000 words from Francis Bacon. He then drew a frequency curve for word lengths of each author. The curves from Shakespeare and Bacon did not match up very well, although a curve for Christopher Marlowe agreed with Shakespeare's about as well as Shakespeare did with himself.

G. Udny Yule used a different approach - the counting of the frequency of certain nouns - to try to determine whether Thomas a Kempis ((1380-1471) or Jean Charlier de Gerson wrote The Imitation of Christ. This work is sometimes said to be second only to the Bible in its importance in Christian literature, but there has been some controversy about who wrote it. Yule looked at the frequency of use of particular nouns in The Imitation and in other works by the two possible authors. He found that a number of classes of nouns were used at a much higher frequency by Gerson than they were in either The Imitation or a Kempis's other works, and this led him to conclude that a Kempis was the true author.

Alvar Ellegard used a similar approach - one based on counting the frequencies of certain major types of words - to determine the authorship of the Junius letters. “Junius” was the anonymous author of a series of letters that appeared several times a month in the London Public Advertiser from January 21, 1769, to January 21, 1772. The authorship of the letters, which were often critical of public officials, was a subject of frequent speculation at social gatherings around London. The most likely author on historical grounds was Sir Philip Francis, but it was also suggested that the letters might have been written by such candidates as Edmund Burke or Edward Gibbon. Ellegard concluded on the basis of his statistical analysis that the author was indeed Francis.

Frederick Mosteller and David L. Wallace counted the frequency of “minor function words” to determine whether Alexander Hamilton or James Madison was the author of 12 disputed Federalist papers. The Federalist papers were published anonymously in New York papers in 1787-88 under the name of “Publius”. Not until the French edition of a book containing the letters was published in 1792 was it publicly announced that they were the work of Alexander Hamilton, James Madison, and John Jay. Later, both Hamilton and Madison claimed authorship of 12 specific papers. Hamilton left a note in a friend’s bookcase before his duel with Aaron Burr, and the note listed the authors of the various “Publius” papers. Twelve papers that Hamilton assigned to himself in this list were listed in Madison's personal copy of the papers under Madison’s name. These papers - numbers 49 to 58, 62, and 63 - are the disputed papers. In contrast to the major word types used by Yule and Ellegard, Mosteller and Wallace found that minor words such as "a", "an", "by", "to" and "that" made good discriminators. Mosteller and Wallace, on the basis of their analysis of the use of minor function words, assigned all 12 of the disputed Federalist papers to Madison.

In a radically different approach, William Ralph Bennett Jr. has shown that the frequency of use of letters alone can serve to distinguish between samples of text. The frequency of use of single letters is often sufficient to differentiate between different languages, such as English and Spanish. The frequency of letter pairs, or digrams, is often sufficient to differentiate between authors. There are 26 times 26, or 676, possible letter pairs. Bennett reports a study using letter-pair frequencies that was able to distinguish the works of Hemingway, Poe, Baldwin, Joyce, Shakespeare cummings, Washington, and Lincoln.

 

 

Stylistic Fingerprints

 

To stick with the detective analogy a minute more, a writer leaves distinctive traces on his or her writing that can be thought of as stylistic fïnger prints. Some of these traces could appear at the level of letter frequencies or letter-pair frequencies. One advantage of looking for stylistic idiosyncrasies at this level is that they are probably not even conscious parts of a writer’s style. But they create a lot of points at which two authors could differ : for example, with a letter-pair analysis, there are 676 points of comparison.

William Paisley of Stanford University has referred to the small but telltale characteristics of a communicator’s style as “minor encoding habits”, and he has shown that they exist in painting and music as well as in writing.

I wrote some programs for the Apple IIe that would allow me to try the single-letter frequency and letter pair frequency approaches to author identification. Then I attempted to test each approach by seeing if it could correctly identify the author of each of the 12 disputed Federalist papers. The identifications would be considered correct if they agreed with Mosteller and Wallace’s.

Breaking the problem down, I needed programs that would read text from a file, perform the single letter and letter-pair counts, normalize the counts to a standard sample such as 1 000 letters or 10,000 letters, and compute a difference index that would summarize the differences in frequencies for any two samples of text.

I expected the programs for the single-letter analysis to be fairly easy to write. One program would read in the letters from a file a letter at a time and count them by incrementing an element of an array corresponding to the character’s Ascii number. Since there are only 26 letters, this would only require a one-dimensional array with 26 elements. The second program for the single-letter analysis would take the frequency counts from two different samples of text and compute a difference score.

In contrast, I expected the letter-pair analysis programs to be much more difficult to write. Not only would they require a two-dimensional array with 26 elements in each dimension, but also I anticipated that it was going to take some tortuous programming to count the letter-pair frequencies. Finally an obvious solution occurred to me. I only had to modify the program for single-letter frequencies so that it remembered the previous letter while it was counting the present one, and it would be able to count letter pairs. This was one of those instances where you really see the power of the computer ; through a simple algorithm the computer would be able to do with great speed and absolute accuracy a task that would be maddening for a human coder. The second program for the letter-pair analysis would take the frequency counts for two different text samples and compute a difference score, and it would be similar to the second program for the single-letter frequency analysis.

 

 

The Programs

 

I wrote four Basic programs for the Apple IIe. Text Gobbler 1 reads text from a file, counts the frequencies of single letters, normalizes them to a sample of 1 000 letters (not counting spaces or punctuation), allows you to print out a table listing the results and lets you store the frequencies in a file for later analysis. A sample table printed by Text Gobbler 1 appears in figure l. Frequency Analyzer 1 takes any two frequency data files created by Text Gobbler 1 and computes a difference index based on the differences in frequencies of use of every letter.

Text Gobbler 2 reads text from a file, counts the frequencies of letter pairs, normalizes them to a sample of 10.000 letters, allows you to print out a table listing the results, and lets you store the frequencies in a file for later analysis. A sample table printed by Text Gobbler 2 appears in figure 2. Frequency Analyzer 2 takes any two frequency data files created by Text Gobbler 2 and computes a difference index based on the differences in frequencies of use of every letter pair.

The Frequency Analyzer programs compute the difference index for two samples by taking the difference between the frequencies of a given letter (or letter pair) in the samples, getting the absolute value of that difference, and summing those values for all 26 letters (or for letter pairs, for all 676 letter pairs). The smaller this index is, the more the two samples are alike. The larger this index is, the more the two samples are different. Bennett suggests a slightly different index, but I did not use his because it involves comparing each sample with a sample representing "standard English", and it is not clear what you should use as the sample of "standard English".

 

 

Trying it out

 

I compared the disputed Federalist papers with a sample of Hamilton's text and a sample of Madison's text to see which they resembled most. The first Federalist paper known to be written by each man was the "known" sample. These papers were number l, by Hamilton, and number 10, by Madison. The Madison paper, at 18,087 characters was about twice as long as the Hamilton paper, at 9 399. characters. This should not affect the results, however, since frequencies are normalized to a sample of 1000 for single letters and to a sample of 10,000 for letter pairs.

The results for the single-letter analysis are presented in table 1, and the results for the letter-pair analysis are presented in table 2. ln each table, the analysis assigns 9 of the 12 disputed papers to Madison. This can be compared with the results of the Mosteller and Wallace study, which assigned all 12 to Madison.

The explanation for the difference in results probably lies in the size of the text samples that were used as the known samples in the two studies. Mosteller and Wallace went outside the Federalist papers to get more text from Madison because he had fewer known papers in the set than Hamilton. They ended up examining about 70,000 words of known text, divided about equally between the two authors.

My study used one Federalist paper from each author as the known sample. This involved about 6 000 words of known text, with one-third from Hamilton and two-thirds from Madison. A larger sample of known text in the present study rnight have produced a more dependable measure of the style of each author.

Another reason the letter frequency analyses may not have been 100 percent correct in their identifications is that the Hamilton-Madison discrimination is a particularly difficult one. The writing style in The Federalist is formal, and the writers may have even been attempting to write alike. Certainly it is a more difficult author-recognition test than distinguishing James Joyce, who made up his own words, from more standard writers of English or from writers in other countries and in other times.

Perhaps even more puzzling was that the single-letter frequency analysis was as effective in discriminating between Madison and Hamilton as the letter-pair frequency analysis. This finding means there was a pronounced difference between Hamilton and Madison in the frequency with which they used certain individual letters. I had not anticipated this, and it is a difficult finding to explain.

 

 

Using the Programs

 

These programs are designed to work on an Apple IIe and an Apple Dot Matrix Printer. The programs are Text Gobbler 1, Frequency Analyzer 1, Text Gobbler 2, and Frequency Analyzer 2.

The text samples you want to analyze should each be placed in a separate text file. The program is written so this can be done with a word-processing program such as Apple Writer. This makes it easy to look at the files and to make corrections in them. The files can also be created with the Make Text program in the Apple IIe Dos Programmer's Manual or on the Dos 3.3 "Sample Programs" disk. The only stipulation is that you must place an asterisk (*) as the last character of the text file (If you do not, the program will not know that it is at the end of the file and will produce an error message).

One of the big problems in using the programs is keeping all the files straight. For each text sample you are dealing with, you will have three files : one containing the text sample itself, a second containing the single-letter frequencies, and a third containing the letter-pair frequencies. Since I was dealing with 14 different text samples, I found it useful to draw up a table of the names of all the various files.

If you want to perform a single-letter frequency analysis on two or more samples, you will first run Text Gobbler 1. This program deals with one text sample at a time. It will ask you for the name of the file the text sample is in. Then it will proceed to read in the text and perform the letter frequency counts. It can take it l0 to 15 minutes to do this on a text of 2 000 to 3 000 words. The program will ring the bell on the Apple IIe to indicate that it is through reading text. The program will then give you several options : printing out a table of the frequencies, storing the frequency data in a file so it can be analyzed later with Frequency Analyzer 1, running Frequency Analyzer 1, and so forth. You need to store the frequency data in a file and have at least one other set of frequency data stored in another file before you can run Freouency Analyzer 1.

If you want to perform a letter-pair frequency analysis on two or more samples, you go through the same steps as above except that you use Text Gobbler 2 and Frequency Analyzer 2 instead of Text Gobbler 1 and Frequency Analyzer 1. Text Gobbler 2 can take quite a bit longer than Text Gobbler 1 because it is searching for 676 elements instead of just' 26. A run of Text Gobbler 2 on a 3000-word sample might take as long as half an hour. This program will also signal when it is through by ringing the bell. The program then presents you with the option of storing the frequency data in files so it can be analyzed later. ln this case, however, the frequency data will be for letter-pair frequencies and it will be analyzed by Frequency Analyzer 2.

The programs were written to work with the Apple IIe, but it should be possible to modify them to run on any microcomputer that uses Basic. The principle modifications would be in routines in Text Gobbler 1 and Text Gobbler 2 that read text from files. Also. if you do not have an Apple Dot Matrix Printer, it may be necessary to modify the portions of those programs that set up the printer.

The next logical step in this kind of research would be to extend the level of analysis to trigrams, or sets of three letters. The problem with doing this on a micro is that the storage capacity needed begins to exceed that available on many machines. A single-letter frequency analysis requires matrices with 26 elements. A letter-pair frequency analysis requires matrices with 26 by 26, or 676, elements. A trigram analysis requires matrices with 26 by 26 by 26, or 17,576, elements. In any of these analyses, two matrices have to be used at one time to compute the difference index, and each element requires at least two bytes of memory. So a trigram analysis will require at least 70,304 bytes, and that is not even allowing for the disk operating system or the rest of the Basic program needed to do the analysis. This exceeds the capacity of a 64K-byte machine and probably puts a strain on a 128K-byte machine unless some memory allocations are changed and programming is extremely efficient.

A trigram analysis should increase the sensitivity of the author-recognition technique considerably. It would theoretically look at 17,576 variables on which the two authors could differ. And it would begin to pick up three-letter words. These would probably include still more of the minor function words that Mosteller and Wallace found to be such good discriminators.

***

[Editor's note : The programs described in this article are available (in source code) for downloading from BYTEnet Listings. Call (617) 861-9764. The files are GOBBLER.ONE, GOBBLER.TWO, ANALYZER.ONE and ANALYZER.TWO. You will need an Apple Ile, printer, and Applesoft BASIC.

 

 

Bibliography

 

- Bennett, William Ralph, Jr, "Introduction to Computer Applications for Non-Science Students" (Basic). Englewood Cliffs, NJ : Prentice-Hall, 1976.

- Ellegard, Alvar, "A Statistical Method for Determining Authorship : The Junius Letters, 1769-1772". Goteborg, Sweden : Elanders Boktryckeri Artiebolag, 1962.

- Mendenhall, T C. "A Mechanical Solution of a Literary Problem". The Popular Science Monthly, December 1901, page 97.

- Mosteller, Frederick, and David L. Wallace, "Inference and Disputed Authorship : The Federalist". Reading, MA : Addison-Wesley, 1964.

- Paisley, William, J. "Identifying the Unknown Communicator in Painting, Literature and Music : The Significance of Minor Encoding Habits". Journal of Communication, December 1964, page 219.

- Yule, G. Udny, "The Statistical Study of Literary Vocabulary". Cambridge, England : Cambridge University Press, 1944

[Jim Tankard (3003 Cherry Lane, Austin, TX 78703) wrote his first computer program in 1963 while taking a Fortran course at Virginia Polytechnic lnstitute. He teaches journalism at the University of Texas at Austin - February 1986 - BYTE pp. 231-238]

 

 

 

 

VI. ANNEXE II : À S'Y MÉPRENDRE (ARBOR.BAS)

ARBOR
5 REM Initialisation
10     DIM C1$(3500), C2$(3500), C3$(3500),P(3),P$(3)
20     P = 0: PRINT :
PRINT "ENTREZ VOTRE TEXTE LIGNE PAR LIGNE"
30     PRINT "TERMINEZ VOTRE LIGNE PAR UN RETURN"
35     PRINT "SANS COUPER LES MOTS"
40     PRINT "POUR TERMINER LA SAISIE DU TEXTE
45     PRINT "ENTREZ UNE LIGNE VIDE"
48 REM Programme principal - saisie du texte
50     GOSUB 500:I1$ = R$: GOSUB 500:I2$ = R$
60     GOSUB 500:T$ = I1$ + I2$ + R$:
GOSUB 1000:I1$ = I2$:I2$ = R$: GOTO 60
70 REM Menu d'analyse du texte
200 PRINT : PRINT : PRINT " 1 - LISTE DES TRIPLETS":
PRINT : PRINT " 2 - GENERATION DE TEXTE"
240 INPUT R: ON R GOSUB 2000,3000
250 GOTO 200
300 REM Sous-programme de découpage du texte et de
transcodage (minuscules -> majuscules)
400 REM (élimination des accents, suppression
des caractères non-alphabétiques)
500 = M + 1: IF M > LEN (A$) THEN
M = 1: INPUT A$: IF A$ = "" THEN 200
501 R$ = MID$ (A$,M,l):R = ASC (R$):
IF R = 64 THEN R = 65
502 IF R = 123 THEN R = 69
504 IF R = 125 THEN R = 69
506 IF R > 96 THEN R = R - 32
510 IF R <65 OR R > 90 THEN R = 32
520 R$ = CHR$ (R): RETURN
530 REM Sous-programme de construction de
l'arbre des triplets
1000 1 = O:T = l:L$ = LEFT$ (T$,l)
1010 IF ASC (L$) = Cl%(I) THEN 1040
1020 IF C2% (I) < > 0 THEN I = C2%(I): GOTO 1010
1030 Cl%(P) = ASC (L$):C2%(P) = 0:C2%(I) = P:
P = P + l:T = T + 1: IF T > 3 THEN 1035
1032 L$ = MID$ (T$,T,1):C1%(P) = ASC (L$):
C2%(P) = O:P = P + l:T = T + 1:
IF T < 4 THEN L$ = MID$ (T$,T,l): GOTO 1032
1035 C3%(P - 1) = 1: RETURN
1040 T = T + 1: IF T > 3 THEN 1060
1050 I = I + I:L$ = MID$ (T$,T,l): GOTO 1010
1060 C3%(I) = C3%(I) + 1: RETURN
1080 REM Sous-programme de listage des triplets
2000 I = O:T = 1
2020 P$(T) = CHR$ (C1%(I)) :P(T) = C2%(I):
T = T + 1: IF T < 4 THEN I = I + 1: GOTO 2020
2025 PRINT P$(l) ;P$(2) ;P$(3); "--) ";C3ï.(l)
2030 T = T - 1: IF T = 0 THEN RETURN
2040 IF P(T) = 0 THEN 2030
2050 I = P(T): GOTO 2020
REM 1800 Sous-programme de génération de texte
3000 PRINT :NM = 0:
PRINT"     SYNTHÈSE DE TEXTE ALÉATOIRE"
3010 PRINT"     =========================="
3020 I1$ = CHRS (C1%(0)):I2$ = CHR$ (Cl%(l))
3030 I = 0
3040 IF ASC (I1$) < > C1$ (I) THEN
I=I + 1:GOTO 3040
3050 I = I + 1
3060 IF ASC (I2$) < > C1% (I) THEN
I = C2%(I): GOTO 3060
3080 TT = 0:I = I + 1:I0 = I
3090 TT = TT + % (I): IF C2% (I) < > 0 THEN
I = C2%(I): GOTO 3090
3100 X = RND (1): I = I0: TX = 0
3110 TX = TX + C3%(I) / TT: IF X > = TX THEN
I = C2%(I): GOTO 3110
3120 R$ = CHRS (C1%(I)): PRINT R$;:Il$ = I2$:
    I2$ = R$:NM = NM + 1: IF NM < > 800 THEN 3030
3130 NM = 0: PRINT : INPUT "ON CONTINUE (O/N) ? "; A$:
IF LEFT$ (A$,1) = "0" THEN 3030
3140 RETURN 

 


 

Notes


(1) Un coup d'œil sur la Toile me révèle que je ne fus pas le seul "internaute", loin de là, à m'intéresser au contenu de cet article !
Nota bene : il m'est agréable de signaler ici que les anciens programmes sous Basic n'étant - hélas - plus fonctionnels (pour ce qui me concerne, ma "bible" fut jadis, à cet égard, l'ouvrage de F. Pottier, "Initiation à l'informatique pour les sciences de l'homme, Tome 2 : Programmes de statistique usuelle", Hachette Université, 1973, 152 pp.), j'ai utilisé avec bonheur le précieux site Analyser les fréquences.
Dans la même veine, on pourra consulter aussi "Statistiques et attribution de textes : l'analyse des formes peut-elle remplacer celle des lemmes ? Le cas des textes attribués à Raoul le Moine (XIIe siècle)", in Médiévales, Le latin dans le texte, Printemps 2002, en colaboration avec M. Dubrocard et X. Luong, pp. 55-72.
(2) F. Neuville, Le thermomètre du vocabulaire, S&V Micro n° 52, juillet-août 1988, pp. 73-76.
(3) S&V Micro n° 14, février 1985, pp. 74 sq.
(4) On trouvera en Annexe l'article en question, de même que le programme "Arbor".
(5) Tous ces auteurs sont cités dans la Bibliographie en Annexe, et on pourra même trouver certaines de ces recherches sur la Toile, comme par exemple A_Mechanical_Solution_of_a_Literary_Problem.
(6) Le tableur Excel possède des fonctions "cachées", qu'il suffit d'activer dans les paramètres. On obtient ainsi - par l'onglet Données - un "utilitaire d'analyse" extrêmement précieux, s'agissant du domaine des statistiques, en particulier descriptives.
(7) Cf. Le Monde du 19 juin 1996, page 27, et l'article Wikipédia consacré à Foster. Notons que cette attribution a depuis été contestée par Gilles Monsarrat, traducteur des œuvres de Shakespeare. Notons aussi que Le Monde - post-68 oblige - en profite pour célébrer la (supposée) bisexualité de l'auteur du Songe d'une nuit d'été...
(8) Dominique Labbé, "Corneille dans l'ombre de Molière - Histoire d'une découverte", Les Impressions nouvelles, Collection "Bâtons rompus", 144 pages, 2003.
(9) 1. Sur Wikipédia ; 2. Atelier Fabula.
(10) Le texte intégral est à trouver ici [lien //elliadd.univ-fcomte.fr... etc. hélas inopérant...].
(11) Denis Boissier, L'Affaire Molière, la grande supercherie littéraire, Jean-Cyrille Godefroy, Paris, 2004, 317 pages (mon propre exemplaire est dédicacé par l'auteur à Josyane Savigneau - longtemps grande prêtresse du Monde des Livres, ma chère, avant d'en être débarquée sans ménagement comme on sait le faire au Monde ! - qui, apparemment, n'a pas souhaité conserver cet inestimable pavé. On y trouve, avec un toupet incroyable - n'y a-t-il pas à cet égard une célèbre apostrophe de Victor Hugo sur les culs de bouteille ?-, étalées toutes les thèses révélant "le pacte secret qui lia le grand poète au grand comédien" - au premier rang desquelles, celle de l'initiateur, Pierre Louÿs. Et toute la place nécessaire est faite, bien entendu, à D. Labbé, le régional de l'étape. Cf. aussi le site "Corneille-Molière" de Denis Boissier.