Ce mois-ci, nous vous proposons un article de George Grätzer dans lequel il décrit (et démontre!) l’utilisation de ChatGPT pour l’écriture. Comme vous le savez probablement, ce robot conversationnel est basé sur un grand modèle de langage (GML). Ces modèles sont intéressants d’un point de vue mathématique, et ils réussissent mieux qu’on ne pourrait le penser à produire un texte d’apparence naturelle.
Je ne suis pas un expert en GML, mais ce que je comprends s’explique peut-être plus simplement par analogie avec un modèle de langage plus petit et plus simple, datant du 20e siècle, parfois connu sous le nom de « presse dissociée » (« dissociated press »). Cet algorithme, facilement mis en oeuvre par de petits programmes, et essentiellement un processus de Markov qui étend de manière répétée une chaîne de mots ou de caractères A_o A_1\cdots A_n sur la base des probabilités que la sous-chaîne A_{n-M}\cdots A_{n-1}A_{n} dans un texte source soit suivie de divers choix pour A_{n+1} (où M est fixe et n augmente).
Au niveau des lettres, cela donne une soupe à l’alphabet pour M=0 ou M=1. Au fur et à mesure que M augmente, le résultat devient prononçable, et finalement reconnaissable comme du français (en supposant que ce soit la langue du texte source). Pour des valeurs encore plus grandes, la grammaire devient généralement correcte; et finalement, le résultat est une sorte d’ensemble construit à partir de morceaux du texte source, comme un train roulant sur des rails avec seulement des points de commutation très occasionnels. La version au niveau des mots évolue de la même manière et un peu plus rapidement. Dans chaque cas, il existe un « point idéal » où le résultat est agréablement surréaliste, un peu dans le style des travaux de l’Ouvroir delittérature potentielle (OuLiPo), influencé par les mathématiques.
Les grands modèles de langage font à peu près la même chose, mais avec des algorithmes de modélisation plus sophistiqués, empilés sur plusieurs strates. Ils sont normalement formés non pas à partir d’un seul texte source, mais à partir d’autant d’écrits que les créateurs peuvent mettre la main dessus. Et c’est là que se situe la première controverse. L’utilisation de matériel piraté à cette fin, comme à toute autre fin, est certainement contraire à l’éthique et illégale. Mais qu’en est-il du matériel, toujours sous droits d’auteur, qui a été mis à la disposition du public? Le GML le plagie-t-il? Il est important de comprendre qu’un GML ne stocke pas une copie de son matériel de formation : il stocke plutôt une foule d’ « observations » à son sujet, à différents niveaux d’abstraction. Comme c’est essentiellement ce que fait un lecteur humain, il pourrait sembler raisonnable que le GML soit autorisé à le faire aussi, à moins que le travail ait été publié avec des restrictions spécifiques sur son utilisation.
Cette question est toutefois compliquée par les rapports sur l’IA générative qui recrache des versions à moitié mâchées mais reconnaissables du matériel d’apprentissage, une sorte de « cryptomnésie ». Je ne comprends pas très bien pourquoi cela se produit, mais il se peut que certains mots ou noms n’apparaissent que dans une seule oeuvre source, laissant le modèle avec la « croyance » que si une chaîne de texte contient, par exemple, un personnage appelé Humbert Humbert, il n’y a pas beaucoup de chemins à suivre, et reconstituant des morceaux du roman de Nabokov. Quelqu’un qui n’a jamais lu «Lolita » pourrait avoir beaucoup de mal à s’en rendre compte : par conséquent, les textes créatifs produits par une IA générative doivent être publiés (sitant est qu’ils le soient) avec beaucoup de prudence!
Ces IA génératives ont tendance à écrire de bonnes phrases, qui s’emboîtent souvent pour former des paragraphes plausibles. ChatGPT ne vous dira probablement pas que « les idées vertes incolores dorment furieusement » (« colorless green ideas sleep furiously ») à moins qu’on ne lui ait demandé de citer Noam Chomsky. Cependant, à mesure que l’échelle augmente, la tentative d’imiter la « chambre chinoise » (« Chinese room ») de Searle commence souventà s’effondrer. Cette prose si convaincante peut énoncer quelque chose de complètement faux : c’est ce qu’on appelle une « hallucination ». Il n’y a rien d’étonnant à ce que cela se produise : le programme ne connaît rien du monde! Nous pouvons imaginer un programme de Dissociated Press, formé sur (par exemple) le texte de Oliver Twist, qui utilise suffisamment de lettres dans sa table de recherche pour produire des phrases à peu près grammaticales impliquant les personnages familiers, mais pas assez pour saisir l’intrigue du livre. Les utilisateurs ont eu de sérieux problèmes à ce sujet. Récemment, l’IA générative a été utilisée pour rédiger un document juridique. Malheureusement, l’IA a inventé certaines sources qu’elle citait; le juge n’apas apprécié et l’avocat a été sanctionné. Dans de tels cas, un modèle de document à l’ancienne serait probablement plus sûr.
George (comme vous le verrez) est un adepte enthousiaste de la première heure, et il vous parlera du plaisir qu’il y a à l’utiliser. Vous devrez décider vous-même dans quelle mesure vous l’utiliserez à des fins plus sérieuses.