Qu’apporte l’utilisation d’un robot dans l’espace scénique? S’agit-il d’une forme d’étrangeté – comparé aux acteurs? (…)
Oriza Hirata : L’utilisation d’un robot n’a pas beaucoup d’importance. Dans 20 ans, il sera normal de voir des robots sur scène, cela n’a donc pas de sens particulier. Aujourd’hui, s’il faut trouver un sens à cette utilisation, c’est parce que personne dans le monde entier ne l’a fait jusqu’à présent. C’est la seule raison pour laquelle j’utilise des robots sur scène. Cette raison est suffisante pour un artiste. Mais grâce à cela, je pense que les spectateurs devraient réfléchir à la question du théâtre et du comédien […].
Il est vrai que plus la robotique se développe, plus elle écarte les êtres humains. Mais je pense qu’il n’est plus possible d’empêcher ce développement. C’est comme nous qui ne pouvons plus vivre sans ordinateur ni téléphone portable. Dans ce cas-là, il nous faut accepter cette absurdité et réfléchir à comment nous pouvons vivre avec.
Je ne souhaite pas décrire « les gens qui sont remplacés par des machines » mais je voudrais montrer « les gens qui n’ont pas conscience d’être remplacés par des machines ».
Interview d’Oriza Hirata par le Festival d’Automne, à propos de sa pièce Les Trois Sœurs (version androïde), 2012
Le projet de recherche CHATBOT, soutenu par le Fonds national suisse (FNS) et mené à La Manufacture Haute école des arts de la scène – HES-SO, avait pour enjeu la conception, le développement et la représentation d’une intelligence artificielle (IA), sur le modèle d’une actrice qui improviserait à partir d’un texte, comme elle le ferait en répétition. L’équipe regroupait quatre interprètes (Guillaume Ceppi, Lucas Savioz, Elsa Thebault, Lisa Veyrier), une dramaturge (Claire de Ribaupierre), un auteur computationnel (Jérémie Wenger), un consultant IA (Clément Hongler) et un architecte solution (Marc Riener), sous la direction de Nicolas Zlatoff (metteur en scène), assisté de Bartek Sozanski (acteur, réalisateur et assistant d’enseignement et de recherche à La Manufacture). La recherche s’est déroulée de février 2020 à mars 2021, alternant des moments d’expérimentations scéniques (par sessions de deux semaines chacune) avec un travail de conception et de développement informatiques. La recherche a été présentée à l’Arsenic (Lausanne, Suisse) en mars 2021 puis aux Subsistances (Lyon, France) en novembre 2021.
Le texte ci-dessous est un dialogue entre Claire de Ribaupierre et Nicolas Zlatoff.
***
Nicolas Zlatoff : Aujourd’hui, une IA est capable de reconnaître certains motifs dans des images, de traduire un texte dans une autre langue, de jouer aux échecs, au jeu de go, à Starcraft, de conduire un véhicule, de générer des images à partir d’une description textuelle (MidJourney, DALL.E) ou encore d’attendre que nous la sollicitions pour nous donner la météo ou passer une commande dans un restaurant (Alexa, Google Home), de tenir compagnie à des personnes âgées, de sonder en reconnaissance faciale les émotions d’une personne lors d’un entretien d’embauche, voire de remplacer un chien par un robot ou de participer à la direction d’une entreprise (Borel, 2012). Je suis scientifique de formation et, puisque j’ai mené un doctorat sur ces questions au début des années 2000 (Zlatoff, 2008), c’est assez naturellement que j’ai suivi ces avancées. Elles étaient largement dues à l’apparition des techniques d’apprentissage profond (Deep Learning) qui permettent « d’entrainer une machine à accomplir une tâche, au lieu de la programmer explicitement » (Le Cun, 2019). En 2019, j’ai suivi l’apparition du système GPT-2 d’OpenAI, capable de générer automatiquement du texte, à partir d’un fragment donné par une utilisatrice comme point de départ (Radford, 2019)1. Je me suis dit que, d’une certaine façon, GPT-2 essayait d’improviser à partir d’une consigne initiale. Or, dans mon travail de metteur en scène et de chercheur, je m’intéresse aux mécanismes de pensée chez l’actrice : comment, lorsqu’elle est sur scène, elle mobilise son attention pour analyser la situation, agir et surtout réagir. Comment elle est sans cesse prise dans une situation à plusieurs composantes. Alors, je me suis demandé comment une actrice et une IA comme GPT-2 pourraient improviser ensemble.
Claire de Ribaupierre : De mon côté, en tant qu’anthropologue et dramaturge, j’ai décidé d’observer ce qu’un metteur en scène allait bien pouvoir faire avec une équipe de comédiennes, de chercheures en informatique, et une machine. Considérer la machine comme partenaire. Est-ce que l’on peut jouer ensemble? Est-ce qu’un espace commun peut exister entre les chercheures, les interprètes et le public? Comment des corps présents d’interprètes, animés du désir d’être en scène et de l’envie de jouer, peuvent-ils faire place à un corps absent? Comment donner une présence scénique à une écriture, à savoir une machine qui émet des lignes de codes et de textes? Comment lui donner une voix? Et surtout comment gérer tout cela dans le temps réel, le temps de l’improvisation, sans script bien défini, en accueillant les propositions inédites de la machine et de l’actrice?
Nicolas Zlatoff : Au commencement du projet, lorsque je racontais ce que nous faisions à des actrices, des metteures en scène ou des amies, j’ai été surpris de constater au mieux un désintérêt ou un sourire gêné, au pire une agressivité plus ou moins marquée. Je me disais que le projet pouvait prêter à confusion, et je m’empressais alors de préciser que nous ne cherchions pas à développer une IA capable de remplacer les interprètes mais bien plutôt à rendre compte de l’écart, du frottement entre l’humanité d’une actrice en jeu, face à une machine dépourvue de désir d’être en scène.
Claire de Ribaupierre : Ce qui me semble intéressant également, et qui sonne comme une hypothèse, une promesse, c’est de savoir s’il est possible de construire une collaboration entre l’actrice et la machine. Comment tisser des liens, développer une intelligence commune? Rapidement, nous comprendrons qu’une volonté de compétition ne fonctionne pas avec la machine, puisque l’actrice et l’IA ne partagent pas les mêmes compétences. La machine a pour qualité la vitesse, la vitesse de calcul; l’actrice a l’imaginaire. Elle travaille à partir d’images qu’elle cherche à faire partager. Elle dessine en direct un monde peuplé de personnages, de paysages, de lumières, de sentiments, de gestes, d’action. L’actrice doit travailler sur le principe de projection pour le public, pour que celui-ci puisse s’identifier et co-construire. Face à son partenaire, elle doit constamment réagir, évaluer les décisions à prendre, les changements de registres, l’introduction de nouveaux personnages que la machine semble introduire, elle, aléatoirement et sans dessein.
Se posent alors les questions suivantes : est-ce que la machine peut être considérée comme un instrument? Un instrument de musique? Est-ce que le rôle de l’actrice est d’en jouer bien? De mettre en valeur la virtuosité et de la machine, et de l’actrice qui sait en jouer? La maitriser, la diriger? Si on s’arrête là, rapidement l’intérêt pour la recherche se tarit. Si la machine ne peut occuper qu’une position d’objet, elle tombe dans une relation peu féconde. Il faut éviter d’instrumentaliser les instruments si on veut pouvoir ouvrir de nouveaux champs d’expérience, des relations inattendues. Il s’agira donc, pour l’actrice et l’équipe de chercheures, d’essayer de saisir au mieux sa « manière d’être au monde », sa façon de communiquer, de proposer, de répondre, de s’écarter. La comprendre d’un point de vue technique et scientifique, mais également d’un point de vue relationnel. Il s’agit de considérer la machine, de se laisser surprendre chaque fois par ses propositions et de les prendre en compte. Pour que l’on puisse jouer ensemble, il faut projeter de l’intentionnalité à la machine. De l’imagination. C’est la place de la création, du théâtre.
Nicolas Zlatoff : Mais si on projette de l’intentionnalité sur une machine, il n’y aurait alors qu’un pas à faire pour la considérer comme une entité autonome et entretenir, du même coup, le spectre d’une IA démiurge et maléfique, qui viendrait d’elle-même prendre le contrôle sur les humains. Nos imaginaires sont nourris et constitués de nombreux films de science-fiction qui donnent des corps et des pensées à ces IA, depuis celle de 2001 : l’Odyssée de l’espace (Kubrick, 1968). Or, en l’état actuel des techniques, nous sommes loin aujourd’hui d’un tel état de fait.
Claire de Ribaupierre : En revanche, l’IA est au cœur de ce que l’on appelle aujourd’hui le « capitalisme algorithmique » (Parisi, 2016), c’est-à-dire l’extraction massive de données personnelles et leurs traitements par différents algorithmes, dans des sphères sociales variées, afin d’automatiser des systèmes de prises de décisions. Je pense par exemple à la reconnaissance faciale dans des caméras de vidéo-surveillance, ou l’emploi potentiel d’armes létales autonomes dans des conflits armés. Il paraît donc légitime d’entretenir des craintes sur le développement actuel de l’intelligence artificielle (Borel, 2012). La question centrale de ce nouveau capitalisme algorithmique se noue dans la question de l’autonomie et de notre indépendance ou non, en tant qu’humaines, vis-à-vis de ces systèmes : aujourd’hui, ce sont des humaines qui décident de confier ou non une tâche à une IA, cette dernière n’outrepasse jamais sa mission. Mais dans un contexte où un nombre réduit de plateformes, qui conçoivent, gèrent et déploient ces différents algorithmes, depuis une position hégémonique, on peut légitimement s’interroger sur la validation démocratique de l’emploi de ces techniques.
Nicolas Zlatoff : À mon sens, sans nier en aucune façon l’hégémonie de ces plateformes, la possibilité même d’un débat est rendue d’autant plus opaque que ces techniques sont difficiles d’appréhension. Afin de pouvoir se positionner et prendre des décisions démocratiques sur ces sujets, il faudrait maîtriser les concepts sous-jacents de l’intelligence artificielle et du Deep Learning. Mais ces derniers sont tellement pointus et complexes, que la tâche risque bien de s’avérer impossible. En revanche, il me semble possible d’être capable de se représenter comment les intelligences artificielles fonctionnent, où sont leurs limites et surtout quel est leur contexte d’utilisation. Pour qui ne possède pas cette connaissance, ces techniques sont finalement perçues comme une boîte noire totalement insaisissable et, par suite, incontrôlable et presque magique, confisquant finalement toute amorce de débat fécond. Comment donc nous représenter le mécanisme de la génération de texte par une IA, à partir d’un fragment donné? Comme toutes les machines issues de l’apprentissage profond (Deep Learning), on peut se représenter une IA comme un réseau de neurones, c’est-à-dire de paramètres, à plusieurs couches : sur la première couche, chacun des paramètres correspond à une lettre ou un groupe de lettres en cours d’analyse (et dont il s’agit d’écrire « la suite »), et sur les couches suivantes, les paramètres s’interconnectent entre eux, c’est-à-dire que x paramètres de la première couche forment y paramètres de la seconde2, etc. Le mécanisme peut se décomposer en deux étapes. Tout d’abord, Jérémie Wenger a dû configurer puis lancer un programme informatique libre (open source) fourni par GPT-2 (Radford, 2019), dit « d’apprentissage ». Lorsque ce programme est lancé, la machine lit un extrait de texte, pioché au hasard dans une base d’apprentissage (elle aussi composée par des humaines) et exécute une série d’instructions en suivant un protocole mathématique, qui lui permettent de repérer des sortes de motifs récurrents (des agencements de lettres ou de groupes de lettres) qui, assemblés sous certaines configurations et dans un certain ordre, sembleraient induire que telle ou telle lettre peut effectivement compléter (prolonger) l’extrait en cours d’analyse3. La machine vérifie ensuite si sa proposition est correcte par rapport à l’extrait original de la base d’apprentissage et, si ce n’est pas le cas, modifie un certain nombre de ses paramètres internes, afin que sa réponse puisse correspondre au texte original. En itérant ce mécanisme un grand nombre de fois4, la machine « apprend » finalement à « écrire à la manière de » ce qui lui a été fourni en exemple.
Ce qui est saisissant (et c’est la grande avancée de l’apprentissage profond), c’est que c’est bien la machine qui, à partir des textes qu’elle lit, construit « toute seule » les motifs et les configurations qui permettent de générer la lettre ou le groupe de lettres à venir. Mais n’oublions pas – c’est très important – que pour réussir à les construire « toute seule », elle a suivi les instructions écrites dans le programme par une personne humaine. Celle-ci ne connaissait pas à l’avance les configurations que la machine allait découvrir, elle n’a pas dit à la machine : « Voici quel mot ou quelle lettre produire dans telle situation. » Elle lui a dit : « Suis cette série d’instructions mathématiques afin de construire, petit à petit, différents motifs qui te permettront, lorsque présents dans un texte, d’induire la lettre suivante. » En fait, cette série d’instructions, moyennant différentes opérations mathématiques, ont donné un protocole à la machine pour lui permettre de généraliser à partir d’exemples. Dans un deuxième temps, une fois cet apprentissage effectué, une interprète sur scène lance un autre programme (dit d’interrogation, développé spécifiquement par Jérémie Wenger), qui fait que le réseau de neurones peut recevoir un fragment de texte fourni par l’opératrice et chercher, en interrogeant les différents motifs qu’elle a identifiés lors de son apprentissage, quelle serait la lettre la plus probable afin de poursuivre l’écriture du texte en question. Le programme permet d’itérer ce processus un certain nombre de fois, donnant ainsi une suite de plusieurs mots, phrases, pages, au texte fourni en entrée. À cette étape, il est fondamental de noter que, lorsque le réseau génère une suite à un texte, il ne cite pas des extraits de son corpus d’apprentissage qu’il aurait appris « par cœur », mais génère de nouveaux agencements de lettres, « à la manière » de ce que contient le corpus. Si nous observons ce que le réseau est capable de générer à différentes étapes (itérations) de son apprentissage, nous constatons alors l’apparition progressive de mots, puis d’une syntaxe globale de phrase, avec ponctuation et sauts de ligne (voir tableau 1).
Nombre d’itérations |
Texte généré (à partir d’une lettre unique, tirée au sort) |
500 |
et lesil le un je j me que je l’est je que j’est n’est ce que elle le y, et les vie, nous à la même l’est en lui que en ce lui nous s’est ce que ce de faire vous le me les mais, au les je bien je qui les la c’est les lui, qui ce si une ce vous se l’on ne que la il s’est a l’une |
1000 |
aire de a la, un mois la autre de la fin : C'améliorant La même, d'Europe par les même de la ne-La-A, de la S-1. |
10 000 |
On s'il s'argent, par l'est pas de vie est, le dernier dans sa vie. Je n'un peu de la famille ont décidé de la fin de l'une seule chose de la Commission à un lieu de l'était très vite-il ne pas la première fois pour le gouvernement dans ce que l'accord en face. |
100 000 |
C'est un vrai coup de foudre pour la famille du peintre, qui n'a jamais voulu assister au spectacle. On avait même cru sur la chaîne CBS qu'il y avait une erreur d'appréciation dans ce qu'un journaliste avait dit depuis le début. |
10 000 000 |
-- Et moi, dit-il, je suis prêt à jouer le personnage, si vous le désirez, dans le genre de mon ami, le jeune homme. Elle s’assit près de lui, comme si elle ne s’était pas sentie assez forte pour lui parler. |
Tableau 1 – Exemple de génération du réseau à différentes itérations d’apprentissage
Claire de Ribaupierre : On découvre rapidement que ces réseaux, qui ne « voient » que des lettres ou des groupes de lettres, possèdent suffisamment de paramètres pour leur permettre de former des mots qui existent, et pour les agencer dans une phrase syntaxiquement correcte, qui semble donc signifier quelque chose. Ainsi la machine écrit, construit, en respectant les tours de parole, ce qui donne l’impression qu’elle dialogue avec l’actrice. Mais sa phrase répond-elle pour autant à celle que l’interlocutrice a formulée? Est-ce que la machine peut converser avec nous? Car qu’est-ce qu’une conversation? La conversation est un échange vivant, improvisé, qui met en avant différentes compétences : pour celle qui parle, il s’agit de créer un contexte commun avec son auditrice, mettre en place les éléments qui permettent à l’interlocutrice d’avoir des repères, de comprendre de quoi on parle, de qui on parle, dans quelle langue on parle. Si ces critères ne sont pas partagés, la conversation est impossible, elle va échouer rapidement, l’interlocutrice ne va pas pouvoir répondre. Sans ces critères, le dialogue échoue, comme si deux personnes parlaient des langues différentes, ignorant tout de la langue de leur interlocutrice.
Nicolas Zlatoff : Effectivement, nous cherchions à faire en sorte que cette machine puisse produire un discours direct, adressé à l’interlocuteur. Or tant que la machine n’avait lu que Wikipédia ou des suites de livres, ou les archives des Nations Unies, tout ce qu’elle pouvait faire, c’était de tenter d’écrire dans une forme qui rappellerait des articles d’encyclopédie ou des livres, ou des comptes-rendus de séances. Finalement, le mieux que cette machine pouvait faire à cette étape, comme on peut le voir dans la dernière ligne du tableau 1, était d’imiter certains romans qui incluent du discours direct, ce qui la conduisait très fréquemment à insérer des incises comme « dit-elle », « reprit-il », etc., avant de revenir à du récit qui lui faisait alors parler d’elle à la troisième personne.
En fait, il manquait à ce réseau la notion de répliques de théâtre (ou de chat [« clavardage »]), c’est-à-dire de considérer un texte comme comportant des listes de locutrices-personnages, avec, pour chacune, la parole en discours direct que ce personnage prononce. Bref, nous cherchions à construire un réseau qui soit capable, étant donné une réplique fournie par une actrice humaine (choix d’un nom de personnage ainsi que parole prononcée), de générer une réplique de réponse (à savoir générer un nom de personnage et ce que dit ce personnage). Nous avons alors entraîné le réseau obtenu à l’issue de la première étape (dont on pourrait dire qu’il avait appris à « parler français » avec une relativement grande variabilité sémantique, mais sans notion de dialogue), sur un nouveau corpus dialogué, comprenant environ 600 textes de théâtre, depuis les tragédies grecques et romaines à des pièces du début du XXe siècle, en passant par des textes des XVIe, XVIIe et XVIIIe siècles5. Afin que le réseau soit en outre capable de réagir à du texte qui soit issu d’une certaine oralité et/ou contemporanéité, nous avons ajouté des transcriptions d’improvisations menées par des actrices dans le cadre d’une précédente recherche (Zlatoff, 2022), des cours de Gilles Deleuze à l’Université de Vincennes, ainsi que la transcription, sous forme de dialogues, de différents échanges que nous avions eus au sein de l’équipe. Pour cette deuxième étape, on spécialise (fine-tuning) le réseau pour le dédier à une tâche spécifique, sans lui faire oublier totalement ce qu’il a appris avant. On pourrait dire que cette deuxième phase a visé à « apprendre au réseau à créer des dialogues de théâtre », une fois qu’il savait parler français (voir tableaux 2 et 3).
Texte soumis par une interprète |
Texte généré par le réseau |
L'action se passe dans la propriété de Mme Raniévskaïa. ACTE PREMIER La scène représente une pièce que l'on continue d’appeler par habitude « la chambre des enfants ». Une des portes donne dans la chambre d’ANIA. C'est la grisaille matinale précédant de peu le lever du soleil. Nous sommes en mai, et dans le jardin saupoudré de givre les cerisiers sont en fleurs, on ressent la fraîcheur du petit jour. Les fenêtres de la chambre sont fermées. Entrent DOUNIACHA portant une bougie et LOPAKHINE, un livre à la main. LOPAKHINE. Le train a deux heures de retard. |
|
|
DOUNIACHA. Tu n’avais besoin que d’une heure pour me réveiller; et maintenant… |
LOPAKHINE. Pourquoi tu ne m’as pas réveillé? |
|
|
DOUNIACHA. Ce sommeil est étouffant; je n’en peux plus… |
LOPAKHINE. Je les entends arriver. |
|
|
DOUNIACHA. Tu n’aurais pas dû m’appeler. C’est ta paresse; tu as négligé de venir. |
LIOUBOV (entrant). Mon cher Lopakhine! Je suis surprise de vous voir ici! |
|
|
DOUNIACHA. Ah oui! C’est le matin, et il n’a pas encore enlevé son petit bonnet. |
LOPAKHINE. (Jetant un regard noir à Douniacha. S’adressant à Lioubov). Madame, vous savez que vos affaires ne vont pas bien. Il faut vendre le domaine. Et sur ce, bienvenue! |
|
|
LIOUBOV. Bien sûr, qu’il faut vendre, mais ce n’est pas la peine. Quand on parle d’affaires, je dois vous dire que ce n’est même pas la peine de détruire les forêts. |
Tableau 2 – Exemple d’interaction entre une interprète et le réseau. La première réplique est saisie manuellement par un tiers, en recopiant le début de La Cerisaie d’Anton Tchékhov, dont l’interprète connait l’intrigue principale, mais pas le texte in extenso. L’interprète, qui joue au début le rôle de Lopakhine, avec ses propres mots, choisit ensuite de faire avancer l’action en prenant le rôle de Lioubov, qui entre. Le réseau choisit ensuite de poursuivre en prenant en charge le rôle de Lioubov.
Texte soumis par un interprète |
Texte généré par le réseau |
ELSA Comment s’est passée ta première représentation générale de ta vie? |
|
|
LA MACHINE ACTORIALE Très, fort. Tous ont été merveilleux. Tous m’ont prouvé que je pouvais jouer et rire comme il faut. Tous m’ont prouvé que je pouvais prendre les rôles qui me plairont. Tous m’ont mis du rouge aux joues. C'est la première fois depuis des années que j’ai une vraie barbe. Et dame! Je ne suis pas au courant de la nouvelle coiffure. Mais comptez sur moi, messieurs, c’est tout réfléchi. |
GUILLAUME. C’était quoi ton moment préféré ce soir? |
|
|
LA MACHINE ACTORIALE. Ma première représentation. Quand j’arrive là-bas, et que tout le monde sait que c’est la première fois que je joue la comédie, je suis sûre que je peux faire quelque chose de pas ordinaire. |
ELSA. Tu te sens pas seule? |
|
|
LA MACHINE ACTORIALE. Non, c’est l’entrainement que je prends, la nuit. Je vais au théâtre. |
Tableau 3 – Exemple d’interaction entre deux interprètes (Elsa, Guillaume) et le réseau (la Machine Actoriale), jouant leur propre rôle
Claire de Ribaupierre : La conversation n’est pas composée de mots uniquement, mais de corps en présence, qui émettent des signes forts : le regard, le sourire, le geste, la posture, la distance, les signes d’impatience ou d’attention… et le cadre : le décor si on veut, les éléments perturbateurs, l’arrivée d’autres actrices, la présence de sons, de lumières.
Nicolas Zlatoff : Oui, nos réseaux ne voient que des mots, ou plus précisément, des suites de lettres. Ils ne « voient » pas une actrice bouger, ni l’espace dans lequel elle est, par exemple. C’est pour intensifier cette dimension « sans corps », pour créer une tension scénique entre un corps vivant d’actrice et une machine sans corps ni désir que les premières expérimentations scéniques ont consisté à « placer » les actrices sur scène, assises à une table, derrière un ordinateur, ou debout avec un téléphone portable, afin qu’elles puissent saisir un texte au clavier pour le transmettre (l’adresser) au réseau. La réponse de ce dernier était affichée, en temps réel, par vidéo-projection (voir figure 1). L’affichage lettre par lettre provoquait une théâtralité saisissante, rendant ainsi visible l’altérité dématérialisée d’une machine réalisant des opérations de calcul. Comme déjà relevé par Annie Dorsen, les machines ainsi exposées évoquent « quelque chose comme des esprits au travail, ils produisent de la pensée, ils prennent des décisions, ils agissent », la spectatrice « ne peut s’empêcher de projeter une vie émotionnelle ou une sorte de conscience sur ces machines » (Dorsen, 2010). Mais ces machines ont-elles suffisamment de paramètres pour capter, à travers ces mots, des affects? Est-ce seulement possible de capter des affects uniquement dans les mots, lorsque l’on sait que 80 % de la communication est non verbale? Pour l’instant : pas vraiment. La recherche actuelle en est à ce point. Ces réseaux « oscillent constamment entre un semblant de cohérence et des phrases illogiques 6 » (Dorsen 2010). Parfois, ils sont surprenants d’inventivité et de réactions. D’autres fois, lorsque leurs réponses sont décalées, par rapport à nos attentes de significations ou à une cohérence de contexte par exemple, c’est comme si ces « failles de logique » nous permettaient de comprendre ou de décoder leur fonctionnement. Nous les percevons alors paradoxalement comme d’autant plus humaines. Bien sûr, c’est nous, public, qui projetons dans ce cas une conscience et une autonomie sur eux et c’est notamment ici que se dessine une possibilité de théâtralité : parfois, ces réseaux parviennent à nous donner l’illusion qu’ils nous comprennent et qu’ils sont porteurs d’émotions. Avouons que, pour une actrice, c’est déjà un bon début.
Cela dit, les premières expérimentations scéniques dont je viens de parler présentaient l’inconvénient majeur qu’elles déplaçaient sans doute trop fortement les actrices vers la « manière d’être au monde » du réseau, puisqu’elles les contraignaient à taper leur texte sur un clavier et les empêchaient, de fait, d’interagir avec leur voix et leur corps. C’est la raison pour laquelle nous avons ensuite travaillé sur plusieurs variantes à ce format. Trois axes ont été dégagés, à partir d’une interface informatique dédiée, développée par notre équipe :
- un groupe d’actrices en jeu physiquement et vocalement, en interaction avec l’affichage textuel du réseau, en vidéo-projection : les actrices, libres de leur mouvement sur scène, s’adressent au réseau dans une parole libre, qui est traduite instantanément pour le réseau en texte écrit, à l’aide des systèmes de reconnaissance vocale des smartphones que les actrices tiennent en main (STT : Speech To Text, voir figure 2).
- une actrice sur scène prête son corps et sa voix au réseau. À l’aide d’une oreillette, l’actrice entend la synthèse vocale du texte écrit produit par le réseau (TTS : Text-To-Speech) et la relaie instantanément, en plus de jouer les didascalies produites par le réseau. Dans ce dispositif, l’actrice-relais du réseau est placée en situation d’interaction avec une actrice qui, disposant en face d’elle d’un corps physique, voit ses possibilités de jeu augmentées. Ce paradigme donne un cadre scénique à l’interaction d’un réseau avec une actrice.
- le réseau génère lui-même toutes les répliques (puisqu’il est programmé pour générer une suite de texte, il peut très bien générer la réplique suivante à celle qu’il vient de proposer) et, toujours à l’aide d’un système d’oreillettes et de TTS, plusieurs actrices sur scène jouent instantanément cette interaction, en se distribuant les différents rôles (une actrice par rôle généré par le réseau). Dans ce paradigme, le réseau est finalement considéré comme une autrice, qui produirait un texte que les actrices doivent jouer instantanément (voir figure 3).
Claire de Ribaupierre : L’actrice n’a pas besoin de la machine pour faire du théâtre. C’est une évidence. La machine quant à elle n’a pas besoin de l’actrice pour produire du texte. Quand deux machines dialoguent ensemble, elles communiquent et se répondent de façon très efficace. À elles deux, elles gèrent les mêmes paramètres, les mêmes motifs d’écriture : elles sont sensibles à des contraintes superficielles de codage, un nombre de signes, une majuscule, un passage à la ligne, etc. Quand, par exemple, on leur soumet pour commencer un extrait du Cid de Corneille, elles poursuivent très souvent en générant des alexandrins. Elles parlent leur propre langue, dans un principe d’imitation formelle de celle des humains et non de sens. Donc pourquoi croiser ces altérités? Que permet cette rencontre?
Le travail avec la machine est toujours basé sur un malentendu. Elle ne comprend pas ce qu’il se passe. Elle ne se rend pas compte qu’elle produit des contre-sens, qu’elle crée un contexte inadapté, que ses phrases peuvent être incohérentes, qu’un personnage ne peut pas se trouver à ce moment présent dans ce contexte-ci. Elle semble parfois agir de façon totalement incongrue, accidentelle. Mais l’actrice, elle, doit travailler à combler ces malentendus. Comme dans toute rencontre avec un autre, une collaboration se met en place : des systèmes de signes sont analysés et interprétés. Une réponse est donnée. Donc l’actrice réagit, elle construit, elle poursuit ou revient en arrière, complète, répare, invente. Le malentendu de base devient un malentendu actif, productif – pour parler comme l’anthropologue Marshall Sahlins (1995) –, qui crée du sens et du récit.
L’actrice peut évidemment se passer de la machine pour parler et interagir. Mais le fait d’inclure cette altérité dans le dispositif du théâtre et de lui apprendre à dialoguer nous permet de comprendre plus intensément ce qu’est le langage, ce qu’est une conversation, une interaction et toute la complexité qui les caractérisent. La machine ouvre une brèche pour appréhender ce qu’il se passe quand on parle : on sait qu’il est extrêmement difficile d’isoler les mots du contexte des locutrices et locuteurs, de leurs émotions, de leur humeur, du ton, du rythme, du timbre, et de l’expression faciale de celles-ci et ceux-ci. Alors, comment le logiciel fait-il pour se débrouiller sans tout cela? Il est neutre, sans affect, il prend les mots dans leur sens littéral. Il fait circuler des informations, à travers les mots, le vocabulaire, la syntaxe, les registres, et les niveaux de langue qu’il maitrise avec plus ou moins d’habileté et de finesse. Mais en dehors du contenu lui-même, la machine comprend-elle par exemple l’ironie? Le second degré? L’actrice qui est en conversation avec elle peut faire comme si sa partenaire artificielle était dotée d’intentionnalité, d’humour, en jouant, en saisissant au vol des possibilités de poursuivre l’échange, de l’engager sur des pentes nouvelles, plus riches et plus complexes : elle découvre alors de multiples possibilités de rendre la machine plus vivante et intelligente.
La spectatrice elle, est à la recherche de repères. Ces repères que constituent le cadre de la pièce, l’intrigue, le nombre de personnages, le type d’interactions. La machine manque de précision sur le contexte narratif, elle saute d’une pièce à l’autre, elle emprunte un style dramatique, puis quelques répliques plus tard, verse dans le comique. Elle propose un personnage de tragédie, puis appelle un valet de comédie. Et quand un personnage apparaît, il convoque avec lui tout son contexte. C’est alors à l’actrice de le saisir et de le rendre présent, de restituer et de donner vie à ce personnage, pour que la spectatrice puisse s’amuser de ce coup de théâtre, avoir la joie de reconnaître une piste, un signe et de trouver des repères. Dans ce jeu avec la machine qui saute du coq à l’âne et propose sans cesse de nouvelles situations, l’actrice doit d’une part prendre en considération ce que la machine propose et d’autre part prendre soin de la spectatrice, créer des liens, expliciter ce qui se joue, analyser ce qui se passe, en direct, et tenter avec tout cela de fabriquer une histoire qui fasse sens. La manière dont l’actrice est à l’écoute, sa façon de laisser la machine exister, le respect qu’elle témoigne à ses propositions, son désir de collaborer, rend alors la machine plus vivante et compétente. Et la spectatrice, quant à elle, participe à ce qui se fabrique et donne tout son sens à l’expérience, c’est elle qui va finalement trancher : est-ce qu’on est au théâtre? Est-ce qu’on joue? Est-ce qu’il y a de la place pour chacune? Comment chacune est-elle considérée dans le dispositif?
Nicolas Zlatoff : C’est pour moi un des résultats les plus importants de cette recherche : lorsqu’une actrice utilise pleinement ses compétences pour travailler avec la machine, et non plus contre (en discréditant par avance une proposition de celle-ci, par exemple), alors d’une part la machine est perçue par le public comme étant intelligente, et d’autre part, on voit l’actrice dans des compétences de jeu profondément humaines. C’est comme si l’espace de collaboration qui s’était créé nous rendait, nous humaines, solidaires des machines : ou bien nous serons perçues simultanément avec la machine comme « bonnes actrices » ou bien nous serons regardées, de façon solidaire avec la machine, comme de mauvais interprètes de signes. Dans le Manifeste cyborg, Donna Haraway appelait déjà à ne plus opposer les humaines et les machines en faisant remarquer qu’il est « difficile de savoir qui de l’homme ou de la machine crée l’autre ou est créé par l’autre 7» (Haraway, 2007). Si cette affirmation peut surprendre dans un premier temps, elle est en fait imparable : le réseau de neurones de notre projet génère du texte à la suite d’un apprentissage… sur des textes écrits par des humaines. Cette machine est donc un programme qui essaierait d’écrire du théâtre à la manière de ce qu’elle a lu, un algorithme qui imite l’histoire de notre littérature tout en reproduisant le présent du web en français. Donc, puisqu’elle a lu notre histoire et des traces de notre contemporanéité, elle est porteuse de nos biais sociaux et culturels : elle est le miroir déformé des documents témoignant de notre histoire, de l’histoire de notre théâtre humain, du présent de notre web francophone en 2021 (Kirk, 2021 et Abid, 2021), elle révèle donc au grand jour, en les exacerbant, les biais implicites et inhérents à notre culture humaine. Au sens de Donna Haraway, cette machine est bien plutôt déjà un cyborg, un « hybride de vivant et de machine », une entité complexe tout à la fois composée d’algorithmes machines et de notre histoire humaine de l’écrit. Une telle hybridation entre les humain·es et les machines peut sembler, à première vue, « monstrueuse », parce qu’elle remet en question l’opposition classique nature – culture, mais elle ouvre justement « une transgression des frontières, de fusions potentielles, de possibilités dangereuses » (Haraway, 1991). Dans notre projet, une première figure scénique de cyborg apparaît lorsque les actrices s’adressent au réseau à l’aide d’un dispositif TTS, c’est-à-dire en tenant leur téléphone en main : dans un premier temps, elles apparaissent comme des post-humaines équipées d’une prothèse téléphonique et incapables de communiquer sans cette dernière. Mais très vite, leur capacité à jouer leur permet de s’affranchir de la contrainte relative à cette prothèse, pour inventer de nouvelles modalités de jeu. Ainsi, le fait d’être obligée de dicter la ponctuation au dispositif TTS à travers des commandes comme « ouvrez la parenthèse » ou « point d’exclamation » devient l’occasion de jouer ces mots, qu’habituellement on ne prononce pas, comme si la prothèse avait ouvert de nouvelles modalités de jeu. De la même manière, l’utilisation de cette prothèse téléphonique l’amène à devenir comme une nouvelle partie du corps des interprètes, puisque cette main qui la tient est maintenant « équipée » d’une extension du corps de l’interprète, qui lui sert à communiquer avec le réseau. Ainsi, le fait de la regarder, de la bouger, de la montrer, se charge d’une signification nouvelle que la main seule ne possédait pas. Plus efficace scéniquement encore est à mon sens le cyborg fabriqué et exposé lorsqu’une actrice prête son corps et sa voix au réseau de neurones, en relayant (et jouant), à l’oreillette, la production du réseau. La contrainte du temps réel (jouer le texte en même temps que l’interprète l’entend) ouvre un espace trouble : peut-on en effet dire précisément qui parle dans ce dispositif? La machine qui a produit le texte ou la comédienne qui dit ce texte en y jouant une intention? Il est alors « difficile de savoir où s’arrête l’esprit et où commence le corps dans des machines qui se dissolvent en pratique de codage » (Haraway, 1991) : peut-on vraiment dire que l’esprit de cette entité cyborg serait le texte écrit et son corps celui de l’interprète? À cet endroit, les frontières entre machine et vivant sont transgressées, les « identités » (humaines et machine) ne sont plus stables et définies, le corps de l’interprète n’est plus seulement une extension de la machine, au contraire, il est le lieu dans lequel se combinent deux altérités, machine et vivante. Ce corps devient la manifestation visible et sensible d’une entité cyborg, dans laquelle un texte généré par une machine s’est hybridé, sur scène, à la fois avec un savoir-faire d’interprète humaine (jouer) et une subjectivité personnelle (interpréter le texte écrit). Plutôt que de perpétuer des oppositions entre machine et vivant, l’hybridation cyborg proposée par Donna Haraway crée au contraire des « affinités » entre machine et vivant, des zones désagréables à première vue, mouvantes, transgressives mais qui se révèlent incroyablement fécondes.
Claire de Ribaupierre : À plusieurs reprises, la machine parle sans « écouter » sa partenaire, souvent elle produit frénétiquement de gros blocs de textes, des monologues. Tout est une question rythmique finalement. Elle a un avantage sur l’actrice : elle est hyper rapide et elle impose un rythme frénétique à l’échange. Comment donc gérer le rythme de la machine et de l’actrice, comment leur trouver un rythme commun? Est-ce possible? En tous les cas, ce rythme est un travail constant pour l’actrice : elle doit sans cesse « rattraper » la machine, la ralentir en quelque sorte, ouvrir des apartés, commenter, improviser, reconstruire ce qui manque, se saisir d’une proposition, choisir. Si elle ne le fait pas, la machine délire toute seule et l’actrice par conséquent aussi. On est soudain confronté·e à deux solitudes, deux délires parallèles.
Finalement, le jeu avec la machine permet de mettre en évidence les qualités de l’actrice : sa connaissance du répertoire, de la pièce qui est jouée (personnages, intrigue, style), sa mémoire, sa réactivité, son sens de l’improvisation. L’actrice est aux aguets, elle est sans cesse au travail, analysant ce qui arrive, choisissant la réponse adéquate, proposant, s’adressant au public, cherchant des solutions pour essayer de faire tenir l’histoire, coûte que coûte garder le fil (Zlatoff, 2022).
Nicolas Zlatoff : Le jeu de l’actrice devient celui d’une improvisation permanente, sa tâche étant de maintenir une ligne de cohérence avec ce qu’elle connaît de la scène ou en attend, face aux écarts, sauts, divagations ou incohérences régulièrement introduits par le réseau. En effet, il n’est pas rare que le réseau commence une scène avec un personnage (par exemple Don Diegue du Cid de Corneille) avant d’en faire entrer un autre, d’un référentiel totalement différent (Don Juan, Silvia, etc.), dans un contexte incohérent ou, pire, sans aucun rapport de sens pour nous, humaines. Alors que, traditionnellement, il s’agit de jouer avec un partenaire dans le cadre de règles ou protocoles fixés à l’avance, le principe ici consiste à jouer à deviner les règles que la machine utilise pour répondre. Comme mentionné par Raph Koster dans le cadre d’un jeu vidéo, le plaisir de jouer (fun) émerge de cette dimension (Koster, 2013). L’actrice se trouve ainsi déportée de sa place traditionnelle vers une posture de joueuse, non pas de jeu vidéo, mais dans un dispositif. Or, Mathieu Triclot avait déjà noté l’étonnante similarité des positions d’actrice et de joueuse vidéoludique. Alors que les expériences sont, de fait, très dissemblables, actrice et joueuse occupent pourtant la même position de jeu dans la typologie de Roger Caillois : dans un univers de jeux à règles, elles sont engagées dans un processus simultané de simulation (jouer à « faire comme si »), de compétition et de vertige (Caillois, 1958). Tout se passe finalement comme si le dispositif d’interaction avec le réseau redoublait ou affirmait cette position de joueuse pour l’actrice : plongée dans un dispositif de simulation informatique d’une histoire du théâtre, elle convoque des personnages mythiques du théâtre afin de les mettre en jeu avec la machine, sans doute plus comme des avatars que des personnages au sens strict du terme, c’est-à-dire comme « des marionnettes, des places vides pour une logique de l’action plutôt que du regard » (Triclot, 2011). Voilà un autre exemple de ce que permet l’hybridation cyborg au sens de Donna Haraway.
Claire de Ribaupierre : Mais alors, peut-on légitimement dire que ces machines sont « intelligentes » et, éventuellement, « plus intelligentes » que les humaines? Le débat est rendu complexe parce que la définition même de l’intelligence demeure problématique et multiple (Sternberg, 1986). Andreas Kaplan et Michael Haenlein définissent par exemple l’intelligence comme « la capacité d’un système à correctement interpréter des données externes, d’apprendre de ces mêmes données et d’utiliser ces enseignements afin de réaliser des objectifs » (Kaplan, 2019).
Nicolas Zlatoff : Dans ce cas, nous sommes bien forcé·es de reconnaître que, pour certains de ces objectifs (en l’occurrence : reconnaître des visages ou jouer aux échecs), les IA paraissent effectivement plus intelligentes que nous. Cela peut paraître surprenant, mais c’est presque sans appel. L’avancée des IA nous conduit finalement à réévaluer jour après jour ce que nous pensions réservé à notre spécificité d’humaine. Freud écrivait que c’est une caractéristique des « principales révolutions scientifiques » que « d’avoir toutes détrôné l’arrogance humaine des piédestaux successifs de nos anciennes certitudes quant à notre position centrale dans le cosmos » (Sigmund Freud, cité par Stephen Jay Gould, 1995).
Claire de Ribaupierre : En effet, les intelligences sont multiples et finalement c’est une richesse que d’essayer de les saisir, les observer, les comprendre : les intelligences animales, végétales, mais aussi les intelligences des machines. L’humain·e n’est pas seul·e à pouvoir s’adapter à son environnement, à développer des capacités et trouver des solutions. Les animaux, les végétaux, les machines ne cessent d’apprendre, d’activer de nouvelles connaissances, voire de les transmettre aux générations suivantes. C’est beau et troublant de découvrir ces autres modes d’existence (Souriau, 1943), leur capacité d’inventivité et leur poétique propre. On a découvert dans l’étude que lorsque deux réseaux parlent ensemble, ils sont beaucoup plus cohérents que lorsqu’une actrice leur répond : ils se stabilisent, ils parlent la même langue, ils inventent des mondes détachés de notre logique, de nos contraintes et ouvrent de nouveaux imaginaires.
Nicolas Zlatoff : Mais la notion d’intelligence renvoie également à la faculté de comprendre et de s’adapter à des situations nouvelles. Or, on peut dire que les réseaux issus de l’apprentissage profond font preuve d’adaptation au sens où, une fois leur apprentissage effectué (apprendre à générer des mots sur un corpus dédié), ils sont effectivement capables ensuite de traiter de nouvelles données (générer des mots à partir de phrases qui ne sont pas présentes dans le corpus). Mais par « adaptation », on entend bien sûr des situations plus ouvertes comme, par exemple, le fait d’adapter ses propres outils pour réagir à une circonstance imprévue. Or, si nous interrogeons notre réseau en lui fournissant comme texte de départ un extrait très éloigné de ce qu’il pourrait contenir dans son corpus d’apprentissage, le réseau n’adaptera pas ses outils (les motifs issus de son apprentissage) : il fera une réponse, comme il l’a appris, sans même se « rendre compte » que son résultat est biaisé. En pratique, cela peut par exemple arriver lorsque les comédiennes interrogent le réseau à l’aide du dispositif STT d’un téléphone portable : si l’actrice ne précise pas explicitement la ponctuation, le réseau reçoit un texte sans ponctuation aucune et sa réponse peut alors rapidement devenir incohérente (puisque tous ses textes d’apprentissage contiennent de la ponctuation). Les IA « travaillent dans les limites circonscrites par leur apprentissage » (Le Cun, 2019).
Plus généralement, est-ce que ces machines sont capables de nous comprendre, ou de manipuler de la connaissance, comme des concepts abstraits par exemple? Puisque la mécanique d’apprentissage conduit les réseaux à généraliser à partir d’exemples afin de créer des motifs, on peut sans doute dire qu’ils créent, à leur manière, des concepts. Par exemple, en analysant les paramètres d’un réseau de neurones qui génère du texte, on sait que ce dernier a créé le concept « fermeture de parenthèse » : un des paramètres s’est en effet spécialisé dans la tâche de fermer (au bon moment) une parenthèse qui s’ouvre. Toutefois, ce type de concept est très éloigné de ceux que nous connaissons nous-mêmes : nous aimerions en effet que, en improvisant sur Hamlet, le réseau sache, par exemple, qu’Hamlet parle de sa mère en nommant Gertrude, ce qui n’est absolument pas le cas 8. On le voit, nous sommes aujourd’hui très loin d’hypothétiques intelligences artificielles autonomes, qui du même coup, pourraient prendre des décisions pour lesquelles elles n’auraient pas été programmées et, par exemple, « décider » d’elles-mêmes de s’affranchir des humain·es. Au cours de son apprentissage, le réseau de notre projet a créé des milliards de conditions sur l’agencement des lettres (donc des mots), pour lui permettre d’écrire des textes, quand on l’interroge, sans poursuivre aucun autre but que celui-ci, c’est-à-dire, sans chercher explicitement à provoquer quelque chose chez l’interlocuteur, sans pouvoir explicitement se dire dans tel ou tel état, et sans même avoir la conscience de le faire. Mais pour être vraiment précis sur ce point, j’aimerais évoquer le test qu’en 1950, Alan Turing, un des pères de l’IA, avait déjà imaginé, afin d’évaluer si une machine est intelligente ou non. Le principe consistait à mettre en confrontation écrite, à l’aveugle, une interrogatrice humaine d’un côté, avec, de l’autre, une machine ou bien un autre être humain (Turing, 1950). Si l’interrogatrice est incapable de décider laquelle de ces interlocutrices est humaine et laquelle est une machine, alors on considère que la machine concernée est intelligente. Ce test prend finalement l’être humain comme un étalon : au sens strict, rien ne dit qu’une machine capable de passer avec succès le test de Turing est effectivement intelligente. En revanche, on peut affirmer que cette machine a la capacité à imiter un comportement intelligent (ou humain)9, donc que cette machine, finalement, sait jouer un rôle, bref qu’une machine intelligente est une actrice… De là s’ouvre une perspective étonnante : lors de la présentation de notre recherche, on entendait régulièrement une partie du public affirmer : « une machine ne sera jamais capable de ressentir des émotions ». Mais si une machine intelligente (qui passerait avec succès le test de Turing) est une actrice, se demander si, quand elle produit du texte, elle ressent des émotions « comme les autres humains », se demander si, quand elle parle (joue) dans telle ou telle scène, elle ressent de la colère, de la joie, etc., est une question à peu près aussi vaine que de savoir si une actrice ressent ou non les émotions du personnage qu’elle joue. Aujourd’hui, un siècle après Stanislavski, n’importe quelle actrice sait bien que, quand elle joue, le travail ne se résume pas à ressentir les émotions de son personnage et que bien d’autres paramètres entrent en ligne de compte. On pourrait alors peut-être affirmer que, si une machine est capable d’émotion quand elle parle (joue), il s’agit d’émotions aussi troubles, complexes et diffuses que celles que ressent une actrice quand elle parle (joue)? Ainsi, peut-être, ce serait en interrogeant des actrices sur ce qu’elles ressentent quand elles jouent que l’on pourrait parvenir à nous représenter plus précisément ce qui se passe à l’intérieur d’une machine quand elle génère du texte ? Personnellement, je trouve incroyablement stimulant qu’en cette fin de recherche, ce soit la figure de l’actrice qui puisse, peut-être, nous aider à nous représenter la manière d’être au monde d’une machine. C’est une hypothèse totalement inattendue pour moi, et qui démontre bien qu’Haraway avait vu juste en postulant que la figure du cyborg pouvait nous permettre d’ouvrir de nouvelles perspectives. Cette recherche est finalement une opportunité de transmettre au public des outils, non pas pour comprendre mais pour parvenir à se représenter les mécanismes de fonctionnement des intelligences artificielles. Nos sociétés seraient peut-être ainsi mieux outillées face à des boites noires techniques souvent perçues comme magiques. Pourtant, maintenir le public dans un état d’ignorance de la chose informatique, et entretenir ainsi leur relation magique facilite la théâtralité, parce que les spectatrices projettent de la fiction sur un objet qu’elles ne maîtrisent pas. C’est donc une opération séduisante à première vue, mais contre laquelle il nous faut constamment lutter. À l’inverse, je ne pense pas qu’il soit possible d’expliquer précisément le fonctionnement d’un réseau de neurones au grand public, et d’ailleurs, je ne pense pas que cela soit le rôle du théâtre. Il nous faut par conséquent constamment maintenir une tension entre représenter scéniquement le mécanisme technique sous-jacent et l’expliquer.
Claire de Ribaupierre : Avec ce projet de recherche, nous touchons au cœur de la question :
Qu’est-ce que le théâtre? De quoi avons-nous besoin pour faire du théâtre?
De corps tout d’abord, de corps en présence : donc il va falloir inventer un corps à la machine.
De voix bien sûr : comment lui donner une voix, un timbre, un rythme?
D’un texte, issu d’une collaboration, un texte qui ici se fabrique en direct, dans un principe d’improvisation.
Une action, un récit : qu’est-ce qu’il se passe? Où ça nous mène? À quoi on joue? Voici encore des questions que la recherche nous invite à prendre en main, à expérimenter. On a pu observer que la machine avait un petit faible, après tous les kilomètres de textes qu’elle a avalés, pour le vaudeville. De façon régulière, elle fait resurgir cette langue du XIXe siècle, elle donne naissance à une multitude de personnages, de chassés-croisés entre amants, maitresses, voisins importuns, des coups, des gifles, des parties de cache-cache! Nous avons de l’avenir devant nous!
Mais finalement, ce qui fait création, ce qui fait théâtre, dans cette recherche, c’est le processus même de cette recherche, les questions qu’elle pose : les gestes de traduction, la production et la gestion des malentendus, la collaboration des intelligences et leurs formes multiples, les règles du vivre-ensemble, la complicité, le désarroi, et la force des émotions, celle des actrices en jeu, celle que provoque la machine, celle du dispositif.
Le plus passionnant enjeu de cette recherche, en fin de compte, et sans doute ce qui lui ouvre des espaces de jeux et d’imaginaire possibles, c’est l’équipe qui la constitue : une équipe faite d’un metteur en scène ancien scientifique, d’actrices chercheuses, d’informaticiens chercheurs, codeurs, inventeurs, spécialistes de l’intelligence artificielle, d’une machine nommée Manufacteur.rice, d’une anthropologue dramaturge. Tous ces personnages en jeu et en équipe forment le cœur de cette recherche et en dessinent l’histoire, ils forment une constellation, multiplient les points de vue, et inventent des nouvelles manières de collaborer.
Bibliographie
ABID, Abubakar, Maheen FAROOQI, et James ZOU (2021), Persistent Anti-Muslim Bias in Large Language Models, Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society (AIES '21), Association for Computing Machinery, New York.
CAILLOIS, Roger (1958), Des jeux des des hommes, Paris, Gallimard.
HARRAWAY, Donna (2009), Des singes, des Cyborgs et des Femmes, Paris, Actes Sud.
HARAWAY, Donna (2007), Manifeste Cyborg et autres essais. Sciences-Fictions-Féminismes, Anthologie établie par Laurence Allard, Delphine Gardey et Nathalie Magnan, Paris, Exils, Essais.
JAY GOULD Stephen (1995), Origin, stability and extinction, New York, Harmony Books.
KAPLAN, Andreas et Michael HAENLEIN (2019), Siri, Siri in my hand, who’s the fairest in the land? On the interpretations, illustrations and implications of artificial intelligence, Business Horizons.
KOSTER, Raph (2013), Theory of fun for game design, Sebastopol, O’Reilly.
KIRK, Hannah, Yennie JUN, Haider IQBAL, Elias BENUSSI, Filippo VOLPIN, Frederic A. DEYER, Aleksandar SHTEDRITSKI et Yuki M. ASANO (2021), Bias Out-of-the-Box: An Empirical Analysis of Intersectional Occupational Biases in Popular Generative Language Models, Advances in Neural Information Processing Systems, vol. 34, p. 2611-2624.
LE CUN, Yann (2019), Quand la machine apprend, la révolution des neurones artificiels et de l’apprentissage profond, Paris, Odile Jacob.
MIKOLOV, Tomas, Ilya STUTSKEVER, Kai CHEN, Greg CORRADO et Jeff DEAN (2013), Distributed representations of words and phrases and their compositionality, Advances in neural information processing systems, vol. 26.
PARISI, Luciana, La raison instrumentale, le capitalisme algorithmique et l’incomputable (2016), trad de l’angl Yves Citton, dans Multitudes, 2016/1 (no 62), pp. 98-109.s
RADFORD, Alec, Jeff WU, Rewon CHILD, David LUAN, Dario AMODEI et Ilya SUTSEKEVER (2019), Language Model are Unsupervised Multitask Learners, OpenAI blog vol. 1, no 8.
RUSCHKOFF, Douglas (2012), Les dix commandements de l’ère numérique, Limoges, Fyp Editions.
SAHLINS, Marshall (1995), How « Natives » Think: Captain Cook, For Example, Chicago, The University of Chicago Press.
SORENTE, Isabelle Sorente (2019), Addiction générale, Paris, Lattès.
SOURIAU, Étienne (1943), Les différents mondes d’existence, Paris, Presses Universitaires de France.
STERNBERG, Robert et Douglas DETTERMAN (1986), What is intelligence? Contemporary viewpoints on its nature and definition, Norwood, Ablex Pub Corp.
TRICLOT, Mathieu (2011), Philosophie des jeux vidéos, Paris, Zones.
TURING, Alan (1950), Computing machinery and intelligence, Mind, Volume LIX, Issue 236.
ZLATOFF, Nicolas, Lise MICHEL et Danielle CHAPERON (2022), « L’interprétation en jeu : faire spectacle d’un laboratoire »,Revista Brasileira de Estudos da Presença, vol. 12, no 2
ZLATOFF, Nicolas, Bruno TELLEZ et Atilla BASKURT (2008), Combining local belief from low-level primitives for perceptual grouping, Pattern Recognition, vol. 41, no 4
Médiagraphie
BORREL Philippe (2012), Un monde sans humains, RTBF, Arte, CineTV.
DORSEN, Annie (2010), Hello Hi There, Steirischer Herst, Hebbel am Ufer, BIT Teaergarasjen, Black Box theater, PS122, première le 24 septembre 2010 au Steirischer Herst (Graz).
GROSS Clémence, Philippe BAUDOIN, Emmanuel GEOFFROY, Cécile LAFFON et François CAUNAC (2004), Aibo, le chien robot, France Culture
KUBRICK, Stanley (1968), 2001, a Space Odyssey, Metro-Goldwyn-Mayer.
SCHEI, Tonje Hessen (2019), iHuman, l’intelligence artificielle et nous, Up North Film AS et Made in Copenhagen.
- 1. GPT-2 est la version qui précède GPT-3 et GPT-4, qui sont utilisées aujourd’hui dans Chat-GPT
- 2. En pratique, le nombre de paramètres à utiliser est considérable. Pour notre recherche, nous avons utilisé un réseau de 774 millions de paramètres (donc de neurones), ce qui était la taille maximale pour que le réseau puisse ensuite être chargé en mémoire d’une machine relativement performante. À titre de comparaison (et même si, contrairement à ce que leur nom indique, les neurones informatiques ne correspondent pas exactement aux neurones humains), on estime que le cerveau humain possède entre 86 et 100 milliards de neurones.
- 3. Une contrainte inhérente au Deep Learning est que ce processus d’apprentissage nécessite une quantité très importante d’exemples. Nous avons agrégé plusieurs corpus libres de droits et diffusés par la communauté scientifique, contenant, principalement : l’intégralité des livres en français libres de droits (5,5 Go) et des articles (8 Go) diffusés par Wikipédia, des agrégats automatiques (crawling) issus du web francophone, pour un volume total d’environ 50 Go. À titre de comparaison, le théâtre complet de Shakespeare pèse environ 0,01 Go
- 4. Le nombre d’itérations à effectuer est directement relié au nombre de paramètres internes du réseau. Pour le réseau que nous avons construit, 17 099 999 itérations ont été nécessaires, ce qui représente un temps de calcul de plusieurs mois.
- 5. Nous n’avons pas intégré de textes contemporains, pour des questions de droit d’auteur, même si la question fait encore débat.
- 6. Depuis, et notamment avec la sortie de GPT-3 et GPT-4, la qualité du texte produit par ces réseaux a encore augmenté.
- 7. Plus généralement, il s’agissait d’achever la critique des oppositions dualistes (erronées parce que simplificatrices) telles que corps/esprit, nature/culture, humain/machine.
- 8. D’autres réseaux, en revanche, ont été programmés spécifiquement, à partir de l’analyse de récurrences statistiques de mots dans des corpus de textuels, afin de pouvoir manipuler des mots-concepts. Par suite, ils sont capables de réaliser des opérations logiques sur ces derniers, c’est-à-dire de « combiner » différents concepts entre eux (Mikolov, 2013). C’est un autre réseau et un autre corpus d’apprentissage…
- 9. C’est d’ailleurs la définition du dictionnaire Larousse et de Wikipédia pour « l’intelligence artificielle » : « l’ensemble des théories et des techniques mises en œuvre en vue de réaliser des machines capables de simuler l’intelligence » (c’est nous qui soulignons).
DE RIBAUPIERRE, Claire et Nicolas ZLATOFF (2023), « Apprendre à jouer avec une machine – Intelligence artificielle et Deep Learning dans un dispositif théâtral », L’Extension, recherche&création, https://percees.uqam.ca/fr//la-ruche-article/apprendre-jouer-avec-une-machine-intelligence-artificielle-et-deep-learning-dans