L’intelligence artificielle va-t-elle tuer ou sauver les médias?

Publié le 24 novembre 2023

Les journalistes seront-ils tentés de donner la parole aux intelligences artificielles. Shutterstock

Recherche d’informations, production de contenu, traduction, détection de propos haineux… l’intelligence artificielle (IA) générative promet d’importants gains de productivité dans l’univers des médias.

Laurence Devillers, Sorbonne Université

Les médias nous accompagnent au quotidien et sont un support à la démocratie : ils ont la liberté de montrer différents points de vue et idées, de dénoncer la corruption et les discriminations, mais également de montrer la cohésion sociale et culturelle.

Alors que le public se tourne vers les médias pour s’informer, se cultiver et se divertir, les médias n’échappent pas aux soucis économiques et à la rentabilité d’une industrie mesurée en termes d’audimat et de vente. Dans ce contexte, l’IA générative amène de nouveaux outils puissants et sera de plus en plus utilisée.

Mais il faut crucialement rappeler que les IA génératives n’ont pas d’idées, et qu’elles reprennent des propos qui peuvent être agencés de façon aussi intéressante qu’absurde (on parle alors d’« hallucinations » des systèmes d’IA). Ces IA génératives ne savent pas ce qui est possible ou impossible, vrai ou faux, moral ou immoral.

Ainsi, le métier de journaliste doit rester central pour enquêter et raisonner sur les situations complexes de société et de géopolitique. Alors, comment les médias peuvent-ils exploiter les outils d’IA tout en évitant leurs écueils ?

Le Comité national pilote d’éthique du numérique (CNPEN) a rendu en juillet un avis général sur les enjeux d’éthique des IA génératives, que j’ai co-coordonné, au ministre chargé de la Transition numérique. Il précise notamment les risques de ces systèmes.

Des outils puissants au service des journalistes

Les médias peuvent utiliser l’IA pour améliorer la qualité de l’information, lutter contre les fausses nouvelles, identifier le harcèlement et les incitations à la haine, mais aussi parce qu’elle peut permettre de faire avancer la connaissance et mieux comprendre des réalités complexes, comme le développement durable ou encore les flux migratoires.

Les IA génératives sont des outils fabuleux qui peuvent faire émerger des résultats que nous ne pourrions pas obtenir sans elles car elles calculent à des niveaux de représentation qui ne sont pas les nôtres, sur une quantité gigantesque de données et avec une rapidité qu’un cerveau ne sait pas traiter. Si on sait se doter de garde-fous, ce sont des systèmes qui vont nous faire gagner du temps de recherche d’information, de lecture et de production et qui vont nous permettre de lutter contre les stéréotypes et d’optimiser des processus.

Ces outils n’arrivent pas maintenant par hasard. Alors que nous sommes effectivement noyés sous un flot d’informations diffusées en continu par les chaînes classiques ou contenus accessibles sur Internet, des outils comme ChatGPT nous permettent de consulter et de produire des synthèses, programmes, poèmes, etc., à partir d’un ensemble d’informations gigantesques inaccessibles à un cerveau humain en temps humain. Ils peuvent donc être extrêmement utiles pour de nombreuses tâches mais aussi contribuer à un flux d’informations non sourcées. Il faut donc les apprivoiser et en comprendre le fonctionnement et les risques.

L’apprentissage des IA génératives

Les performances des IA génératives tiennent à la capacité d’apprentissage auto-supervisée (c’est-à-dire sans être guidée par une main humaine, ce qui est un concept différent de l’adaptation en temps réel) de leurs modèles internes, appelés « modèles de fondation », qui sont entraînés à partir d’énormes corpus de données constitués de milliards d’images, de textes ou de sons très souvent dans les cultures dominantes sur Internet, par exemple GPT3.5 de ChatGPT est nourri majoritairement de données en anglais. Les deux autres types d’apprentissage ont également été utilisés : avant sa mise à disposition fin 2022, ChatGPT a été optimisé grâce à un apprentissage supervisé puis grâce à un apprentissage par renforcement par des humains de façon à affiner les résultats et à éliminer les propos non souhaitables.

Cette optimisation par des humains a d’ailleurs été très critiquée. Comment sont-ils formés ? Qui sont ces « hommes du clic » sous-payés ? Ces propos « non souhaitables », en outre, ne sont pas décidés par un comité d’éthique ou le législateur, mais par l’entreprise seule.

Un apprentissage qui oublie les sources

Durant l’apprentissage des modèles de fondation sur des textes, le système apprend ce que l’on appelle des « vecteurs de plongements lexicaux » (de taille 512 dans GPT 3.5). C’est le système « transformers ». Le principe d’entraînement du modèle de fondation est fondé par l’hypothèse distributionnelle proposée par le linguiste américain John Ruppert Fith en 1957 : on ne peut connaître le sens d’un mot que par ses fréquentations (« You shall know a word by the company it keeps »).

Ces entités (« token » en anglais) font en moyenne quatre caractères dans GPT3.5. Elles peuvent n’être constituées que d’un seul et d’un blanc. Elles peuvent donc être des parties de mots ou des mots avec l’avantage de pouvoir combiner agilement ces entités pour recréer des mots et des phrases sans aucune connaissance linguistique (hormis celle implicite à l’enchaînement des mots), le désavantage étant évidemment d’être moins interprétable. Chaque entité est codée par un vecteur qui contient des informations sur tous les contextes où cette entité a été vue grâce à des mécanismes d’attention. Ainsi deux entités ayant le même voisinage seront considérées comme proches par le système d’IA.

Le système d’IA générative sur des textes apprend ainsi un modèle de production avec des mécanismes qui n’ont rien à voir avec la production humaine située avec un corps, pour autant elle est capable de l’imiter à partir des textes de l’apprentissage. Ce fonctionnement a pour conséquence directe de perdre les sources d’où sont extraits les voisinages repérés, ce qui pose un problème de fond pour la vérification du contenu produit. Aucune vérification de la véracité des propos n’est produite facilement. Il faut retrouver les sources et quand on demande au système de le faire, il peut les inventer !

Lorsque vous proposez une invite à ChatGPT, il va prédire l’entité suivante, puis la suivante et ainsi de suite. Un paramètre clé est celui de la « température » qui exprime le degré d’aléatoire dans le choix des entités. À une température élevée, le modèle est plus « créatif » car il peut générer des sorties plus diversifiées, tandis qu’à une température basse, le modèle tend à choisir les sorties les plus probables, ce qui rend le texte généré plus prévisible. Trois options de température sont proposées dans l’outil conversationnel Bing (GPT4) de Microsoft (plus précis, plus équilibré, plus créatif). Souvent, les hyperparamètres des systèmes ne sont pas dévoilés pour des raisons de cybersécurité ou de confidentialité comme c’est le cas dans ChatGPT… mais la température permet d’avoir des réponses différentes à la même question.

« Hallucinations » et autres risques

Il est ainsi facile d’imaginer certains des risques de l’IA générative pour les médias. D’autres apparaîtront certainement au fur et à mesure de leurs utilisations.

Il paraît urgent de trouver comment les minimiser en attendant la promulgation pour l’Union européenne d’un IA Act en se dotant de guides de bonnes pratiques. L’avis du CNPEN sur les IA génératives et les enjeux d’éthique comprend, lui, 10 préconisations pour la recherche et 12 pour la gouvernance. Voici quelques-uns des risques identifiés pour les médias :

Faire trop confiance aux dires de la machine sans recouper avec d’autres sources. Le croisement de plusieurs sources de données et la nécessité d’enquêter deviennent fondamentaux pour toutes les professions : journalistes, scientifiques, professeurs et autres. Il semble d’ailleurs fondamental d’enseigner la façon d’utiliser ces systèmes à l’école et à l’université et de cultiver l’art de débattre pour élaborer ses idées.
Comprendre que ChatGPT est construit avec des données majoritairement en anglais et que son influence culturelle peut-être importante.
Utiliser massivement ChatGPT de façon paresseuse dans les médias, en produisant énormément de nouvelles données artificielles non vérifiées sur Internet qui pourraient servir à entraîner de nouvelles IA. Ce serait dramatique qu’il n’y ait plus aucune garantie de vérité sur ces données reconstituées par la machine. Deux avocats américains se sont par exemple fait piéger en faisant référence au cours d’une procédure, sur les conseils de l’algorithme, à des jurisprudences qui n’existaient pas.
Remplacer certaines tâches dans de nombreux métiers autour des médias par des systèmes d’IA. Certains métiers vont disparaître, d’autres vont apparaître. Il faut créer des interfaces avec des mesures de confiance pour aider la coopération entre les humains et les systèmes d’IA.
Utiliser les systèmes d’IA et les démystifier devient une nécessité absolue tout en faisant attention de ne pas désapprendre et de pouvoir s’en passer.
Il est nécessaire de comprendre que ChatGPT fait de nombreuses erreurs, par exemple il n’a pas de notion d’histoire ni de compréhension de l’espace. Le diable est dans les détails mais également dans le choix des données utilisées pour créer le modèle. La loi sur l’IA réclame plus de transparence sur ces systèmes d’IA pour vérifier leur robustesse, leur non-manipulation et leur consommation énergétique.
Il faut vérifier que les données produites n’empiètent pas sur le droit d’auteur et que les données utilisées par le système sont correctement utilisées. Si des données « synthétiques » remplacent demain nos connaissances dans l’entraînement des futurs modèles de fondation, il sera de plus en plus difficile de démêler le vrai du faux.
Donner accès à des systèmes d’IA (par exemple Dall-E ou Stable Diffusion) qui peuvent être utilisés pour créer de l’hypertrucage (deepfake en anglais) pour produire des images. Le phénomène rappelle l’importance de vérifier non seulement la fiabilité des sources des articles, mais aussi des images et vidéos. Il est question de mettre des filigranes (ou watermarks) dans les textes, images ou vidéos produites pour savoir si elles ont été faites par des IA ou de labelliser les données « bio » (ou produites par des humains).

Laboratoire de l’IA sur les émergences et limites des IA génératives

L’arrivée de ChatGPT a été un tsunami pour tout le monde. Il a bluffé experts comme non-experts par ses capacités de production de texte, de traduction et même de programmation informatique.

L’explication scientifique précise du phénomène d’« étincelle d’émergences » dans les modèles de fondation est un sujet de recherche actuel et dépend des données et des hyperparamètres des modèles. Il est important de développer massivement la recherche pluridisciplinaire sur les émergences et limites des IA génératives et sur les mesures à déployer pour les contrôler.

Enfin, if faut éduquer à l’école sur les risques et l’éthique tout autant que sur la programmation, et également former et démystifier les systèmes d’IA pour utiliser et innover de façon responsable en ayant conscience des conséquences éthiques, économiques, sociétales et du coût environnemental.

La France pourrait jouer un rôle majeur au sein de l’Europe avec l’ambition d’être un laboratoire de l’IA pour les médias en étudiant les enjeux éthiques et économiques au service du bien commun et des démocraties.

Cette contribution à The Conversation France prolonge une intervention de l’auteur aux Jéco 2023 qui se sont tenues à Lyon du 14 au 16 novembre 2023.

Laurence Devillers, Professeur en Intelligence Artificielle, Sorbonne Université

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

S’abonner

0 Commentaires

Le plus ancien

Le plus récent Le plus populaire

Commentaires en ligne

Afficher tous les commentaires

80 ans de l’ONU: le multilatéralisme à l’épreuve de l’ère algorithmique

L’Organisation des Nations unies affronte un double défi: restaurer la confiance entre Etats et encadrer une intelligence artificielle qui recompose les rapports de pouvoir. Une équation inédite dans l’histoire du multilatéralisme. La gouvernance technologique est aujourd’hui un champ de coopération — ou de fracture — décisif pour l’avenir de l’ordre (...)

Igor Balanovski

Sciences & TechnologiesAccès libre

Les réseaux technologiques autoritaires

Une équipe de chercheurs met en lumière l’émergence d’un réseau technologique autoritaire dominé par des entreprises américaines comme Palantir. À travers une carte interactive, ils dévoilent les liens économiques et politiques qui menacent la souveraineté numérique de l’Europe.

Markus Reuter

Sciences & Technologies

Compétences indispensables et professions émergentes pour un futur responsable avec l’IA

L’Histoire éclaire le présent et préfigure les futurs possibles. Les conférences de Macy (1946 1953) montrent comment le dialogue entre disciplines comble les angles morts de la connaissance et pose les bases de l’intelligence artificielle. Des enseignements essentiels pour guider l’utilisation responsable de celle-ci dans un monde où tout s’influence (...)

Igor Balanovski

Sciences & Technologies

Comment naviguer dans un monde en perpétuelle mutation

Dans un océan d’informations, nos choix dépendent moins de ce que nous savons que de notre capacité à relier et organiser nos connaissances. Entre philosophie, psychologie et intelligence artificielle, découvrez comment naviguer dans un monde qui se reconfigure sans cesse afin de tirer parti du chaos et transformer l’incertitude en (...)

Igor Balanovski

Sciences & Technologies

Des risques structurels liés à l’e-ID incompatibles avec des promesses de sécurité

La Confédération propose des conditions d’utilisation de l’application Swiyu liée à l’e-ID qui semblent éloignées des promesses d’«exigences les plus élevées en matière de sécurité, de protection des données et de fiabilité» avancées par l’Administration fédérale.

Solange Ghernaouti

Philosophie

Quand l’IA gagne en puissance, la philosophie gagne en nécessité

A l’heure où les machines imitent nos mots, nos gestes et nos doutes, la frontière entre intelligence artificielle et intelligence humaine se brouille. L’IA, miroir de nos structures mentales, amplifie nos forces autant que nos dérives. Face à cette accélération, la philosophie s’impose: elle éclaire les liens, les contextes, les (...)

Igor Balanovski

CultureAccès libre

Vive le journalisme tel que nous le défendons!

Pourquoi BPLT fusionne-t-il avec d’Antithèse? Pour unir les forces de deux équipes attachées au journalisme indépendant, critique, ouvert au débat. Egalement pour être plus efficaces aux plans technique et administratif. Pour conjuguer diverses formes d’expression, des articles d’un côté, des interviews vidéo de l’autre. Tout en restant fidèles à nos (...)

Jacques Pilet

Culture

Une claque aux Romands… et au journalisme international

Au moment où le Conseil fédéral tente de dissuader les cantons alémaniques d’abandonner l’apprentissage du français au primaire, ces Sages ignorants lancent un signal contraire. Il est prévu, dès 2027, de couper la modeste contribution fédérale de 4 millions à la chaîne internationale TV5Monde qui diffuse des programmes francophones, suisses (...)

Jacques Pilet

Philosophie

Notre dernière édition avant la fusion

Dès le vendredi 3 octobre, vous retrouverez les articles de «Bon pour la tête» sur un nouveau site que nous créons avec nos amis d’«Antithèse». Un nouveau site et de nouveaux contenus mais toujours la même foi dans le débat d’idées, l’indépendance d’esprit, la liberté de penser.

Bon pour la tête

Sciences & TechnologiesAccès libre

Superintelligence américaine contre intelligence pratique chinoise

Alors que les États-Unis investissent des centaines de milliards dans une hypothétique superintelligence, la Chine avance pas à pas avec des applications concrètes et bon marché. Deux stratégies opposées qui pourraient décider de la domination mondiale dans l’intelligence artificielle.

Politique

A confondre le verbe et l’action, on risque de se planter

De tout temps, dans la galerie des puissants, il y eut les taiseux obstinés et les bavards virevoltants. Donald Trump fait mieux. Il se veut le sorcier qui touille dans la marmite brûlante de ses colères et de ses désirs. Il en jaillit toutes sortes de bizarreries. L’occasion de s’interroger: (...)

Jacques Pilet

Politique

Les fantasmes des chefs de guerre suisses

Il arrive que le verrou des non-dits finisse par sauter. Ainsi on apprend au détour d’une longue interview dans la NZZ que le F-35 a été choisi pas tant pour protéger notre ciel que pour aller bombarder des cibles à des centaines, des milliers de kilomètres de la Suisse. En (...)

Jacques Pilet

PolitiqueAccès libre

PFAS: un risque invisible que la Suisse préfère ignorer

Malgré la présence avérée de substances chimiques éternelles dans les sols, l’eau, la nourriture et le sang de la population, Berne renonce à une étude nationale et reporte l’adoption de mesures contraignantes. Un choix politique qui privilégie l’économie à court terme au détriment de la santé publique.

Politique

L’identité numérique, miracle ou mirage?

Le 28 septembre, les Suisses se prononceront à nouveau sur l’identité numérique (e-ID). Cette fois, le Conseil fédéral revient avec une version révisée, baptisée «swiyu», présentée comme une solution étatique garantissant la souveraineté des données. Mais ce projet, déjà bien avancé, suscite des inquiétudes quant à son coût, sa gestion, (...)

Anne Voeffray

Sciences & Technologies

Les délires d’Apertus

Cocorico! On aimerait se joindre aux clameurs admiratives qui ont accueilli le système d’intelligence artificielle des hautes écoles fédérales, à la barbe des géants américains et chinois. Mais voilà, ce site ouvert au public il y a peu est catastrophique. Chacun peut le tester. Vous vous amuserez beaucoup. Ou alors (...)

Jacques Pilet

Politique

Démocratie en panne, colère en marche

En France, ce n’est pas tant le tourniquet des premiers ministres et la détestation de Macron qui inquiètent, c’est le fossé qui se creuse entre la société et le cirque politicien, avec son jeu d’ambitions qui paralyse le pays. Le tableau n’est guère plus réjouissant en Allemagne, en Grande-Bretagne, en (...)

Jacques Pilet

L’intelligence artificielle va-t-elle tuer ou sauver les médias?

Des outils puissants au service des journalistes

L’apprentissage des IA génératives

Un apprentissage qui oublie les sources

« Hallucinations » et autres risques

Laboratoire de l’IA sur les émergences et limites des IA génératives

Cette contribution à The Conversation France prolonge une intervention de l’auteur aux Jéco 2023 qui se sont tenues à Lyon du 14 au 16 novembre 2023.

Laurence Devillers, Professeur en Intelligence Artificielle, Sorbonne Université

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

80 ans de l’ONU: le multilatéralisme à l’épreuve de l’ère algorithmique

Les réseaux technologiques autoritaires

Compétences indispensables et professions émergentes pour un futur responsable avec l’IA

Comment naviguer dans un monde en perpétuelle mutation

Des risques structurels liés à l’e-ID incompatibles avec des promesses de sécurité

Quand l’IA gagne en puissance, la philosophie gagne en nécessité

Vive le journalisme tel que nous le défendons!

Une claque aux Romands… et au journalisme international

Notre dernière édition avant la fusion

Superintelligence américaine contre intelligence pratique chinoise

A confondre le verbe et l’action, on risque de se planter

Les fantasmes des chefs de guerre suisses

PFAS: un risque invisible que la Suisse préfère ignorer

L’identité numérique, miracle ou mirage?

Les délires d’Apertus

Démocratie en panne, colère en marche

Aide

Antithèse

Nous trouver