Arthur Grimonpont’s Post

View profile for Arthur Grimonpont

AI Safety & Information

Après avoir mangé tout le texte d'internet, les modèles de langage réécrivent internet. Des chercheurs de l’université de Stanford ont analysé 950 000 articles de recherche publiés sur des bases de données scientifiques entre début 2021 et début 2024. Ils estiment qu’à la fin de cette période, 5 à 18 % du texte de ces publications était généré par IA, selon la discipline concernée. Les revues les plus prestigieuses ne sont pas épargnées : 6 % du texte de Nature serait rédigé par IA. Dans une seconde étude, ces chercheurs estiment que 14 % des communiqués de presse de l’ONU et 24 % des communications d’entreprises sont du « texte synthétique ». Le phénomène ne se limite pas aux publications soumises à un processus éditorial rigoureux. Le texte généré par IA concernerait a minima : - 5 % des nouveaux articles en langue anglaise sur Wikipédia ; - 10 % des newsletters les plus lues sur Substack, avec des centaines de milliers d’abonnés chacune ; - 47 % des articles sur la plateforme Medium ; - 54 % des publications longues sur LinkedIn. Selon l'organisation Pangram Labs, qui a analysé l’intégralité des « articles d’actualité » publiés dans le monde au cours d’une journée, 7 % seraient l’œuvre de l’IA. Plus de 60 000 articles synthétiques sont publiés chaque jour, essentiellement sur des fermes à clics dont certaines sont très bien référencées sur Google. Il s'agit là d'estimations conservatrices : les pourcentages réels sont sans doute plus élevés, les outils de détection peinant à identifier le texte synthétique à mesure que les modèles de langage progressent. Cela a de graves conséquences. D’abord, la pollution de l’espace informationnel. On assiste à une hyper-inflation du texte : plus de texte, de moindre valeur. Une récente analyse conduite par la BBC montre que les chatbots répondent de manière inexacte à plus de 50% des questions d’actualité, y compris lorsqu'ils « citent leurs sources ». Il est difficile d’estimer la part du contenu synthétique échappant à toute relecture avant d’être publié. Mais même lorsqu’il est corrigé, le texte synthétique consiste essentiellement à extraire l'information produite par d'autres sources pour la délayer dans une langue standardisée (ses régularités statistiques sont précisément ce qui permet aux experts de l’identifier). Ensuite, il faut s’attendre à observer un déclin de nos facultés d’écriture. La loi anthropologique du moindre effort et la loi économique du moindre coût prédisent une généralisation du recours aux modèles de langage. Tous les sondages disponibles témoignent d'une adoption rapide des chatbots dans le monde des études et du travail. Certes, personne ne se soucie d’avoir sous-traité le calcul mental à la machine. Mais l'écriture est au fondement de l’apprentissage et la langue est le support de la pensée humaine. Cela ne signifie pas que la technologie soit « mauvaise ». Seulement qu’elle est déployée trop vite pour être comprise, encadrée et mise au service de la société.

  • chart
Christian SABRIÉ

Conseil en Formation - Qualité des organisations / Auditeur QUALIOPI I Consultant en Formation Professionnelle I Facilitateur Soft skills I Consultant Formateur en Énergies Réseaux et Environnement

1mo

Tout est dans tout mais Que les IAG soient de plus en plus plus utilisées pour produire du contenu textuel est une chose ... Et en conclure " qu'il faut s’attendre à observer un déclin de nos facultés d’écriture. " me semble être une simple paralogie. Est-ce que le développement de l'usage du dérailleur a conduit au déclin de l'usage de la bicyclette ? il ne me semble pas l'avoir constaté . Cf. Claire Doz, professeure de lettres à l'Éduc Nat. https://www.ac-paris.fr/l-intelligence-artificielle-dans-l-education-130992

Like
Reply
Patrick Roux

Director at Sapphire France Holding

2mo

effet pervers : L'IA génère du texte en fonction des textes dont elle se nourrit. Si de plus en plus de texte sont générés par IA , elle va finir par se nourrir de ses propres textes.

Laure Ducoulombier

Researcher in Construction 4.0

2mo

Ces chiffres sont à creuser : que signifie 6% du texte de Nature serait écrit par IA ? Ce chiffre de 6% n’a pas du tout le même sens si cette phrase signifie que 6 article sur 100 sont écrit 100% par IA (et donc 6% des articles n’ont aucune valeur ou presque) ou selon que ça signifie que chaque article de Nature a en moyenne 6% de son texte écrit par une IA (ce qui ne me choque pas du tout). La vérité est sans doute entre les deux. Ce que je veux dire c’est qu’il faut creuser l’usage de l’IA comme assistant rédactionnel, poser les limites et développer les bonnes pratiques, et ne pas crier de suite au scandale avec des chiffres qui ne disent rien de la façon dont l’IA a été utilisée.

David Chaveron ☨ ⏚🐿️🐝🐋

MariPapa. Artisan réparation vente de Vélos. Drogué à l’énergie, au pétrole, la voiture, l’eau, la viande, au plastique, aux écrans. Activiste pour la sobriété, l'affaire du siècle, les soulèvements de la Terre, XR, TFTP

2mo

Un outil qui permet de les repérer ? Une extension aux navigateurs serait fort intéressante Arthur Grimonpont

Le problème dans ce post, c’est surtout que tout ceci est invérifiable. Alors, une étude dit que « des chercheurs de l’université de Stanford ont analysé 950 000 articles de recherche publiés sur des bases de données scientifiques entre début 2021 et début 2024. » Soit une fourchette de 47 500 à 171 000 articles concernés… Dans quelles bases de données ?  6% des articles de Nature : par article ou en prenant tous les articles ?  Une étude avec un tel delta de résultats mérite d’être complètement analysée.  Merci de communiquer la source de ces données.  

Like
Reply
Jean-Philippe Bétoin

Scaling B2B Ventures & Deeptechs | IoT | SaaS & Cloud | Cybersecurity | AI | B2B Marketing | Product Management | Business Development | Ecosystem & Corporate Development | Innovation Strategy

2mo

Une étude récente disait qu’un nombre significatif des articles publiés sous Arxiv avaient leur Abstract généré par IA. Ce qui semble raisonnable et pas spécialement alarmant.

Like
Reply
Hugues Sévérac

Innovation-oriented Leader

2mo

D’accord avec l’esprit du post, mais pour illustrer que tout n’est pas perdu, on va faire preuve d’un peu d’esprit critique : les chiffres donnés sont probablement surévalués : dans le graphique, il n’y a aucune crédibilité à avoir un plateau bruité sur 2021 à 2022 et donc il s’agit probablement de faux positifs. Par ailleurs, faire « relire » un texte par une IA n’est pas forcément une mauvaise chose. On les fait bien corriger par un correcteur orthographique (qui est de l’IA) depuis un moment. Donc pas convaincu que l’IA soit « déployée trop vite », il faut surtout former les gens à l’utiliser correctement. De toutes façons, on n’a pas le choix.

Emmanuel Barthe

Bibliothécaire documentaliste juridique, veilleur, formateur, spécialiste de l'open data et de l'IA juridiques

2mo

Est ce possible d'avoir les liens vers les études ? Merci.

Like
Reply
Williams Deschamps

International support and CMF consultant en Infonis International

2mo

Deux questions s'imposent à moi...Quand la mesure et la gravité de ce phénomène sera prise en compte ? Et par qui (c-a-d qui peut avoir une emprise sur la chose..)?

See more comments

To view or add a comment, sign in

Explore topics