Data

La prochaine révolution scientifique viendra-t-elle du deep learning ?

Par Sarah Sermondadaz le 19.10.2016 à 14h58 Lecture 4 min.

Le machine learning sort des laboratoires d'informatique pour aller à la rencontre des autres sciences. Et avec des arguments de taille, puisque la technologie a le potentiel de bouleverser la façon dont se construisent les théories scientifiques.

réagir

Le deep learning représente une innovation de rupture pour la recherche scientifique

Le deep learning ne doit pas seulement intéresser les technophiles, mais bien la communauté scientifique tout entière.

Commenter

MÉTHODE SCIENTIFIQUE. Les algorithmes rêvent-ils de moutons électriques ? Le deep learning représente en tout cas une rupture non seulement technologique, mais aussi scientifique. C'est ce qu'affirme Stéphane Mallat, Professeur à l’Ecole Normale Supérieure : “c’est un changement de paradigme pour la science”. Car apprendre aux ordinateurs à apprendre n’est pas qu’une utopie d’informaticien. Au-delà de leurs applications médiatisées en reconnaissance faciale ou synthèse vocale, ces technologies remettent en cause certains fondamentaux de la méthode scientifique. En cause : un changement radical dans la construction mathématique des modèles scientifiques. “Traditionnellement, les modèles sont construits par les chercheurs eux-mêmes à partir de données d’observation, en n’utilisant guère plus de 10 variables”, illustre Stéphane Mallat. “À l’inverse, les algorithmes d’apprentissage sélectionnent seuls le modèle optimal pour décrire un phénomène à partir d’une masse de données”… avec une complexité inatteignable pour nos cerveaux humains : “jusqu’à plusieurs millions de variables”.

Principes de base de la méthode scientifique : les modèles (ou théories) sont classiquement construits par les chercheurs à partir des observations. Le deep learning change la donne en assistant l'expertise scientifique dans la construction des modèles.

Un tremplin pour la recherche, toutes disciplines confondues

Une complexification qui n’est pas neuve en soi : “la science a pu construire des modèles de plus en plus complexes grâce à l’augmentation de la puissance de calcul des outils informatiques”, commente Denis Girou, directeur de l’Institut du développement et des ressources en informatique scientifique au CNRS. “Au point que la simulation numérique est désormais considérée comme le troisième pilier de la science après la théorie et l’expérience.” L’apport, pour les chercheurs ? Laisser la machine chercher seule les tendances cachées dans les données d’observation plutôt que de définir des modèles puis en circonscrire les limitations à force de simulations numériques pour finalement sélectionner celle s’approchant le plus de la réalité. De nombreuses disciplines scientifiques peuvent en bénéficier : ”Physique fondamentale et médecine (vision, audition) voient converger leurs modèles algorithmiques”, avertit Stéphane Mallat. Les autres champs de recherche ne sont pas en reste : “En sciences du climat par exemple, l'approche traditionnelle qui consiste à injecter les mesures issues de capteurs en tant que conditions initiales des simulations s'est enrichie”, poursuit Denis Girou. Les approches big data (machine learning et analyse statistique poussée des données) ouvrent ainsi une nouvelle voie : “ce qu’on appelle Climate Analytics a permis aux climatologues de découvrir, grâce au travail de statisticiens, de nouvelles informations dans leurs données.” Des outils sur lesquels s’appuie notamment le Groupe d’experts intergouvernemental sur l’évolution du climat (GIEC) dans ses prédictions sur le réchauffement climatique.

Des machines apprenantes... qui apprennent aussi à faire des erreurs

Une approche complémentaire, donc : pas de quoi craindre que les chercheurs soient complètement remplacés par des algorithmes. “La révolution, c’est que le système construit un modèle sans règles prédéfinies. Mais mathématiquement, on comprend encore mal comment cela fonctionne… et pourquoi parfois cela ne marche pas”, reconnaît le Professeur en mathématiques. Si puissants soient-ils, ces algorithmes sont capables d’erreurs, et on arrive mal à prévoir dans quelles conditions. En ajoutant par exemple du bruit à une image de chien, les réseaux neuronaux de Google ne l’identifient plus comme un canin mais… comme une autruche (voir image ci-dessous).

Selon Deepmind (projet deep learning de Google), les images dans la colonnes de droite sont toutes des autruches. (Source)

Alors comment faire pour que ces modèles tout droit sortis de l’imagination des ordinateurs soient les plus performants possible ? Ces algorithmes doivent tout d’abord être alimentés par des quantités de données gargantuesques. “C’est pour cela que DeepMind, le projet de Google, possède aujourd’hui une telle longueur d’avance”, commente le mathématicien. La firme américaine est en effet assise sur une manne considérable de données personnelles, qu’elle peut utiliser à loisir dans ses projets de recherche.

Mais la taille du jeu de données ne fait pas tout : “pour les applications médicales, il ne suffit pas d’avoir à disposition un grand nombre de mesures par patients : encore faut-il qu’elles portent sur beaucoup de personnes différentes.” Sinon, la règle construite par l’algorithme fonctionnera peut-être très bien pour une personne donnée... mais sera difficilement généralisable à toute la population. “La médecine serait le champ de recherche le plus propre à bénéficier des big data... mais c’est celui qui est le plus entravé par les problématiques de confidentialité des données.” Un paradoxe, lorsque le grand public laisse chaque jour un peu de ses données personnelles à Facebook et à Google, le plus souvent sans même s’en apercevoir.

Commenter

Deep learning Big data Recherche