Des logiciels ont obtenu un score supérieur à des humains lors d’un test de lecture

Et maintenant, l’intelligence artificielle (IA) lit mieux qu’un humain. C’est du moins ce que l’on peut croire selon les communiqués publiés séparément par Microsoft et Alibaba ce lundi. En s’attaquant au test SQuAD ndéveloppé par l’université de Stanford, leurs programmes ont obtenu pour la première fois des scores supérieurs à ceux d’humains.

Le 3 janvier, l’IA de Microsoft est parvenue à un score de 82,65 points sur une série de questions posées au sujet d’articles de Wikipédia, comme le veut le principe de SQuAD, alors qu’un humain n’avait obtenu que 82,3 points sur ces mêmes questions. Le 5 janvier, le programme d’Alibaba a obtenu 82,44 points, toujours sur cette série de questions.

« Une étape décisive », se réjouit Microsoft. Mais elle ne témoigne que d’un progrès continu, qui se heurte toujours aux mêmes obstacles. Fortune rappelle que pour leurs avant-dernières tentatives, en décembre, les deux équipes de recherches avait obtenu des scores de 82,13 et de 79,19. Le « deep learning » leur a permis de progresser en corrigeant les erreurs commises aux essais précédents, et les scores devraient donc continuer à progresser. Pourtant, quand l’ordinateur répond aux questions qui lui sont posées sans se tromper, il ne sait toujours pas de quoi il parle.

Le test SQuAD est une base de données de 536 paragraphes d’articles de Wikipédia auxquels sont associés plus de 100 000 paires de question-réponse, explique The Verge. Les sujets abordés peuvent porter sur l’histoire (Qui a été le premier souverain Yuan/Koubilaï Khan?), ou sur la série télévisée Docteur Who (Première diffusion/1963).

Mais quand la réponse est clairement donnée dans le court paragraphe en question, la machine a assez peu d’éléments à scanner pour identifier la séquence de mots qu’on lui demande d’identifier. Dans le cas de la première question, il suffit par exemple de repérer la phrase où se trouve l’expression « premier souverain Yuan » et d’en extraire ce qui ressemble le plus à un nom propre.

L’IA progresse, mais elle se montre tout de suite limitée dans le cas de questions qui nécessitent une part d’interprétation. Elle est comme « un étudiant qui répond correctement lors des contrôles sans avoir de connaissance de la matière sur lesquels ils portent », explique à Verge un des concepteurs de SQuAD. Un peu comme on est incapable de s’exprimer sur un sujet après avoir copié les bonnes réponses sur un voisin.

Ses capacités à dénicher les bonnes informations dans des corpus importants de textes devraient tout de même aider « docteurs, avocats et autres experts » à passer plus de temps sur les problèmes les plus complexes, relève Microsoft.

Siècle Digital

Merci à C’

Powered by WPeMatico