"Un projet semblable est en cours à l'université Carnegie-Mellon, le programme Never-Ending Langage-Learning (NELL), dirigé par Tom M. Mitchell et son groupe d'étudiants de troisième cycle en informatique. Dans leur rapport technique, ils définissent un exercice de lecture, visant à « extraire des informations d'un texte du Web pour remplir une base de connaissances d'un nombre toujours croissant de faits et de connaissances structurés » et un exercice d'apprentissage, visant à « apprendre à lire chaque jour un peu mieux que la veille, comme en témoigne [la capacité du programme] à retourner aux textes sources de la veille et à en tirer plus d'informations et avec plus de précision. ». Le programme informatique consiste en quatre modules, au nombre desquels figurent un système d'apprentissage des règles [« Rule Learner »] et un algorithme d'apprentissage semi-supervisé [« Coupled Pattern Learner »] qui extrait des instances de catégories et de relations à partir de textes « dans la nature » (autrement dit, dans l'immense ensemble de textes présents sur le Web, sans contraintes ni limites). À partir de ces modules, le programme construit des « faits candidats » ; en se basant sur un degré de confiance élevé dans un module ou des degrés de confiance inférieurs dans plusieurs modules, il élève alors certains candidats au statut de « croyances ». Le programme fonctionne 24 heures sur 24 et 7 jours sur 7, et il est en outre itératif, fouillant constamment le Web à la recherche de textes et construisant des relations du type « X appartient à Y qui est un Z ». Les chercheurs avaient initialement classé la base de connaissances selon 123 catégories et 55 relations ; au bout de 67 jours, elle comportait 242 453 nouveaux faits avec une précision estimée à 74 %. Cette procédure présente un risque, parce que le programme teste la cohérence de nouveaux faits candidats à partir de faits qui figurent déjà dans la base de données. Si un fait incorrect parvient à y entrer, il tend à favoriser l'acceptation d'autres faits incorrects. Pour corriger cette tendance, les lecteurs humains vérifient le « système d'apprentissage des règles » et d'autres modules du programme, dix à quinze minutes tous les jours, pour corriger les erreurs que le programme ne corrige pas de lui-même. NELL n'est donc pas un système non supervisé mais un programme « semi-supervisé ». Une consultation récente du site Web a révélé ces différents « faits appris récemment » : « un organiste au ventre orange est un oiseau » et « le vastes médiales est un muscle ». Les erreurs du programme sont aussi révélatrices que les inférences correctes. La même consultation a fait apparaître quelques perles : « les infractions contre les biens est une sorte d'événement militaire », « les angleterres est un groupe ethnique » et ma préférée, « l'anglais est la langue du pays Japon ». Si l'on pense aux informations disponibles sur le Web à propos de l'anglais et du Japon, par exemple, la dernière inférence devient compréhensible, à défaut d'être exacte."
Aucun commentaire:
Enregistrer un commentaire