Représentativité des bases de connaissances avec la loi de Benford généralisée

Arnaud Soulet; Arnaud Giacometti; Béatrice Markhoff; Fabian Suchanek

Résumé

L’un des succès incontestés du Web sémantique est la construction d’énormes bases de connais-sances. Plusieurs travaux récents utilisent ces bases de connaissances pour découvrir de nouvelles connais-sances en calculant des statistiques ou en déduisant des règles à partir des données. Par exemple, selonDBpedia, 99% des villes du Yémen ont une population de plus de 1 000 habitants. Nous pourrions donc enconclure que les villes yéménites ont généralement plus de 1 000 habitants. Mais est-ce vrai dans le monderéel ? Naturellement, la fiabilité de cette affirmation dépend de la qualité de la base de connaissances, à savoirde l’exactitude des faits et de leur complétude. Il est bien connu que les bases de connaissances sont trèsincomplètes. Ce n’est généralement pas un problème en statistique et en apprentissage automatique, où il estrare d’avoir une description complète de l’univers à étudier. La plupart des approches fonctionnent sur unéchantillon de données. Dans de tels cas, il est crucial que cet échantillon soitreprésentatifde tout l’univers(ou du moins que le biais de cet échantillon soit connu). Par exemple, le fait que la base de connaissances necontienne que la moitié des villes du Yémen ne pose pas de problème si leur répartition entre les différentestailles correspond à peu près à la répartition du monde réel.Malheureusement, il n’est pas évident a priori de savoir si une base de connaissances est représentative dumonde réel. Par exemple, plusieurs bases de connaissances volumineuses, telles que DBpedia ou YAGO,extraient leurs données depuis Wikipedia. Wikipedia, à son tour, est un ensemble de données issues d’uneproduction participative (crowdsourcing). Dans le crowdsourcing, les contributeurs ont tendance à indiquerles informations qui les intéressent le plus. En conséquence, Wikipedia présente des biais culturels. Demême, Wikidata est le résultat du crowdsourcing et peut présenter des biais similaires. En particulier, il estprobable que des pays tels que le Yémen soient moins bien couverts que des pays tels que la France, en raisonde la population des contributeurs. Même si les informations contenues dans ces bases de connaissancessont correctes, elles ne sont pas nécessairement représentatives. Si nous savions à quel point une base deconnaissances est représentative, nous pourrions alors savoir s’il est raisonnable ou non de l’exploiter pourcalculer des statistiques. Une telle indication devrait, par exemple, nous empêcher de tirer des conclusionshâtives sur la répartition de la population dans les villes du Yémen. Mais, comment estimer si une base deconnaissances est représentative ou non ?Souletet al.(2018) proposent d’étudier la représentativité des bases de connaissances à l’aide de la loi deBenford généralisée. Cette loi paramétrée indique la distribution de fréquence attendue par le premier chiffresignificatif dans de nombreux jeux de données numériques du monde réel. Nous utilisons cette loi commeréférence pour estimer la quantité de données manquante dans la base de connaissances. Plus précisément,nous présentons une méthode pour calculer une borne inférieure pour le nombre de faits manquants pourqu’une relation soit représentative. Cette méthode fonctionne dans un contexte supervisé (où la relation estconnue pour satisfaire la loi de Benford généralisée) et dans un contexte non supervisé (où le paramètrede la loi doit être déduit des données). Nous prouvons que, sous certaines hypothèses, les bornes inférieurescalculées sont correctes aussi bien pour le contexte supervisé que non supervisé. Nous montrons avec des ex-périences sur de véritables bases de connaissances que notre méthode est efficace à la fois pour les contextessupervisés et non supeervisés. La méthode non supervisée, en particulier, nous a permis d’auditer 63% desfaits de DBpedia.

Représentativité des bases de connaissances avec la loi de Benford généralisée

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager