Tous les articles par Poulpy

Prototypage rapide d’entités Wikidata

W

ikidata est un projet puissant, mais pour pouvoir en profiter, il faut le remplir. Bien sûr, il est possible d’ajouter des données à la main directement sur le site : ça fonctionne sans souci mais que faire quand on a plusieurs dizaines d’entrées ? Plusieurs centaines ? Avec le temps, quelques outils ont vu le jour permettant d’automatiser un peu ce processus, comme l’indispensable QuickStatements ; là encore, il faut bien lui fournir les données qu’il mange et tout ceci est parfois bien fastidieux. Est-ce qu’on ne peut pas aller plus loin ?

Une entrée wikidatienne sur un être humain, par exemple, possède des champs plus ou moins codifiés :

  • Une nature de l’élément égal à Q5, « être humain »
  • Un genre (masculin, féminin, etc.)
  • Une date et un lieu de naissance
  • Une date et un lieu de décès
  • Un pays de nationalité
  • Une occupation
  • Un prénom et un nom de famille

Toutes ces propriétés ne se rencontrent pas à chaque fois et on peut en rajouter d’autres, mais est-ce que ça ne serait pas intéressant d’avoir une sorte de formulaire où on se contenterait de remplir les cases correspondantes, histoire de créer rapidement un squelette d’entité Wikidata ? Pour voir, j’ai codé l’utilitaire « human » : vous mettez ce qu’il faut dans les champs, vous appuyez sur le bouton et il produit le code à destination de QuickStatements. J’ai le sentiment qu’on peut ainsi gagner du temps et on n’oublie rien.

Histoire d’aller un peu plus loin, je me suis penché sur la base Joconde, qui a le goût d’être remplie avec pas mal de soin. J’en ai sorti un autre utilitaire, baptisé Joconde parce que je suis un gars avec une imagination débordante. Sa fonction : parser une fiche Joconde, en retirer les champs qui vont bien (titre, auteur, sujets représentés, etc.) et présenter le résultat dans un formulaire pour correction avant envoi à QuickStatements. Les champs corrigés sont stockés en base, histoire que si l’utilitaire puisse ressortir la correction s’il retombe dessus (comme ça, « MONET Claude » est automatiquement corrigé en « Claude Monet, peintre français, Q296 »). On y gagne du temps.

Personnellement, je pense que cette idée de formulaires pré-remplis est à creuser, pour Wikidata. Qu’en pensez-vous ?

PS : j’imagine que mon outil pour Joconde doit enfreindre des milliers de lois, de licences et de copyrights. Je laisse le soin aux Wikimédiens que ça intéresse de discuter de la chose et de décider s’il faut supprimer toutes mes contributions. Prévenez-moi juste du résultat final.

(Image d’en-tête : détail de La Joconde, par Léonard de Vinci (domaine public))

Mise à jour du 28 septembre 2016 : j’ai placé le code des outils en question sur GitHub : https://github.com/PoulpyFR. Bien sûr, c’est codé n’importe comment et pas commenté. 🙂