Bon anniversaire, Wikidata !

Wikidata a quatre ans aujourd’hui, et il me semble que c’est le bon moment pour faire un petit retour sur mon expérience avec ce projet[1]Et puis, Auregann m’a demandé de le faire ;)..

Wikidata est un projet qui m’intéresse vivement depuis bien longtemps avant sa création effective. Si j’avais lu le nom ici et là sur le bistro de Wikipédia depuis que j’ai commencé à contribuer en 2005, la première fois qu’il a retenu mon attention, pour autant que je m’en souvienne, est cette discussion  en novembre 2006[2]Au passage, en cherchant à la retrouver, je suis tombé sur la plus ancienne mention de Wikidata que j’aie vu sur la Wikipédia en français, qui remonte quand même à août 2004! : un dépôt commun pour les données, fonctionnant de la même façon que Commons, c’était exactement ce qui manquait à Wikipédia !

Et je n’étais apparemment pas le seul à avoir cet avis : c’était à l’époque l’opinion générale sur le bistro. Un autre avantage qui y était mentionné à l’époque, c’était que cela pourrait remplacer avantageusement le système de catégories foireux de l’époque (enfin… l’actuel quoi.) Une fonctionnalité que je suis toujours impatient de voir arriver.

Avec le temps, je suis devenu de plus en plus impliqué dans la communauté, et pour finir j’ai sauté dans le wiki-train pour Gdańsk en 2010 pour participer à ma première Wikimania.

1280px-wiki-train_poznan_dinner
*Record scratch* Yup, that’s me. You’re probably wondering how I ended up in this situation.

Là, l’une des présentations dont je me souviens le plus[3]Enfin à part celles avec de l’alcool. était celle d’un système centralisé pour la gestion des liens interwiki. Cette présentation ne faisait à l’époque aucune mention d’autre (méta-)données que les interwikis et éventuellement des libellés lisibles dans plusieurs langues, et ne parlait pas du tout de Wikidata. Pourtant, ces deux choses sont ce qui est devenu la « phase l » du développement de Wikidata le 29 octobre 2012. Quand j’ai commencé à y contribuer, le 17 décembre de la même année, le projet était encore naissant et ne permettait toujours de faire que ces deux choses : gérer les interwikis de Wikipédia, et mettre des libellés. C’est donc ce que j’ai fait : J’ai créé un nouvel élément, lui ai donné une paire de libellés et ait déplacé les liens externes depuis Wikipédia.

capture-du-2016-10-28-01-26-15
Ta-da !

Je me suis arrêté là à l’époque. Il n’y avait alors aucun moyen d’ajouter des déclarations plus utiles, et n’ayant pas la passion de la gestion des interwikis, j’ai laissé cette tâche aux robots et à leurs dresseurs. Pendant longtemps après ça, j’ai simplement fait des modifications par-ci par-là, mais sans m’atteler à un gros projet. J’avais cependant envie de passer au cran supérieur, et je me suis donc demandé à quoi m’atteler… En 2006 ou 2007, j’avais refait entièrement la liste des empereurs du Japon sur Wikipédia, et je me suis dit que ça pourrait être une bonne idée d’avoir les mêmes données de base (c’est-à-dire noms, dates de naissance/règne/mort, lieux de naissance et de mort, etc.) sur Wikidata également.

À l’époque, j’utilisais très peu d’outils ou de gadgets, et ça a donc été assez long et fastidieux (et sans l’outil missingprops.js de Magnus[4]Personnalisé pour mes besoins, ça l’aurait été encore plus), mais j’ai fini par en voir le bout.

capture-du-2016-10-28-21-33-36

Mon pic d’activité suivant a eu lieu quelques temps plus tard, quand j’ai décidé de créer chaque corps céleste de l’univers de Serenity/Firefly[5]Oui, pour info, je suis un Browncoat.. Le faire uniquement avec l’interface de Wikidata aurait relevé de la folie pure, et j’ai donc utilisé un autre outil de Magnus : QuickStatements. Si vous vous en êtes déjà servi, vous savez qu’une simple textarea où coller un blob de tab separated values n’est pas l’interface la plus pratique du monde… Du coup, j’ai décidé à l’époque de créer un outil moi-même pour résoudre le problème  : un  convertisseur CSV vers QuickStatements convertor qui permet de travailler avec un tableur organisé de façon plus traditionnelle.

Après ça, parmi d’autres choses, j’ai décidé d’importer tous les épisodes d’xkcd, et également aidé Harmonia Amanda dans son travail avec les courses de chiens de traîneaux puis les écoles d’art dramatique. Cela m’a incité à me plonger plus avant dans Python et écrire des scripts pour récupérer et traiter les données.

I know you all are xkcd fans.
Je sais que vous êtes tous fans d’xkcd.

 

Dans l’intervalle, j’ai également suivi la première édition du MOOC d’Inria sur le web sémantique, durant lequel j’ai appris plein de choses, et en particulier le langage SPARQL. Et là, c’est vraiment parti en roue libre : quand le point d’accès SPARQL pour Wikidata a été mis à disposition, j’ai écrit un billet ici à ce sujet. Des gens ont commencé à me poser des questions dessus, ou à me demander d’écrire des requêtes pour eux, et cet article est devenu le premier d’une longue série qui continue encore avec les #SundayQuery.

En résumé, en quatre ans :

  • J’ai commencé à coder des outils et les mettre à disposition de la communauté
  • J’ai écrit des scripts d’extraction et conversion de données en Python
  • J’ai beaucoup appris sur le web sémantique
  • Je suis devenu un ninja du SPARQL.

Et tout ça à cause de Wikidata. Et j’espère bien que ça va continuer sur cette lancée !

Image d’en-tête: Wikidata Birthday Cake par Jason Krüger (CC-BY-SA 4.0)

Enregistrer

Enregistrer

Enregistrer

Enregistrer

Enregistrer

Notes   [ + ]

1. Et puis, Auregann m’a demandé de le faire ;).
2. Au passage, en cherchant à la retrouver, je suis tombé sur la plus ancienne mention de Wikidata que j’aie vu sur la Wikipédia en français, qui remonte quand même à août 2004!
3. Enfin à part celles avec de l’alcool.
4. Personnalisé pour mes besoins
5. Oui, pour info, je suis un Browncoat.

Sunday Query : où meurent les Bretons ?

Cette #SundayQuery part d’une question de @belett sur Twitter : comment afficher des points de différentes couleurs sur une carte générée sur le point d’accès SPARQL de Wikidata ?

Première requête

En l’occurrence, il cherchait à afficher le lieu de mort des personnes nées à Rennes ou à Brest, avec une couleur différente selon leur lieu de naissance. À ma connaissance, on ne peut pas spécifier directement la couleur des points d’une carte avec un paramètre ?rgb comme on peut le faire avec un graphe. En revanche, si la requête comporte un paramètre ?layer, la carte l’utilisera pour gérer des couches avec des points de couleurs différentes et, encore mieux, qu’on peut afficher et masquer à volonté.

Voici donc ma première réponse, en donnant à mes couches le nom de la ville via la fonction BIND, qui permet de définir à la main le contenu d’une variable :

http://tinyurl.com/jyzaa9o

Carte d'Europe, avec des points surtouts concentrés sur l'Ouest de la France
Carte avec deux couches, une pour Rennes et une pour Brest, et montrant le sélecteur.

Avec VALUES

Mais je ne suis pas fan des UNION quand je peux les éviter, ou de mettre le nom des ?layer à la main avec un BIND : tout ça est so SPARQL 1.0 ! Heureusement, SPARQL 1.1 apporte un mot-clef pratique pour définir une liste de valeurs autorisées pour une variable[1]Ou plusieurs d’ailleurs. : VALUES. Voici la requête améliorée pour l’utiliser, et au passage chercher les gens nés à Nantes, tant qu’à y être :

http://tinyurl.com/zgr6lle

Carte d'Europe, avec des points surtouts concentrés sur l'Ouest de la France
Les points de Rennes et Brest sont toujours là, Nantes est venue s’y rajouter

J’en ai profité pour ajouter l’image si elle existe, qu’on voit en cliquant sur un point.

Dans toute la Bretagne

Mais pourquoi s’arrêter à quelques villes ? Autant y aller carrément avec toutes les personnes nées en Bretagne, par lieu de naissance.

http://tinyurl.com/zx7rww7

Il suffit de remplacer la liste de valeurs autorisées par la propriété disant que le lieu est situé en Bretagne[2]Administrative sur cette requête.… Seulement, suivant les éléments, plusieurs propriétés peuvent être utilisées : localisation administrative (P131), localisation géographique (P706), ou tout simplement lieu (P276)… Heureusement, SPARQL permet d’interroger toutes ces propriétés à la fois, en les séparant par des « | ». Les parenthèses sont optionnelles, on aurait aussi bien pu écrire   ?placeOfBirth wdt:P131*|wdt:P706*|wdt:P276* wd:Q12130 .  qui donne les mêmes résultats. Notez au passage qu’il faut alors mettre l’étoile au niveau de chaque propriété. Cette étoile sert à dire qu’il faut si besoin remonter plusieurs niveaux de résultats jusqu’à atterrir sur Q12130.

Carte d'Europe, avec de nombreux points de toutes les couleurs
Tiens, un sapin de Noël.

Oups : comme il y a une couche par lieu de naissance, ça fait beaucoup de calques, ce qui fait que la carte devient illisible… Et que le sélecteur de calques ne peut pas tout afficher à l’écran.

Optimisation

Heureusement, il est possible d’arranger ça facilement: il suffit de demander au passage le département de naissance[3]Il y a les cinq départements cette fois, puisque la requête porte sur la Bretagne historique cette fois. et l’utiliser comme ?layer à la place du lieu. Histoire de rester concis, je profite du fait qu’on peut utiliser la virgule pour plusieurs valeurs partageant le même sujet et la même propriété, de la même façon qu’on peut utiliser le point virgule pour des couples propriété-valeur ayant le même sujet.

http://tinyurl.com/z3cttt3

Résultat final

capture-du-2016-10-09-13-54-30

La carte montre deux résultats intéressants : beaucoup de gens meurent dans leur département de naissance et encore plus meurent à Paris[4]Le gros tas de points autour de la gare Montparnasse..

Ces deux remarques rappellent la question de savoir quelle est la distance moyenne entre le lieu de naissance et celui de décès des gens. Plusieurs études se sont plongées dessus, notamment celle-ci, publiée dans Science en 2014 et qui se base sur Freebase[5]Ainsi que sur deux bases d’artistes célèbres, non nommées dans l’article du Boston Globe., qui a depuis été intégrée dans Wikidata, et a des caractéristiques similaires, notamment le biais de sélection inhérent[6]Il faut être notoire pour une raison ou une autre pour être dans la base..

De fait, l’étude ne visait pas tant à mesurer la distance moyenne globale pour l’ensemble de l’humanité[7]Je n’arrive pas à retrouver les chiffres, mais il me semble me souvenir que la majeure partie de la population mondiale vit et meurt à moins de 30 km de son lieu de naissance… Le livre The Limits to Travel de David Metz ne donne pas de chiffres pour les décès mais note que de nos jours, l’écart moyen entre les lieux de naissance de deux mariés britanniques est d’un peu plus de 50 mi., mais à s’appuyer sur ce biais de sélection pour identifier des « attracteurs de mort », c’est à dire des lieux où il meurt plus de gens notables qu’il n’en naît, et par ricochet identifier des capitales culturelles. C’est le cas de Paris, où Wikidata recense 18 532 naissances contre 22 205 décès.

Ils constataient cependant qu’au cours du temps, la distance moyenne entre le lieu de naissance et celui de décès des personnes étudiées augmentait, passant de 215 km au 14e siècle à 380 km au 21e. Les Bretons présents sur Wikidata, toutes époques confondues, semblent encore plus voyageurs, avec une distance moyenne de 473 km, mais pas mal de variation entre les départements : cela va de 420 km pour les Morbihannais⋅e⋅s à 510 pour les Brétilien⋅ne⋅s.

Image d’en-tête : Les Merveilles de la nuit de Noël / Burzudou Nedellek (détail), par Émile Souvestre, 1844.

Enregistrer

Enregistrer

Enregistrer

Enregistrer

Enregistrer

Enregistrer

Enregistrer

Enregistrer

Notes   [ + ]

1. Ou plusieurs d’ailleurs.
2. Administrative sur cette requête.
3. Il y a les cinq départements cette fois, puisque la requête porte sur la Bretagne historique cette fois.
4. Le gros tas de points autour de la gare Montparnasse.
5. Ainsi que sur deux bases d’artistes célèbres, non nommées dans l’article du Boston Globe.
6. Il faut être notoire pour une raison ou une autre pour être dans la base.
7. Je n’arrive pas à retrouver les chiffres, mais il me semble me souvenir que la majeure partie de la population mondiale vit et meurt à moins de 30 km de son lieu de naissance… Le livre The Limits to Travel de David Metz ne donne pas de chiffres pour les décès mais note que de nos jours, l’écart moyen entre les lieux de naissance de deux mariés britanniques est d’un peu plus de 50 mi.