Archives de catégorie : Projets Wikimédia

Billets parlant d’un ou plusieurs des projets Wikimédia.

Bon anniversaire, Wikidata !

Wikidata a quatre ans aujourd’hui, et il me semble que c’est le bon moment pour faire un petit retour sur mon expérience avec ce projet[1]Et puis, Auregann m’a demandé de le faire ;)..

Wikidata est un projet qui m’intéresse vivement depuis bien longtemps avant sa création effective. Si j’avais lu le nom ici et là sur le bistro de Wikipédia depuis que j’ai commencé à contribuer en 2005, la première fois qu’il a retenu mon attention, pour autant que je m’en souvienne, est cette discussion  en novembre 2006[2]Au passage, en cherchant à la retrouver, je suis tombé sur la plus ancienne mention de Wikidata que j’aie vu sur la Wikipédia en français, qui remonte quand même à août 2004! : un dépôt commun pour les données, fonctionnant de la même façon que Commons, c’était exactement ce qui manquait à Wikipédia !

Et je n’étais apparemment pas le seul à avoir cet avis : c’était à l’époque l’opinion générale sur le bistro. Un autre avantage qui y était mentionné à l’époque, c’était que cela pourrait remplacer avantageusement le système de catégories foireux de l’époque (enfin… l’actuel quoi.) Une fonctionnalité que je suis toujours impatient de voir arriver.

Avec le temps, je suis devenu de plus en plus impliqué dans la communauté, et pour finir j’ai sauté dans le wiki-train pour Gdańsk en 2010 pour participer à ma première Wikimania.

1280px-wiki-train_poznan_dinner
*Record scratch* Yup, that’s me. You’re probably wondering how I ended up in this situation.

Là, l’une des présentations dont je me souviens le plus[3]Enfin à part celles avec de l’alcool. était celle d’un système centralisé pour la gestion des liens interwiki. Cette présentation ne faisait à l’époque aucune mention d’autre (méta-)données que les interwikis et éventuellement des libellés lisibles dans plusieurs langues, et ne parlait pas du tout de Wikidata. Pourtant, ces deux choses sont ce qui est devenu la « phase l » du développement de Wikidata le 29 octobre 2012. Quand j’ai commencé à y contribuer, le 17 décembre de la même année, le projet était encore naissant et ne permettait toujours de faire que ces deux choses : gérer les interwikis de Wikipédia, et mettre des libellés. C’est donc ce que j’ai fait : J’ai créé un nouvel élément, lui ai donné une paire de libellés et ait déplacé les liens externes depuis Wikipédia.

capture-du-2016-10-28-01-26-15
Ta-da !

Je me suis arrêté là à l’époque. Il n’y avait alors aucun moyen d’ajouter des déclarations plus utiles, et n’ayant pas la passion de la gestion des interwikis, j’ai laissé cette tâche aux robots et à leurs dresseurs. Pendant longtemps après ça, j’ai simplement fait des modifications par-ci par-là, mais sans m’atteler à un gros projet. J’avais cependant envie de passer au cran supérieur, et je me suis donc demandé à quoi m’atteler… En 2006 ou 2007, j’avais refait entièrement la liste des empereurs du Japon sur Wikipédia, et je me suis dit que ça pourrait être une bonne idée d’avoir les mêmes données de base (c’est-à-dire noms, dates de naissance/règne/mort, lieux de naissance et de mort, etc.) sur Wikidata également.

À l’époque, j’utilisais très peu d’outils ou de gadgets, et ça a donc été assez long et fastidieux (et sans l’outil missingprops.js de Magnus[4]Personnalisé pour mes besoins, ça l’aurait été encore plus), mais j’ai fini par en voir le bout.

capture-du-2016-10-28-21-33-36

Mon pic d’activité suivant a eu lieu quelques temps plus tard, quand j’ai décidé de créer chaque corps céleste de l’univers de Serenity/Firefly[5]Oui, pour info, je suis un Browncoat.. Le faire uniquement avec l’interface de Wikidata aurait relevé de la folie pure, et j’ai donc utilisé un autre outil de Magnus : QuickStatements. Si vous vous en êtes déjà servi, vous savez qu’une simple textarea où coller un blob de tab separated values n’est pas l’interface la plus pratique du monde… Du coup, j’ai décidé à l’époque de créer un outil moi-même pour résoudre le problème  : un  convertisseur CSV vers QuickStatements convertor qui permet de travailler avec un tableur organisé de façon plus traditionnelle.

Après ça, parmi d’autres choses, j’ai décidé d’importer tous les épisodes d’xkcd, et également aidé Harmonia Amanda dans son travail avec les courses de chiens de traîneaux puis les écoles d’art dramatique. Cela m’a incité à me plonger plus avant dans Python et écrire des scripts pour récupérer et traiter les données.

I know you all are xkcd fans.
Je sais que vous êtes tous fans d’xkcd.

 

Dans l’intervalle, j’ai également suivi la première édition du MOOC d’Inria sur le web sémantique, durant lequel j’ai appris plein de choses, et en particulier le langage SPARQL. Et là, c’est vraiment parti en roue libre : quand le point d’accès SPARQL pour Wikidata a été mis à disposition, j’ai écrit un billet ici à ce sujet. Des gens ont commencé à me poser des questions dessus, ou à me demander d’écrire des requêtes pour eux, et cet article est devenu le premier d’une longue série qui continue encore avec les #SundayQuery.

En résumé, en quatre ans :

  • J’ai commencé à coder des outils et les mettre à disposition de la communauté
  • J’ai écrit des scripts d’extraction et conversion de données en Python
  • J’ai beaucoup appris sur le web sémantique
  • Je suis devenu un ninja du SPARQL.

Et tout ça à cause de Wikidata. Et j’espère bien que ça va continuer sur cette lancée !

Image d’en-tête: Wikidata Birthday Cake par Jason Krüger (CC-BY-SA 4.0)

Enregistrer

Enregistrer

Enregistrer

Enregistrer

Enregistrer

Notes   [ + ]

1. Et puis, Auregann m’a demandé de le faire ;).
2. Au passage, en cherchant à la retrouver, je suis tombé sur la plus ancienne mention de Wikidata que j’aie vu sur la Wikipédia en français, qui remonte quand même à août 2004!
3. Enfin à part celles avec de l’alcool.
4. Personnalisé pour mes besoins
5. Oui, pour info, je suis un Browncoat.

Sunday Query : où meurent les Bretons ?

Cette #SundayQuery part d’une question de @belett sur Twitter : comment afficher des points de différentes couleurs sur une carte générée sur le point d’accès SPARQL de Wikidata ?

Première requête

En l’occurrence, il cherchait à afficher le lieu de mort des personnes nées à Rennes ou à Brest, avec une couleur différente selon leur lieu de naissance. À ma connaissance, on ne peut pas spécifier directement la couleur des points d’une carte avec un paramètre ?rgb comme on peut le faire avec un graphe. En revanche, si la requête comporte un paramètre ?layer, la carte l’utilisera pour gérer des couches avec des points de couleurs différentes et, encore mieux, qu’on peut afficher et masquer à volonté.

Voici donc ma première réponse, en donnant à mes couches le nom de la ville via la fonction BIND, qui permet de définir à la main le contenu d’une variable :

http://tinyurl.com/jyzaa9o

Carte d'Europe, avec des points surtouts concentrés sur l'Ouest de la France
Carte avec deux couches, une pour Rennes et une pour Brest, et montrant le sélecteur.

Avec VALUES

Mais je ne suis pas fan des UNION quand je peux les éviter, ou de mettre le nom des ?layer à la main avec un BIND : tout ça est so SPARQL 1.0 ! Heureusement, SPARQL 1.1 apporte un mot-clef pratique pour définir une liste de valeurs autorisées pour une variable[1]Ou plusieurs d’ailleurs. : VALUES. Voici la requête améliorée pour l’utiliser, et au passage chercher les gens nés à Nantes, tant qu’à y être :

http://tinyurl.com/zgr6lle

Carte d'Europe, avec des points surtouts concentrés sur l'Ouest de la France
Les points de Rennes et Brest sont toujours là, Nantes est venue s’y rajouter

J’en ai profité pour ajouter l’image si elle existe, qu’on voit en cliquant sur un point.

Dans toute la Bretagne

Mais pourquoi s’arrêter à quelques villes ? Autant y aller carrément avec toutes les personnes nées en Bretagne, par lieu de naissance.

http://tinyurl.com/zx7rww7

Il suffit de remplacer la liste de valeurs autorisées par la propriété disant que le lieu est situé en Bretagne[2]Administrative sur cette requête.… Seulement, suivant les éléments, plusieurs propriétés peuvent être utilisées : localisation administrative (P131), localisation géographique (P706), ou tout simplement lieu (P276)… Heureusement, SPARQL permet d’interroger toutes ces propriétés à la fois, en les séparant par des « | ». Les parenthèses sont optionnelles, on aurait aussi bien pu écrire   ?placeOfBirth wdt:P131*|wdt:P706*|wdt:P276* wd:Q12130 .  qui donne les mêmes résultats. Notez au passage qu’il faut alors mettre l’étoile au niveau de chaque propriété. Cette étoile sert à dire qu’il faut si besoin remonter plusieurs niveaux de résultats jusqu’à atterrir sur Q12130.

Carte d'Europe, avec de nombreux points de toutes les couleurs
Tiens, un sapin de Noël.

Oups : comme il y a une couche par lieu de naissance, ça fait beaucoup de calques, ce qui fait que la carte devient illisible… Et que le sélecteur de calques ne peut pas tout afficher à l’écran.

Optimisation

Heureusement, il est possible d’arranger ça facilement: il suffit de demander au passage le département de naissance[3]Il y a les cinq départements cette fois, puisque la requête porte sur la Bretagne historique cette fois. et l’utiliser comme ?layer à la place du lieu. Histoire de rester concis, je profite du fait qu’on peut utiliser la virgule pour plusieurs valeurs partageant le même sujet et la même propriété, de la même façon qu’on peut utiliser le point virgule pour des couples propriété-valeur ayant le même sujet.

http://tinyurl.com/z3cttt3

Résultat final

capture-du-2016-10-09-13-54-30

La carte montre deux résultats intéressants : beaucoup de gens meurent dans leur département de naissance et encore plus meurent à Paris[4]Le gros tas de points autour de la gare Montparnasse..

Ces deux remarques rappellent la question de savoir quelle est la distance moyenne entre le lieu de naissance et celui de décès des gens. Plusieurs études se sont plongées dessus, notamment celle-ci, publiée dans Science en 2014 et qui se base sur Freebase[5]Ainsi que sur deux bases d’artistes célèbres, non nommées dans l’article du Boston Globe., qui a depuis été intégrée dans Wikidata, et a des caractéristiques similaires, notamment le biais de sélection inhérent[6]Il faut être notoire pour une raison ou une autre pour être dans la base..

De fait, l’étude ne visait pas tant à mesurer la distance moyenne globale pour l’ensemble de l’humanité[7]Je n’arrive pas à retrouver les chiffres, mais il me semble me souvenir que la majeure partie de la population mondiale vit et meurt à moins de 30 km de son lieu de naissance… Le livre The Limits to Travel de David Metz ne donne pas de chiffres pour les décès mais note que de nos jours, l’écart moyen entre les lieux de naissance de deux mariés britanniques est d’un peu plus de 50 mi., mais à s’appuyer sur ce biais de sélection pour identifier des « attracteurs de mort », c’est à dire des lieux où il meurt plus de gens notables qu’il n’en naît, et par ricochet identifier des capitales culturelles. C’est le cas de Paris, où Wikidata recense 18 532 naissances contre 22 205 décès.

Ils constataient cependant qu’au cours du temps, la distance moyenne entre le lieu de naissance et celui de décès des personnes étudiées augmentait, passant de 215 km au 14e siècle à 380 km au 21e. Les Bretons présents sur Wikidata, toutes époques confondues, semblent encore plus voyageurs, avec une distance moyenne de 473 km, mais pas mal de variation entre les départements : cela va de 420 km pour les Morbihannais⋅e⋅s à 510 pour les Brétilien⋅ne⋅s.

Image d’en-tête : Les Merveilles de la nuit de Noël / Burzudou Nedellek (détail), par Émile Souvestre, 1844.

Enregistrer

Enregistrer

Enregistrer

Enregistrer

Enregistrer

Enregistrer

Enregistrer

Enregistrer

Notes   [ + ]

1. Ou plusieurs d’ailleurs.
2. Administrative sur cette requête.
3. Il y a les cinq départements cette fois, puisque la requête porte sur la Bretagne historique cette fois.
4. Le gros tas de points autour de la gare Montparnasse.
5. Ainsi que sur deux bases d’artistes célèbres, non nommées dans l’article du Boston Globe.
6. Il faut être notoire pour une raison ou une autre pour être dans la base.
7. Je n’arrive pas à retrouver les chiffres, mais il me semble me souvenir que la majeure partie de la population mondiale vit et meurt à moins de 30 km de son lieu de naissance… Le livre The Limits to Travel de David Metz ne donne pas de chiffres pour les décès mais note que de nos jours, l’écart moyen entre les lieux de naissance de deux mariés britanniques est d’un peu plus de 50 mi.

Wikidata, SPARQL et dynasties électives

La dernière fois, j’avais dit que je continuerais avec les chiens de traîneau mais entre-temps, Fralambert a posé la question suivante sur le bistro de Wikidata :

Bonjour, avec l’élection de Justin Trudeau (Q3099714) comme premier ministre du Canada, et suite à une petite discussion sur IRC. Je me demandais comment on pourrait avoir:

  • Tous les fils ou filles de ministres devenu ministre
  • Et tant qu’à y être, quel est le pays le plus népotique (qui regroupe le plus de ces cas)

On ma suggérer que l’on pourrait le faire à partir de SPARQL, mais je n’ai aucune idée de la façon de programmer ça. Le plus près que je me suis rendu sur Query est Query: CLAIM[39:(Tree[83307][][279])] and claim[40]. Bon mon petit défi est lancé, bonne chance. 😉 —Fralambert (discussion) 01:31, 22 October 2015 (UTC)

La seconde question me permet aussi de faire ce que j’avais prévu pour cet article, la réutilisation des données extraites pour faire une carte, donc, au revoir les chiens…

INC_2009_Justin_Trudeau2
À la place des huskies, vous avez donc droit à un premier ministre avec une tête de prince Disney. C’est bien aussi, non ?

Première question

Sans plus attendre, la requête répondant à la première question :

https://tinyurl.com/py3jzsb

Capture du 2015-10-23 20:29:59

J’ai commenté la requête directement pour éviter d’avoir à tout recopier. On voit que je fais deux requêtes sur les parents ayant occupé une fonction étant une sous-classe de ministre : une pour les pères, une pour les mères. Il me semble qu’on devrait pouvoir utiliser schema:parent pour s’éviter la jointure, mais soit ce n’est pas encore implémenté, soit je m’y prends mal, parce que ça ne renvoie aucun résultat.

Je remarque aussi au passage que l’auto-complétion a été activée : il suffit de taper le début du label (ou d’un alias) en anglais d’un élément ou d’une propriété et faire <Ctrl>+<Espace> pour le remplacer par son identifiant Wikidata :

Capture du 2015-10-23 19:47:05

Voilà qui devrait faciliter l’utilisation au quotidien.

Et par pays ?

La deuxième requête nécessite juste de regrouper par pays et de compter le nombre de résultats plutôt qu’en afficher la liste.

https://tinyurl.com/pcmht2u

Mais on peut faire mieux : cette requête se prête parfaitement à un affichage sous forme de carte. Direction un autre outil de requêtes SPARQL, http://demo.seco.tkk.fi/visu/#/.

Comme il n’est pas spécifique à Wikidata, il faut cette fois indiquer, en plus de la requête, l’URL complète du endpoint SPARQL de Wikidata : https://query.wikidata.org/bigdata/namespace/wdq/sparql/

C’est également une bonne idée d’adapter un peu la requête pour utiliser les codes standards des pays plutôt que leur nom, en l’occurrence le code FIPS 10-4 (pays et régions) (P901).

https://tinyurl.com/nepotsmap

Capture du 2015-10-23 21:09:56

Limites

Cependant, cette requête montre clairement les limites de Wikidata dans son état actuel : on manque encore cruellement de données et surtout de liens entre elles. En effet, à en croire le résultat, il n’y aurait de toute éternité dans le monde entier que cent ministres dont le père ou la mère* a été ministre également, et près de la moitié en Grèce. Outre le biais évident de la demande d’origine de ne considérer que le népotisme que pour les ministres et non l’ensemble des personnalités politiques (présidents, parlementaires, et même pourquoi pas diplomates, officiers, évêques…), le problème est que pour qu’une entrée ressorte, il faut que pour le parent comme pour l’enfant :

  1. l’élément existe (ben oui…)
  2. les relations généalogiques soient correctement renseignées
  3. la fonction soit renseignée (et correctement, il est encore fréquent de trouver la fonction remplie avec « ministère de XXX » au lieu de « Ministre »)
  4. et enfin qu’il y ait une chaîne ininterrompue de sous-classes entre l’élément indiqué comme fonction et l’élément « Ministre » (Q83307)

Visiblement, ce travail a été fait correctement pour la Grèce (environ 900 ministres depuis l’indépendance du pays ne me semble pas déconnant), mais reste à faire pour les autres pays.

* À ce sujet, la seule femme ministre qui a eu un enfant ministre également (d’après ces résultats du moins) est Indira Gandhi.

Image d’en-tête : L’Adoration des mages, par Botticelli, montre Cosme de Médicis, fondateur de la dynastie politique du même nom, accompagné de plusieurs de ses enfants et petits enfants.

Enregistrer

Wikidata, SPARQL et chiens de traîneaux

Bon, puisque le dernier billet semble avoir plu, je vais continuer de poster ici mes bidouillages avec SPARQL. L’hiver arrive à grands pas et la saison des courses de chiens de traîneaux aussi par la même occasion, donc c’est parti pour des requêtes un peu plus touchy avec des photos de chiots, parce qu’il n’y a pas de raison de ne pas en profiter.

UNION

Pour commencer, j’aimerais bien avoir toutes les courses de chiens de traîneaux pour lesquelles des participants sont enregistrés. Problème : il y a des courses pour lesquelles la nature de l’élément (P31) est course de chiens de traîneaux (Q1968664), d’autres pour lesquelles la nature est un élément concernant une course qui est elle-même une sous-classe (P279) de course de chiens de traîneaux, et enfin d’autres pour lesquelles la nature est un élément concernant une course qui n’est pas marquée comme sous-classe de course de chiens de traîneaux… Mais pour lequel « course de chiens de traîneaux » est indiqué comme sport (P641). Bref, c’est le bordel. On va donc faire les deux requêtes en même temps et en joindre les résultats avec la commande UNION, comme ci-dessous.

https://tinyurl.com/q74e9ve

Comme dit ci-dessus, quand la même chose peut être décrite sous deux formes, on peut faire une union pour joindre les résultats des deux requêtes :

La ligne suivante :

sert à restreindre aux courses ayant un ou des valeurs pour la propriété  « participant » (P710)

Pour finir, je trie par ordre alphabétique des noms en français des courses :

Capture du 2015-10-19 22:54:09

Husky puppy, CC-BY Tony Pham

Qualificatifs

J’aimerais maintenant chercher, dans les participants à des courses de chiens de traîneau, ceux qui n’ont pas de rang à l’arrivée d’indiqué, ni d’événement-clef expliquant pourquoi ils ne sont pas arrivés (par exemple, abandon ou disqualification). Ces informations sont mises en qualificatifs de la déclaration :

Capture du 2015-10-19 23:37:46

Ici, dans les participants de l’Iditarod 2015, on voit que Brent Sass a été disqualifié (il y a même un article de Wikinews expliquant pourquoi), et que Jason Mackey est arrivé 42e.

On ne peut pas chercher ça avec wdt:, qui renvoie une valeur. Il nous faut utiliser une autre des ontologies proposées par défaut, p:, qui renvoie une déclaration en entier, avec tous ses qualificatifs. La requête est donc la suivante :

La première ligne du WHERE n’a pas changé par rapport à la requête précédente.

Dans la deuxième, en revanche, on voit que wdt: a été remplacé par p:.

J’ai aussi renommé ?musher par ?musherS pour me rappeler que c’est une déclaration (statement) et non une valeur directement. Pour pouvoir afficher le nom des mushers, je vais devoir chercher ladite valeur en utilisant le préfixe v: et la même propriété, avec la déclaration comme sujet :

Enfin, deux filtres sur les qualificatifs (on utilise donc q: et non p: cette fois) me permettent de remonter les lignes qui n’ont pas (FILTER NOT EXISTS) de rang (P1352) ni d’événement-clef (P793).

Capture du 2015-10-19 23:26:42

Samoyède, CC-BY-SA Sp..andreea

Je crois que je vais continuer à m’amuser un peu avec les courses de chiens la prochaine fois, et voir dans quoi on peut réinjecter les résultats des requêtes, pour générer des graphiques ou des cartes…

Photo d’en-tête : Brent Sass et Allen Moore campent l’un à côté de l’autre à un checkpoint durant la Yukon Quest 2015. Photo CC-BY Public Affairs Office Fort Wainwright

Enregistrer

Enregistrer

Mais combien y a-t-il de femmes scientifiques sur Wikipédia ? (this time with SPARQL)

Dans mon dernier billet, j’explorais les possibilités d’exploiter les données de Wikidata avec Autolist. Il est maintenant possible d’interroger Wikidata en utilisant le langage standard du web sémantique, SPARQL. Je ne vais pas faire un cours de SPARQL sur ce blog, mais je vais détailler une requête étape par étapes.

Comme c’est à nouveau le jour de l’éditathon Femmes de sciences, je vais reprendre la même requête que la dernière fois : combien y-a-t-il de femmes scientifiques sur les projets Wikimedia, et quel taux par rapport aux hommes ?

Pour commencer, ça se passe par là : https://query.wikidata.org/

Et comme première requête, on va demander de lister 10 êtres humains, sans préoccupation de genre ou de profession. Cela se formule comme ça :

https://tinyurl.com/qhhzdsz

Les deux préfixes au début permettent d’éviter d’avoir à taper en entier les URL des ontologies qu’on utilise. On en ajoutera au fur et à mesure qu’on en aura besoin. Vous pouvez cliquer sur le bouton « Add prefixes » pour en ajouter un paquet d’un coup mais pour les besoins de ce tutorial, je ne vais inclure dans chaque requête que ceux qu’on utilise vraiment.

passons à la requête elle-même :

Ceux pour qui le langage SQL est familier ne seront pas trop dépaysés : « select » est la commande pour demander au serveur de retourner un liste de résultats, « distinct » demande au serveur d’éliminer les doublons éventuels dans les résultats. « ?personne » est une variable qu’on va préciser plus bas, mais remarquez juste pour l’instant que les variables commencent par des points d’interrogation en SPARQL.

On continue avec la clause « where » où on va détailler au serveur ce qu’est cette fameuse variable ?personne qu’on lui demande.

Pour rappel, on cherche en fait des éléments Wikidata. Sur Wikidata, un élément est composé de déclarations dont la structure est la suivante :
2014-06_Introduction_à_Wikidata.pdf

Ici, la structure

peut se lire, dans le jargon du web sémantique :

ou dans celui de Wikidata :

Comme ce sont des éléments qu’on cherche,  on remplace cette partie par notre variable. La propriété qu’on cherche est P31 (nature de l’élément) et la valeur Q5 (être humain), et pour éviter de mettre les URL en entier on va utiliser les préfixes définis plus haut. On a donc wd: pour un élément wikidata et wdt: pour une propriété.

Enfin, le « LIMIT 10 » permet d’éviter de sortir une liste interminable de résultats qui prendrait un temps fou et dont l’affichage mettrait probablement à mal le navigateur.

Lançons maintenant la requête.

Résultats requete SPARQL 1

On a bien 10 résultats, mais ce qui serait bien, c’est d’afficher le label à côté, parce que de tête, je ne sais pas qui sont wd:Q260 ou wd:Q272.

https://tinyurl.com/pfnomxs

On ajoute donc un petit bout de code faisant appel au service « label » de Wikibase. C’est quelque chose de spécifique à Wikidata, qui ne correspond pas au standard (qui serait d’appeler la propriété rdfs:label) et est dû au fait que Wikidata a une gestion très poussée des langues. Elle permet cependant de faire un truc sympa : on peut lui préciser un langage de repli s’il n’y a pas de label dans la première langue demandée. Ainsi ici, si un élément remonté n’a pas de label en français, on va se replier sur celui en anglais. Pour ceux n’ayant pas de label dans ces deux langues, c’est l’identifiant Wikidata qui sera affiché.

J’ai ajouté également les préfixes pour les deux nouvelles ontologies utilisées. Enfin, on rajoute la deuxième colonne demandée au select. La syntaxe « ?<variable>Label » est particulière à ce service.

Continuons maintenant à préciser la requête : on se rappelle qu’on veut spécifiquement les femmes scientifiques.

Commençons par le genre.

On veut les personnes qui ont la valeur « femme (Q6581072) » à la propriété « sexe ou genre (P21) », et on a juste à ajouter la ligne

dans notre clause where. Pour la profession, c’est un peu plus compliqué : la plupart des scientifiques ne sont en effet pas recensés en tant que scientifiques directement mais avec des professions plus précises, comme Marie Curie qui est physicienne et chimiste. On veut donc non seulement les gens dont la profession (P106)  est scientifique (Q901) , mais aussi ceux dont la profession est une sous-classe (P279) de scientifique.

Cela se formule comme cela :

L’étoile sert à indiquer qu’on veut prendre plusieurs niveaux de sous-classe s’il y en a.

La requête finale est donc :

https://tinyurl.com/p9rtblf

Capture du 2015-10-18 22:04:45

Note : on peut abréger cette requête en remplaçant les trois lignes du where par une seule :

 

C’est bien, mais ce qu’on voulait à la base, c’est le *nombre* de femmes scientifiques, pas dix d’entre elles au hasard. Il suffit de changer la ligne 5 de la façon suivante :

on demande donc à SPARQL de compter le nombre de résultats de notre requête et de le renvoyer en tant que nouvelle variable ?nombre, ce qui donne ce résultat https://tinyurl.com/pgn6xel

Au moment où j’écris ces lignes, il y a donc 16764 femmes scientifiques sur Wikidata. Et si on veut comparer aux hommes ? Il est possible de sortir le chiffre par genre en mettant cette valeur comme une variable et en l’utilisant pour grouper les résultats. Cela se fait de la façon suivante :

https://tinyurl.com/oebwvh8

Capture du 2015-10-17 16:48:47

Quelques remarques :

  • j’ai dû renoncer à afficher les labels pour les genres, cela faisait partir la requête en timeout. Les valeurs sont les suivantes : masculin (Q6581097), féminin (Q6581072), femme transgenre (Q1052281), homme transgenre (Q2449503)
  • Les personnes trans* sont généralement indiquées à la fois comme de sexe masculin et féminin (avec des dates de début ou de fin correspondant à la transition) et de genre femme (ou homme) transgenre. Comme il y a une seule propriété pour sexe et genre, elles apparaissent donc 3 fois dans ces statistiques.
  • le t216432070 est en fait un blank node, c’est à dire un nœud vide.  Il correspond à Āpastamba, un mathématicien indien du IV ou Ve siècle avant notre ère, qui a « valeur inconnue » pour la propriété sexe ou genre (ce qui me semble une erreur, quelques recherches sur Internet pointent toutes vers un homme.)

 

Par rapport à la question d’origine, il ne reste donc plus qu’à filtrer les résultats pour ne garder que les éléments qui ont un interwiki vers la Wikipédia en français. On cherche donc la propriété schema:about en filtrant sur les URL concernant fr.wikipedia.org :

https://tinyurl.com/p3hokoo

Capture du 2015-10-18 22:03:23

Bilan : 7,6% de scientifiques sont des femmes sur la Wikipédia en français, contre 10% sur Wikidata. Cela a un peu progressé par rapport au précédent billet il y a sept mois.

PS : Merci à Karima Rafes pour sa présentation du langage SPARQL hier lors du SemanticCamp Paris #7.

Image à la une : Ada Lovelace par Margaret Carpenter (domaine public). L’editathon Femmes de sciences a lieu dans le cadre de l’Ada Week qui est nommée en son honneur.

Enregistrer

Enregistrer

Mais combien y a-t-il de femmes scientifiques sur Wikipédia ?

La semaine dernière s’est tenu à Paris un éditathon « Femmes de sciences », coorganisé par Wikimédia France. Mon collègue Mathieu s’est posé la question qui sert de titre à ce billet. Il se demandait également quel était le ratio hommes/femmes dans ce domaine, et m’a demandé comment trouver la réponse en utilisant Wikidata… Je me suis dit que la réponse pourrait intéresser d’autres personnes.

L’outil dont on a besoin est Autolist : https://tools.wmflabs.org/autolist/index.php? et on va l’utiliser pour obtenir les résultats d’une requête Wikidata Query (WDQ).

Prenons deux secondes pour repenser notre requête d’une façon compréhensible par l’ordinateur  : on veut les éléments qui ont pour nature (P31) « être humain (Q5) » (cette précision est obligatoire pour éliminer les personnages de fiction), de sexe ou genre (P21) « féminin (Q6581072) » et dont la profession (P106) est une sous-classe de (P279) « scientifique (Q901) »

Ce qui nous donne la requête : claim[31:5] AND claim[21:6581072] AND claim[106:(TREE[901][][279])] (la syntaxe du « TREE », pour obtenir les sous-classes de scientifique, est quelque peu déroutante mais est expliquée dans la documentation de WDQ.) On peut rajouter un « AND link[frwiki] » pour filtrer sur celles qui ont un article sur la Wikipédia en français. autolist

 Résultat : 14 725 éléments concernant des femmes scientifiques sur Wikidata. Parmi celles-ci, 2 629 ont un article sur Wikipédia en français.

Si je refais ces requêtes pour les hommes (claim[21:6581097]) : 157 093 hommes scientifiques sur Wikidata, dont 36 433 ont un article sur la Wikipédia en français.

On a donc :
  • 14725 / (14725 + 157093) * 100 = 8,57 % des scientifiques sur Wikidata sont des femmes.
  • 2629 / (2629 + 36433) * 100 = 6,73 % des scientifiques sur Wikipédia en français sont des femmes.

Les chiffres pour la Wikipédia en français me paraissent assez faibles et je présume que si la nature et le genre sont bien renseignés sur Wikidata, ce n’est probablement pas le cas de la profession (soit qu’elle n’est  pas indiquée sur l’entrée de la personne, soit que l’entrée de la profession elle-même n’est pas une sous-classe de « scientifique »).

Un autre moyen de rechercher cette information est de croiser les femmes renseignées sur Wikidata (claim[31:5] AND claim[21:6581072]) et les articles dans la catégorie:Scientifique (ou une des sous-catégories à une profondeur de 12 niveaux) sur la Wikipédia en français :

autolist2

Ce qui nous donne 42 321 hommes et 3 279 femmes et donc un taux de femmes de 7,19 %.

Bon, il reste du boulot. Aussi bien pour créer les articles sur Wikipédia que pour trier l’arborescence sur Wikidata.

Image d’en-tête : la conférence de Solvay, en 1911, où sur vingt-quatre scientifiques présents, il y a une seule femme : Marie Curie. Photographie de Benjamin Couprie, domaine public.

Enregistrer

Enregistrer

QuickStatements : trucs et astuces

Magnus Manske a créé beaucoup d’outils pour faciliter la contribution à Wikidata, Autolist et le Wikidata Game étant parmi les premiers qui viennent à l’esprit. Un autre de ses outils, très utile pour ajouter du contenu en masse, se nomme QuickStatements [1]QS dans la suite du texte..

Il est accessible ici et permet de créer des éléments de Wikidata, ou d’en compléter en ajoutant des déclarations (ou des références pour des déclarations existantes), en utilisant une syntaxe à base de tabulations qui est assez bien expliquée sur la page elle-même, ce qui m’évite d’avoir à détailler tout ça ici : débrouillez-vous, RTFM 🙂

Un petit avertissement cependant : si QS se débrouille très bien pour éviter de mettre en doublon une déclaration qui serait déjà présente, il n’y a aucun moyen de lui indiquer de ne pas remplacer un label ou une description s’il y en a déjà un.

Flood flag

Comme dit plus haut, QS permet d’ajouter du contenu en masse : on se retrouve vite à balancer plusieurs milliers de lignes dans le fichier, histoire de partir à un Mardi c’est wiki pour boire des bières [2]ou des diabolos : on n’est pas sectaires. pendant que notre ordinateur continue à contribuer tout seul. C’est cool, mais pas pour ceux qui vérifient les RC… Aussi, quand vous avez un gros traitement à lancer, je vous invite à demander le « flood flag » qui vous permet d’être considéré temporairement comme un robot.

Si vous êtes admin sur Wikidata, vous pouvez vous le mettre vous-même.

Conversion CSV vers QuickStatements

La syntaxe de QS peut devenir rapidement assez fastidieuse, et je trouve personnellement plus simple de travailler avec un tableur. J’ai donc écrit un script qui convertit un fichier CSV en liste de commandes pour QS. Il est trouvable à cette adresse, avec un exemple de la syntaxe attendue.

Il peut arriver qu’on veuille insérer le même label dans toutes les langues utilisant l’alphabet latin, aussi j’ai préparé un fichier avec les en-têtes dans un paquet de langues latines.

Récupération des lignes en erreur

Il peut arriver qu’une ligne pourtant correctement formatée ne passe pas dans QS [3]Pour info, sur un fichier d’environ 110 000 lignes, j’ai eu un peu moins de 500 erreurs… Et plus de 24h de traitement., à cause d’un timeout ou parce que Wikidata est passée en lecture seule. On a alors des résultats dans ce goût là dans le journal de QS :

Quand il y en a peu, il suffit de repasser la ligne précédente (ou de faire directement le changement en question à la main sur Wikidata…), mais quand il y en a beaucoup, on peut les récupérer automatiquement. Si vous êtes sous Linux, vous pouvez le faire de cette façon :

  1. enregistrer le journal des actions de QuickStatements dans un fichier texte (qu’on va nommer ici qs1.txt)
  2. ouvrir une console, se rendre dans le répertoire où est enregistré qs1.txt
  3. lancer la commande suivante :

Il suffit ensuite de copier-coller le contenu du fichier qs1_err.txt dans QuickStatements.

Image d’en-tête : « Shitloads of data to Wikidata », by Jean-Frédéric, CC-By 4.0

Notes   [ + ]

1. QS dans la suite du texte.
2. ou des diabolos : on n’est pas sectaires.
3. Pour info, sur un fichier d’environ 110 000 lignes, j’ai eu un peu moins de 500 erreurs… Et plus de 24h de traitement.

Ton prénom sur Wikidata

Parmi les milliers de trucs qu’il y a à faire sur Wikidata, un gros chantier est celui des prénoms. Cela dit, il y a un moyen simple de se partager le boulot : chacun prend le(s) sien(s) et s’en occupe… Je me suis farci celle pour « Sylvain », du coup voici la marche à suivre pour ceux qui se demandent comment faire la même.

L’élément Wikidata concernant votre prénom

On commence par l’élément concernant le prénom lui-même. Là, en général, c’est un beau bordel hérité de Wikipédia. D’abord, les prénoms connaissant généralement de légères variations d’une langue à l’autre, chaque langue a en général fait un article titré avec  la variante principale du prénom dans ladite langue (ex: Sylvain sur fr:, Silvano sur it:, Szilvánusz sur hu:), et l’a lié avec la forme principale dans une autre langue. Ce n’est pas terrible, notamment parce que en: par exemple peut avoir plusieurs articles sur des variantes du même prénom avec une interwification approximative, et ce qui n’arrange pas les choses, c’est qu’une même langue a parfois a plusieurs variantes assez différentes du même prénom  (typiquement sur fr:, on a Stéphane et Étienne) et donc là aussi plusieurs articles.  Je passe sur le fait que les articles sont parfois des articles détaillés sur le prénom, parfois des pages d’homonymie et parfois un mélange des deux.

La bonne solution pour régler ça, c’est de créer une entrée Wikidata par variante du prénom, d’y redispatcher les interwikis correctement, et de les relier les unes aux autres via la propriété réputé identique à  (p460) (ce qui prend un peu de temps.) Les autres propriétés à ajouter sont :

Une autre possibilité est qu’il n’y ait pas du tout d’entrée pour le prénom en question, sur aucune Wikipédia, et donc pas non plus sur Wikidata (par exemple, c’est une variante féminine rare d’un prénom masculin, comme Sylvaine, ou l’inverse.) Il suffit alors de la créer sur Wikidata.

Les éléments des personnes portant ce prénom

Il suffit de trouver toutes les personnes portant le prénom en question (la bonne variante du moins) et leur ajouter la propriété prénom (P735) avec la valeur appropriée. Facile  à dire, mais pour peu que le prénom soit courant, ça peut rapidement concerner des centaines, voire des milliers d’entrées.

Du coup, on va s’aider d’un outil de Magnus Manske : AutoList2. Il va nous permettre, d’une part de retrouver et lister toutes les personnes dont le label ou un alias commence par le prénom qu’on cherche, mais n’ayant pas cette déclaration de renseignée ; et d’autre part d’ajouter ladite déclaration. Compliqué ? Avec une capture ça sera peut-être plus clair…

 

Capture d'écran du logiciel AutoList2
Capture d’écran du logiciel AutoList2 (cliquez pour agrandir)

 

J’ai fait la recherche pour Sylvaine (puisque pour Sylvain c’est déjà fait) et encadré 3 zones.

En 1, la recherche.  On cherche donc toutes les entrées qui commencent par « Sylvaine », ce qui se traduit par « Sylvaine % » dans le champ « Find on
Wikidata » , qui ont pour « nature de l’élément (P31) → être humain (Q5) » et qui n’ont pas déjà la relation « prénom (P735) → Sylvaine (Q17617112) » comme  on le voit dans le champ « WDQ » : « claim[31:5] AND noclaim[735:17617112] » (Vous noterez qu’il ne faut ici pas indiquer les P et Q des identifiants de propriétés et de valeurs.)

Dans « Mode », Find doit être sur OR (pour être exécuté d’abord) et WDQ sur AND. Les deux autres sources étant inutilisés, leur mode importe peu.  Si on met les deux sources utilisées sur AND, AutoList2 ne sait pas par où commencer et ne retourne rien, si on met les deux sur OR, on recherche tout ce qui commence par Sylvaine ou qui est un être humain n’ayant pas la relation « prénom → Sylvaine »,  ce qui n’est pas ce qu’on cherche…

En 2, les résultats. Il y en a peu ici et j’aurais pu faire la modif à la main sur Wikidata, mais c’est pour l’exemple. On notera que le premier résultat est « Magali » : c’est une femme de lettres et Sylvaine est un des noms de plume qu’elle a utilisé.

En 3, la mise à jour. C’est ici qu’on va faire l’ajout de la propriété manquante. On ajoute donc « P735:Q17617112 » dans la case (cette fois il faut bien les P et les Q…), on décoche les résultats non pertinents de la liste des résultats (ici, on décoche Magali) et on clique sur « Process Commands » (il faut avoir autorisé l’utilisation de l’outil avec notre compte avant en cliquant sur le lien « WiDaR not authorised. ») À raison d’une modif toutes les dix secondes, ça peut prendre un peu de temps et si on voit qu’on a fait une connerie, on peut tout arrêter avec le gros bouton rouge « EMERGENCY STOP ».

Au final, on obtient ça :

Et le nom de famille ?

Pour le nom de famille, c’est pareil sauf qu’il n’y a normalement pas les variantes à démêler. L’entrée concernant un nom de famille doit avoir les relations suivantes :

On peut aussi utiliser nommé en référence à (p138) si on connaît l’origine du nom.

Le truc pénible, par contre, c’est qu’Autolist risque de ne pas marcher pour retrouver les porteurs du nom : une requête commençant par « % » (par exemple « % Lefebvre ») est beaucoup plus gourmande et MySQL ne va pas aimer. Il est toutefois possible de ruser en utilisant la première lettre du prénom pour filtrer (en cherchant avec « A% Lefebvre », puis avec « B% Levebvre », etc.) mais ça découpe la requête et oblige à la faire plusieurs fois (jusqu’à 26, même si je doute que des prénoms commençant par toutes les lettres soient concernés. Ça peut se vérifier avec la recherche interne de Wikidata.)

Pour ce qui me concerne, ça donne ça.

Et maintenant, au boulot ! 🙂

Crédits photo d’en-tête : Pas de bol…, par Ludovic sur Flickr (CC-By-SA 2009)

Enregistrer