Ben Whishaw, Broadway, la RADA et Wikidata
Bonjour tout le monde, ici Harmonia Amanda squattant le blog d’Ash_Crow. Il m’a été suggéré de faire un billet de blog pour vous raconter tout ce que je fais en ce moment en rapport avec la RADA (Royal Academy of Dramatic Art) sur Wikidata. Pour m’assurer que personne ne le lira, j’ai donc écrit un truc long, bourré de notes de bas de page et avec même des vrais bouts de SPARQL dedans. Ne me remerciez pas.
Comment ça commence : The Hollow Crown
Tout est de la faute de Ben Whishaw. Je regardais tranquillement les adaptations de Shakespeare par la BBC (et pour celleux qui ne connaissent pas The Hollow Crown, je conseille) et je me disais que l’acteur qui joue Richard II méritait une récompense pour ce rôle, parce qu’il est simplement extraordinaire[1] [2] . Je suis donc allée traîner sur sa page Wikipédia et en bonne Wikimédienne, j’ai décidé de l’améliorer un peu : pour le moment[3] j’ai surtout nettoyé le code et arrangé un peu l’accessibilité pour les lecteurs d’écran. À défaut de le labelliser tout de suite, je me suis dit que ce serait sympa de compléter correctement son entrée Wikidata. C’était le début. Comme je le disais, tout est de la faute de Ben Whishaw.
Wikidata : petites modifications
Au début, ça avait l’air simple, il fallait juste mettre des occupations plus précises (il n’est pas juste « acteur », mais acteur de théâtre, de télévision, de cinéma…). Il a reçu un paquet de récompenses, qu’il importait de lister (P166), et pour chacune d’entre elles ajouter l’année où il l’a reçue (P585) ainsi que l’œuvre concernée (P1686), voire avec qui il a partagé la récompense (P1706). Et on peut faire pareil pour celles pour lesquelles il a juste été nommé (P1411) mais n’a pas gagné. Et on peut aussi lister tous ses rôles, ce qui ne se fait pas sur son entrée Wikidata à lui mais en utilisant P161 « distribution » avec la valeur « Ben Whishaw (Q342617) » sur les entrées des œuvres en question. Parfois on peut même qualifier l’information en utilisant P453 (rôle) quand le personnage lui-même a une entrée Wikidata (par exemple Q dans James Bond[4] ).
Jusque-là, rien que de très facile. Bon, le truc, c’est que Whishaw au départ, c’est un acteur de théâtre. Je veux dire, il s’est fait connaître vers 23 ans en jouant Hamlet[5] à l’Old Vic. C’est un peu étrange de voir ainsi listés tous ses rôles télévisuels et pas ses performances théâtrales (Mojo, Bakkhai…). Donc j’ai commencé à creuser un peu côté théâtre et laissez-moi vous dire que le théâtre sur Wikidata… ben c’est au moins autant le bazar que sur Wikipédia. C’est dire.
Ce serait l’endroit idéal dans ce billet pour vous parler des ontologies, du web sémantique et des questions d’organisation du savoir mais le consensus parmi les gens ayant relu ce billet est qu’il est déjà bien assez long et que je ferais mieux de me concentrer sur la RADA (qui se fait attendre) et de parler de ça une autre fois.
L’Internet Broadway Database
Pendant que j’étais donc en train de réfléchir aux relations entre « art », « œuvre », « genre » et « performance », j’ai appris que Whishaw était en ce moment à Broadway où il joue John Proctor dans The Crucible d’Arthur Miller dans une mise en scène d’Ivo van Hove[6] . Or Broadway a une très bonne base de données (IBDB, Internet Broadway Database). Bien fichue, relativement complète, avec un nombre d’erreurs relativement restreint, bref le bonheur. Et encore mieux, Wikidata a déjà des propriétés pour lier des entrées à cette base (et pas que pour les humains, il y a les mêmes pour les théâtres, pour les œuvres et pour les productions)[7] .
Évidemment, personne n’avait encore exploité cette base proprement et il y avait pas mal d’erreurs dans les utilisations wikidatiennes. J’ai donc nettoyé tous les usages de ces propriétés sur Wikidata. Et sur Wikipédia, parce que les erreurs viennent de là[8] . J’ai râlé contre les Wikipédien⋅ne⋅s qui sourcent n’importe comment (ou ne sourcent pas), qui ne sont pas philosophiquement choqué⋅e⋅s quand iels associent une œuvre à l’identifiant d’une production voire qui pensent que l’identifiant IMDB (Internet Movie Database) est le même que l’identifiant IBDB (ahah NON) mais, comme je suis Wikimédienne, j’ai nettoyé malgré tout.
J’en suis arrivée à la conclusion que ce serait encore mieux si au lieu d’avoir quelques liens corrects on liait vraiment toutes les entrées. Passer de « j’ai-bossé-sur-Ben-Whishaw-donc-j’ai-cherché-son-identifiant-IBDB » à « voici la liste complète des identifiants IBDB, trouvons leurs entrées Wikidata correspondantes ». Joie des joies, il existe un outil merveilleux du nom de Mix n’ Match[9] . Là encore je pourrais faire une présentation détaillée de cet outil mais dans le cadre de cet article je vais me contenter de dire qu’il nécessite de récupérer au préalable la totalité des identifiants valides de la base de données à lier à Wikidata, ce que j’ai donc commencé à faire (et je remercie pour cela Ash_Crow[10] , Dereckson[11] et Rama[12] ). Récupérer tous ces identifiants prend du temps (pour le moment je n’ai importé que la partie de la base sur les œuvres, si vous voulez aider[13] ). Il fallait que je m’occupe en attendant que les scripts finissent de tourner. C’est là que j’ai remarqué que Ben Whishaw (oui, parce que c’est toujours de sa faute) avait été étudiant de la RADA (Royal Academy of Dramatic Art)[14] .
La RADA
Présentation
Le truc cool sur Wikidata[15] c’est que non seulement on peut indiquer (P69) où les gens ont fait leurs études, mais en plus on peut apporter plein de précisions : la date de début (P580), celle de fin (P582), le diplôme préparé (P512), la principale spécialité d’études (P812)… Il n’y avait pas de sources. Ça m’a énervée. Je suis allée en chercher. Et là… RADA !
Oui. La RADA a mis en ligne les profils de ses anciens élèves. Voilà la fiche de Whishaw pour les curieu⋅ses⋅x[16] . Bref, je cherchais une source et je suis tombée sur une mine d’or. Là, la Wikimédienne en moi s’est dit : non mais attends, tu ne vas pas sourcer que pour Whishaw, tu vas pouvoir sourcer tous les anciens étudiants avec à chaque fois leur année de diplôme, leur diplôme et tout ça et faire plein de statistiques démentes à partir de requêtes SPARQL ! (et puis ça t’occupera le temps que tu récupères les identifiants de tous les gens ayant un jour bossé dans un spectacle à Broadway).
Naïvement, je me suis dit que la RADA n’avait pas tant d’élèves que ça par année et que ça ne prendrait donc pas un temps fou[17] …
Identification des éléments concernés
Sur Wikidata
Pour commencer j’ai essayé de savoir ce qui existait déjà sur Wikidata. J’ai donc fait une petite requête pour trouver la totalité des éléments Wikidata ayant P69:Q523926 (scolarité à la Royal Academy of Dramatic Art). J’ai croisé avec la catégorie anglophone. En fait, quelqu’un a, il y a quelques mois, ajouté P69:Q523926
sur tous les éléments catégorisés comme « Alumni of the Royal Academy of Dramatic Art »[18]
. Bref, comme à l’époque je n’avais pas encore l’intention d’écrire ce billet de blog, il y en avait environ 650, avec relativement peu d’écart entre WD et la catégorie anglophone (donc peu d’entrées WD sans articles sur WP:en a priori). Il y avait plus d’éléments sur Wikidata que dans la catégorie anglophone mais toutes les entrées de la catégorie sortaient bien dans la liste Wikidata.
Pour suivre mon avancement, je n’ai donc à faire que deux requêtes : la première pour lister les étudiants de la RADA, la deuxième pour lister les étudiants de la RADA avec une date de sortie de l’école.
En WikidataQuery, parce que c’est tellement simple que ce n’est pas la peine de sortir SPARQL ça donne[19] :
claim[69:523926]
et
claim[69:523926]{claim[582]}
Simple.
Il y avait déjà quatre ou cinq élèves où l’information « date de sortie de l’école » était déjà présente mais il n’y avait soit pas de source, soit une source autre que celle de la RADA. J’ai décidé de ne pas m’en soucier et que je les traiterais en même temps que les autres.
Sur Wikipédia
J’avais déjà constaté que la totalité des articles de la catégorie anglophone « Alumni of the Royal Academy of Dramatic Art » avait la propriété P69 « scolarité » avec la valeur RADA sur Wikidata. Je sais aussi qu’il y a plus d’entrées marquées sur WD que dans la catégorie : le décalage vient-il d’articles anglophones non catégorisés[20] ou d’entrées Wikidata sans article correspondant en anglais[21] ?
La catégorie existe dans d’autres langues que l’anglais : en espagnol, en arabe, en français, en latin, en polonais, en russe, en anglais simplifié, en turc et en chinois. Mais un survol de chacune de ces catégories m’a indiqué qu’elles sont beaucoup moins remplies que la catégorie anglophone (assez logique pour une école londonienne) et qu’il est donc peu probable qu’elles me servent beaucoup.
Cependant, il n’y a pas que la catégorie pour repérer les étudiants. WP:en a aussi une liste (List of RADA alumni). Cette liste[22] est intéressante car elle indique entre parenthèses l’année d’obtention du diplôme, ce qui est une information absente de la catégorie.
Par contre, il aurait été trop demander que la totalité des entrées de la catégorie soient présentes dans la liste, ou que la totalité des entrées de la liste soient dans la catégorie… Oui, vous avez bien lu, les deux systèmes de la Wikipédia anglophone ne se recoupent pas.
Identifions : de la RADA vers Wikidata
Le plus simple pour commencer me paraissait de partir de la base RADA et de regarder s’il y avait une correspondance sur WD/WP : en effet, même si beaucoup d’étudiant⋅e⋅s de la RADA sont devenus connu⋅e⋅s, iels n’ont pas tou⋅te⋅s un article Wikipédia, il ne faut pas exagérer. Dans un monde idéal où Wikipédia et Wikidata seraient complètes après avoir fini de vérifier toutes les entrées de la RADA je devrais être passée sur les 700 et quelques entrées Wikidata déjà repérées. Mais comme Wikipédia et Wikidata n’ont jamais prétendu être complètes, je me doutais avant de commencer que j’aurais des pertes.
Recherche artisanale par nom
Au début, je me suis dit que j’allais simplement chercher dans Wikidata chaque nom d’élève listé sur le site de la RADA et vérifier si je l⋅a⋅e trouvais. En commençant par 1906, qui est la première année avec des diplômé⋅e⋅s[23] vu que l’école a été fondée en 1904.
Très vite, les premiers problèmes sont apparus avec cette méthode artisanale.
En 1907 par exemple, la⋅e seul⋅e élève est « H Bentley ». Le système de recherche de Wikidata fait que si je fais une recherche sur ce nom, je n’aurai comme résultat que les « H Bentley » et « H. Bentley » (et pas Henry, Harriet ou autres). Si j’ai de la chance, quelqu’un aura pensé à ajouter « H Bentley » en alias de l’élément Wikidata et iel sortira dans la recherche. Si je n’en ai pas, je suppose que je peux toujours faire une requête de la forme :
FIND H% Bentley in Labels in Alias
(lien vers la requête autolist) et espérer que quelque chose en sorte[24] . Je peux aussi rechercher « Bentley » et passer rapidement sur toutes les entrées… Bref, l’identification n’est pas simple.
Fautes d’orthographe et la base mal remplie
D’autant qu’il peut y avoir des fautes d’orthographe dans la base RADA : je suis quasiment certaine que Joan Mibourrrne n’a pas en réalité trois R dans son nom de famille ou Dorothy Reeeve trois E.
Desmond Llewellyn[25] est par exemple entré dans la base RADA sous le nom de Desmond Wilkinson (il s’appelle Desmond Wilkinson Llewellyn d’après l’article en anglais, ce qui n’est même pas présent sur l’article en français). En fait ce n’est pas tout à fait vrai : lui est entré à la fois sous le nom de « Desmond Llewellyn » (fiche ici) et sous le nom de « Desmond Wilkinson ». Oui, il a deux fiches la même année.
Les doublons dans la base sont nombreux : la probabilité que deux étudiantes différentes, nommées Alison James et Allison James, soient diplômées toutes les deux en 1954 me semble assez faible.
Les homonymes
Même sans faute d’orthographe, si on trouve un homonyme, ce n’est pas nécessairement correct. Rose Hersee, étudiante de 1908 n’est pas Rose Hersee, la chanteuse née en 1845. Oui, il faut vérifier. Dans nombre de cas, cela a signifié aller fouiller l’article Wikipédia (qui parfois mentionne la RADA ! Parfois même avec des sources !) et surtout les sources de ces articles (pour la première moitié du XXe siècle, cela a essentiellement signifié lire des dizaines de nécrologies). Parfois, bingo ! le lien pouvait être fait. Parfois le non-lien pouvait être fait. Dans nombre de cas, je n’ai pas pu trancher avec une recherche de ce type parce que les profils de la RADA avant le XXIe siècle sont pour le moins sommaires.
Il peut y avoir plusieurs élèves de la RADA avec le même nom, ou des cas où la même personne a suivi plusieurs formations (surtout le cas dans les diplômes techniques, où certains noms reviennent). Côté Wikidata les homonymies sont légion (surtout avec des noms comme « John Jones »…), donc il faut parfois fouiller dans plusieurs centaines de résultats pour trouver la personne la plus probable (et remercier au passage les personnes qui remplissent les descriptions[26] ).
Les pseudonymes
Iels ont des pseudonymes. Un nombre impressionnant de femmes sont devenues connues sous le nom de leur mari, et personne n’a mis en alias leur nom de naissance. Un nombre impressionnant a simplement pris un pseudonyme (Conrad Havord est devenu connu sous le nom de « Conrad Phillips » par exemple). Parfois c’est l’inverse, iels se sont inscrits à la RADA avec un pseudonyme/nom d’épouse/surnom et l’article Wikipédia a conservé le nom de naissance (par exemple, June Flewett est inscrite à la RADA sous le nom de Jill Freud, son diminutif et le nom de famille de son mari). J’aime beaucoup aussi Priya Rajvansh inscrite à la RADA sous le nom de Vera Singh. Tous ces cas ne sont identifiables que si quelqu’un a pensé à mettre les alias sur Wikidata[27] . Et parfois il y a des cumuls de pseudonymes plus fautes d’enregistrement, comme dans le cas de Kay Hammond (nom de scène), dont le véritable nom est « Dorothy Katherine Standing » mais qui est enregistrée à la RADA comme « Kathrine Standing », ce qui ne facilite pas l’identification puisque ne ressortant pas dans les recherches sur Wikidata.
Est-ce que Jean Rhys, née « Ella Gwendolen Rees Williams » en 1890 et ayant utilisé nombre de pseudonymes, est Ella Reeve, l’étudiante de la RADA diplômée en 1909[28] ? Vern Agopsowicz est devenu connu sous le nom de John Vernon… Je pourrais continuer longtemps.
Arkanosis à la rescousse
À ce stade Arkanosis a eu pitié de moi et m’a créé un script pour faciliter le travail (avec une retouche par Ash_Crow pour être encore plus simple pour moi après) :
#! /bin/sh if [ $# -ne 2 ]; then echo 'Usage: rada.sh <profile> <year>' exit 1 fi profile=$1 year=$2 echo "<html><head><title>Year $year</title></head><body><ul>" > list-$profile-$year.html wget -q 'https://www.rada.ac.uk/profiles?search='$profile'&yr-acting='$year'&yr-technicaltheatrearts='$year'&crs-technicaltheatrearts=&yr-theatrelab='$year'&yr-directing='$year'&crs-directing=&fn=&sn=' -O - | \ sed -n 's@.*fn=\([^&]*\).*sn=\([^"&]*\).*@\1 \2@p' | \ while read firstname lastname; do echo "<li><a href=\"https://www.rada.ac.uk/profiles?aos='$profile'&yr=$year&fn=$firstname&sn=$lastname\">$firstname $lastname</a> <a href=\"https://www.wikidata.org/w/index.php?search=&search=$firstname+$lastname&title=Special%3ASearch&go=Lire\">wikidata</a>" wget -q 'https://www.wikidata.org/w/api.php?action=query&list=search&srwhat=text&srsearch='$firstname'+'$lastname -O - | \ sed -n 's@.*title&.*\(Q[0-9]\+\)&.*@\1@p' | \ while read qid; do if grep -q $qid unhandled.lst; then echo " <a href=\"http://www.wikidata.org/wiki/$qid\">$qid</a>" fi done echo "</li>" done >> list-$profile-$year.html echo "</ul></body></html>" >> list-$profile-$year.html
Les urls de la base RADA étant systématiquement de la forme année/prénom/nom[29] , il en a simplement extrait des listes par année avec un élève par ligne, sous la forme :
- Nom de l’élève (lien vers la fiche RADA) / Wikidata (lien qui pointe sur la page de recherche avec ce nom) / éventuels Qid qui sont sortis dans le 2e lien et qui donnent aussi un résultat dans la liste des
P69:Q523926
(déjà listés comme élèves de la RADA)
Par exemple une ligne pour un élève de la formation « acting » en 1947 est :
harold goodwin wikidata Q1585750
Toutes les lignes n’ont pas de Qid, loin de là (les lignes avec sont même largement minoritaires). Tous les Qid ne sont pas corrects : comme je le disais, il y a quelques homonymes à la RADA ; ou alors le système de recherche de Wikidata a pour une fois ratissé trop large et sorti des combinaisons prénom/nom qui ne correspondent pas à la fiche RADA (par exemple une recherche sur Romany Evens suggère George Bramwell Evens sur Wikidata). Néanmoins, l’immense majorité des lignes avec un Qid a effectivement permis de repérer de véritables étudiant⋅e⋅s tandis que le pourcentage était bien plus faible sur les lignes sans Qid pré-suggéré. Merci encore à Arkanosis.
Même avec ces listes pré-établies, n’ayant plus qu’à cliquer sur les liens au lieu de faire un copié-collé à la main, il a fallu passer manuellement sur toutes les entrées[30] . Le problème de tirer les noms des url, c’est aussi la non-gestion des apostrophes et des espaces. Une recherche de peter otoole sur Wikidata ne renvoie pas Peter O’Toole par exemple.
Conclusion de la RADA vers Wikipédia
Un certain nombre d’entrées ont pu être identifiées (835 très exactement à la fin du travail sur scripts) mais la majorité des élèves listés de la RADA n’ont renvoyé aucun résultat (on s’y attendait) et un nombre important n’a renvoyé que des résultats incertains. J’ai ainsi pour le moment 442 lignes dans un tableur avec une entrée RADA et une entrée Wikidata potentielle, en attente de sources pour confirmer, et ce alors que je n’ai pensé à les lister que lorsque j’avais déjà traité un bon quart de la base : on parle donc de plusieurs centaines de cas où une recherche plus approfondie va être nécessaire.
Aparté sur les féminins
À force de regarder les éléments sur des act⋅rices⋅eurs, je me suis aperçue qu’un grand nombre d’actrices avaient une description en anglais de la forme « Nationalité actor ». Quelqu’un a fait passer un robot pour compléter automatiquement les descriptions et ne s’est pas aperçu que cela mettait une description au masculin y compris sur les femmes.
Donc j’ai requêté le nombre d’entrées Wikidata avec genre (P21) féminin (Q6581072) et une description en « % actor
», j’ai mis tout ça dans un csv, que j’ai passé dans CSVtoQuickStatements, puis dans QuickStatements[31]
, et quelques dizaines de milliers de modifications plus tard j’aimerais vous rappeler de bien faire attention lorsque vous codez vos scripts, ou de vous relire après coup. Merci.
Identifions : de Wikipédia vers la RADA
J’ai commencé à regarder les étudiant⋅e⋅s présent⋅e⋅s sur WP mais pas dans la liste traitée sur WD. Le grand retour de la méthode artisanale !
Dans un monde parfait, une fois fini de traiter les scripts, le nombre d’entrées Wikidata marquées comme élèves de la RADA et le nombre d’entrées marquées comme élèves de la RADA avec une date de fin de renseignée (et donc ayant un lien vers la base RADA comme source) aurait dû correspondre. Le monde n’étant pas parfait, il nous reste alors plus de gens que Wikipédia indique comme élèves qu’il n’a été possible d’identifier du côté de l’école. Il y a un certain recoupement avec les lignes du tableur précédemment mentionné, mais pas si important : l’essentiel du tableur est constitué d’act⋅rices⋅eurs pour lesquel⋅le⋅s il ne m’a pas été possible de trouver une mention de leur école.
En utilisant autolist, il est possible de demander la liste des entrées présentes dans la catégorie de WP:en et ne répondant pas à la requête « claim[69:523926]{claim[582]}
»
Cela donnait 132 résultats, sur lesquels je suis passée manuellement. Ce passage a permis d’identifier 23 personnes de plus (pseudonymes ou noms de naissance pour les femmes essentiellement, présents dans le texte des articles, mais non renseignés en alias sur Wikidata : la recherche sur ce site de ces noms-là ne renvoyait pas aux articles Wikipédia correspondants).
Fin avril, la catégorie anglaise comptait 907 entrées, Wikidata 953 entrées et seules 835 entrées avaient en réalité été traitées proprement avec une véritable source. De plus il ne faut pas oublier que toutes les entrées Wikidata ne correspondent pas à un article sur la Wikipédia en anglais : un certain nombre d’act⋅rices⋅eurs ont des entrées sur des Wikipédias en d’autres langues mais pas sur l’anglophone et une petite dizaine n’a pas d’article Wikipédia associé du tout, leur entrée Wikidata ayant souvent été créée dans ce cas pour remplir complètement la distribution d’un film.
SELECT ?student ?studentLabel { ?student wdt:P31 wd:Q5 . # human ?student p:P69 ?statement . # Student of... ?statement ps:P69 wd:Q523926 . # ...RADA FILTER NOT EXISTS { ?statement pq:P582 ?x .} # with no end date SERVICE wikibase:label { bd:serviceParam wikibase:language "en" . } }
Lien vers la requête des cas à traiter.
Les incohérences
La liste à traiter provient essentiellement de la Wikipédia en anglais : la requête SPARQL (sur Wikidata mais sans date de fin) signalait 112 erreurs fin avril quand la requête autolist (dans la catégorie anglophone mais sans date de fin sur Wikidata) n’en renvoyait que 110 (et l’un d’eux correspond à un article depuis supprimé de WP:en). Je n’ai pas vérifié systématiquement la centaine d’historiques concernés mais à chaque fois que j’ai regardé, j’ai pu confirmer que l’information était arrivée sur Wikidata lors de l’import massif de la catégorie.
Le travail consiste désormais soit à trouver sous quel nom la personne a été enregistrée côté RADA (puisqu’il y a des fautes de frappe, par exemple) ou à trouver d’où peut bien provenir l’erreur. Ash_Crow a ainsi corrigé George Bernard Shaw catégorisé comme étudiant alors qu’il a légué une partie de son héritage à la RADA[32] . Pour Armaan Kirmani, son entrée IMDB indique qu’il a été l’élève d’un enseignant de la RADA, ce qui ne signifie pas qu’il y a étudié non plus…
Dans cette centaine de cas problématiques, il y a un peu tous les cas de figure, de ceux qui ne mentionnent pas du tout la RADA, à ceux qui disent clairement que la personne y a étudié mais sans citer de sources[33] , voire à ceux qui sourcent avec une déclaration qui n’est pas si claire que ça. En effet, la RADA ne propose pas que des formations longues diplômantes : elle organise aussi un certain nombre de stages et ateliers. Si un⋅e actrice⋅eur a participé à un stage de deux jours à la RADA, iel n’apparaîtra pas dans la base RADA des ancien⋅ne⋅s élèves mais iel pourra déclarer sincèrement en interview qu’iel a appris tel truc à la RADA… d’ici à ce qu’un⋅e Wikipédien⋅ne enthousiaste décide que ça fait d’ellui un⋅e ancien⋅ne élève, il n’y a qu’un pas. Par exemple Ash_Crow a trouvé une source (même si de qualité douteuse) affirmant qu’Émilie Rault avait bien étudié à la RADA mais elle n’est nulle part dans la base parce qu’il est extrêmement probable qu’elle n’a fait qu’y suivre des stages vu qu’elle était en master de musicologie à la Sorbonne en même temps. Ce qui pose la question de l’utilisation de la propriété « scolarité » sur Wikidata : doit-on la réserver pour les formations diplômantes ou accepter y compris jusqu’aux stages de quelques jours ?
Les écarts entre la liste et la catégorie
Comme préalablement signalé, la « List of RADA alumni » ne correspond pas à la liste de la catégorie. Systématiquement, à chaque fois que j’identifiais une personne et l’article associé, j’ai ajouté son nom dans la liste et je l’ai catégorisé correctement. Je n’ai cependant pas encore trouvé le courage de vérifier les deux listes proprement pour identifier les décalages. La liste manuelle devrait être plus complète que la catégorie, puisque comprenant également des liens rouges (non existant sur la Wikipédia en anglais) avec des liens vers l’article dans d’autres langues.
Xavier Combelle ayant eu l’amabilité de lister les différences entre la catégorie et la liste début mai, il reste bien dans la catégorie la centaine de cas problématiques précédemment évoqués (non présents dans la liste donc) et dans la liste, outre les liens rouges tout à fait normaux, dix-huit articles non catégorisés. Aucun d’entre eux ne renvoie de lien évident avec une entrée de la RADA, à l’exception de Xenia Kalogeropoulou qui a pu être identifiée avec Xenia Calogeropoulos et être catégorisée dans la foulée. Parmi ces cas, certains articles Wikipédia évoquent explicitement que la formation à la RADA a pris la forme d’ateliers ou de stages. Nous revenons à la question : quel cursus faut-il avoir suivi pour être considéré⋅e comme un⋅e ancien⋅ne étudiant⋅e ?
Les problèmes sur la base RADA
Une fois listés tous les problèmes côté Wikipédia/Wikidata (qui peuvent se résumer à : des gens ajoutent des informations sans sourcer et celles-ci se répandent ensuite partout[34] ), force est de constater qu’une partie des problèmes provient de la base RADA.
Complétude des données
Comme nous l’avons déjà constaté, la base est remplie de doublons, chaque pseudonyme ou graphie de nom créant une nouvelle page au lieu de se centraliser avec une page par élève. Cela pose évidemment un problème si nous sommes intéressé⋅e⋅s par le nombre d’étudiant⋅e⋅s par année par exemple.
Du point de vue wikidatien, cela empêche également la solution simple de créer une entrée par élève, indépendamment de la présence d’un article Wikipédia. La base de données de Cambridge par exemple, attribue un identifiant fixe par élève, ce qui a permis l’importation complète de ces identifiants sur Wikidata, au besoin en créant les entrées manquantes (P1599: ID de la Cambridge Alumni Database)[35] . Si la RADA avait choisi la solution d’un identifiant/élève au lieu d’url de la forme diplôme/année/prénom/nom, il aurait été plus facile de l’importer entièrement.
Ce qui nous amène au point suivant : il n’est pas du tout certain que la base soit actuellement complète. Rien n’est indiqué en ce sens sur le site. Un petit tour sur la Wayback Machine d’Internet Archive nous montre que la base n’est en ligne que depuis 2015, auparavant seul⋅e⋅s les élèves en cours d’études avaient un profil sur le site. S’il semble donc très probable que les données les plus récentes soient complètes (à partir de 1999, où les profils sont détaillés et accompagnés de photographies), les profils des années antérieures sont parfois très sommaires. Surtout, certaines années semblent étrangement vides d’élèves, comme 1988.
Serait-il possible que dans la centaine de cas listés comme élèves de la RADA qui n’ont pu trouver de correspondance dans la base il y ait des oublis ? Un des cas qui me font douter est celui de Noel Streatfeild qui d’après son site internet aurait été acceptée comme élève en 1919. J’ai bien trouvé un⋅e « Noel Goodwin » diplômé⋅e en 1922 mais est-ce elle ?
Un cas encore plus explicite est celui de Dora Mavor Moore, qui d’après cet article biographique a été la première Canadienne acceptée à la RADA et aurait été diplômée en 1912. Le problème, c’est que côté RADA, un seul élève a été diplômé cette année-là et « Leonard Notcutt » n’est pas un pseudonyme connu de Dora Mavor Moore.
Fiabilité des données
Le problème avec probablement le plus d’impact, c’est que certain⋅e⋅s des élèves listé⋅e⋅s dans la base RADA en sont sorti⋅e⋅s avant d’être diplômé⋅e⋅s. Quelqu’un comme Harold Pinter a bien une fiche RADA disant qu’il fait partie de la promotion de 1949. En fait, Pinter est entré à la RADA en 1948 et a abandonné le cursus en 1949, avant d’être diplômé donc. La RADA liste-t-elle ses ancien⋅ne⋅s élèves indépendamment du fait qu’iels aient achevé leur cursus ? Dans Wikidata ces cas sont gérés en entrant un « no value » au lieu d’une valeur personnalisée dans le champ du qualificatif « diplôme » de la propriété « scolarité ».
Il est tout de même un peu problématique que nous ne puissions pas faire confiance à l’école elle-même pour savoir qui en a été diplômé⋅e…
J’ai un autre problème avec la fiche RADA de Sheila Terry qui me semble correspondre à Sheila Terry sur Wikipédia. Il est à peu près certain qu’elle n’a pas mis les pieds à Londres pendant ses études ; d’après WP, elle les aurait faites à la Dickson-Kenwin academy, une école « affiliée » à la RADA. Est-ce à dire que cette école délivrait alors le diplôme de la RADA ? (oui, avant la réforme des années 2000, la RADA délivrait ses propres diplômes). Là encore, je manque d’informations.
J’ai un certain Jack May de la promotion de 1943 dont l’article Wikipédia en anglais dit explicitement qu’il a été reçu à la RADA et n’y est jamais allé…
Bref, ce n’est pas simple, même lorsque les personnes en question sont identifiées !
Requêtes et statistiques marrantes
Tout ceci étant dit, nous avons malgré tout un échantillon intéressant avec 835 entrées. Cela ne correspond pas à tous les élèves de la RADA, loin de là, mais c’est un nombre suffisant pour pouvoir commencer à s’amuser un peu avec les requêtes SPARQL !
Nombre d’élèves avec entrée WD par année
Commençons tout simplement par demander la liste complète des élèves de la RADA avec une date de fin d’études :
SELECT ?year (COUNT(?student) AS ?number) WHERE { ?student wdt:P31 wd:Q5; p:P69 ?statement. ?statement ps:P69 wd:Q523926; pq:P582 ?endtime. BIND(YEAR(?endtime) AS ?year) } GROUP BY ?year ORDER BY (?year)
lien vers la requête ce qui nous permet de faire ce joli graphique :
Âge moyen à la sortie d’école
Toujours sur l’échantillon wikidatien, maintenant que nous savons quand iels sont sorti⋅e⋅s de l’école, à quel âge l’ont-iels fait ? Cela suppose que leur date de naissance est renseignée sur Wikidata, ce qui réduit encore un peu notre échantillon.
SELECT ?endYear (AVG(?age) AS ?averageAge) WHERE { ?person p:P69 ?radaStatement. ?radaStatement ps:P69 wd:Q523926; pq:P582 ?endDate. ?person wdt:P569 ?birthDate. BIND(YEAR(?endDate) AS ?endYear) BIND(?endYear - (YEAR(?birthDate)) AS ?age) } GROUP BY ?endYear ORDER BY (?endYear)
Ou même une requête plus avancée : l’âge moyen à la sortie de l’école, selon les années, le genre (masculin ou féminin, aucun autre genre déclaré dans notre échantillon), avec indication du nombre de personnes concernées par année :
SELECT ?endYear ?genderLabel (ROUND(AVG(?age)) AS ?averageAge) (COUNT(?person) AS ?number) WHERE { ?person p:P69 ?radaStatement; wdt:P21 ?gender. ?gender rdfs:label ?genderLabel. FILTER((LANG(?genderLabel)) = "fr") ?radaStatement ps:P69 wd:Q523926; pq:P582 ?endDate. ?person wdt:P569 ?birthDate. BIND(YEAR(?endDate) AS ?endYear) BIND(?endYear - (YEAR(?birthDate)) AS ?age) } GROUP BY ?endYear ?genderLabel ORDER BY (?endYear)
Lien vers la requête. Il y aurait une pyramide des âges à faire si je n’étais pas si flemmarde.
Combien de nationalités ont été représentées à la RADA ?
SELECT ?nationality ?number ?nationalityLabel WHERE { { SELECT ?nationality (COUNT(?student) AS ?number) WHERE { ?student p:P69 ?statement. ?statement ps:P69 wd:Q523926; pq:P582 ?endtime. ?student wdt:P27 ?nationality. } GROUP BY ?nationality } SERVICE wikibase:label { bd:serviceParam wikibase:language "en". } } ORDER BY DESC (?number)
lien vers la requête qui affiche donc la liste des nationalités avec à chaque fois le nombre d’élèves concerné⋅e⋅s, classé de la plus représentée (étonnamment[36] , les Britanniques) à la plus rare. Plus d’une trentaine de nationalités ont donc été représentées à la RADA !
Nombre d’étudiants de la RADA ayant joué dans un James Bond
SELECT DISTINCT ?actor ?actorLabel WHERE { ?item wdt:P179 wd:Q2484680; wdt:P161 ?actor. ?actor wdt:P69 wd:Q523926. SERVICE wikibase:label { bd:serviceParam wikibase:language "en". } } ORDER BY (?actorLabel)
Lien vers la requête.
Ce qui représente quand même plus d’une quarantaine de personnes, ce n’est pas rien !
Conclusion
- Je n’ai pas fini ;
- J’espère que l’archiviste de la RADA est sympathique ;
- Les gens, sérieusement, importez les alias sur Wikidata ;
- Et vos sources. C’est bien, les sources ;
- Et photographiez Ben Whishaw, on manque cruellement d’images libres ;
- On peut quand même faire des requêtes amusantes non[37] ?
Image d’en-tête:
Fronton de la RADA, par Chemical Engineer, CC-BY-SA 3.0
Ash Crow 24 mai 2016 12:54 ¶
Merci Harmonia pour cet excellent billet, le premier billet rédigé par un⋅e invité⋅e sur ce blog :)
Etienne Cavalié (Lully) 12 juillet 2016 09:41 ¶
Merci également pour ce retour d'expérience ! J'apprends au passage l'existence de Mix 'n' Match (je suis sans doute le dernier), et ça aussi c'est cool. Perso, je vote pour d'autres billets revenant sur des points seulement esquissés dans celui-ci.