Mercredi 07 Décembre 2022

Une nouvelle routine de traitement améliore la stabilité des ID d'occurrence GBIF

Nymphe d'un papillon jaune des graminées à trois points ( Eurema blanda subsp. arsakia ), observée sur l'île de Taïwan. Photo 2022 via les données d'occurrence de la teigne de Taiwan collectées à partir du réseau social , sous licence CC BY 4.0

L'analyse des enregistrements dans les ensembles de données mis à jour détecte les erreurs potentielles, permettant aux gestionnaires de données de prendre des décisions opportunes sur la préservation des identifiants existants

 

Les améliorations apportées aux processus d'ingestion de données du GBIF permettront aux gestionnaires et aux producteurs de données de faire des choix plus judicieux et plus éclairés lorsque les mises à jour de leurs données modifient les identifiants uniques attribués à chaque enregistrement d'occurrence dans GBIF.org.

Les ID d'occurrence GBIF (gbifID) ne sont pas conçus comme des identifiants persistants. En fait, il s'agit simplement de la chaîne numérique utilisée pour former l'URL de toute occurre nce individuelle, par exemple 2284341217). Cependant, ces identificateurs fournissent souvent un moyen pratique et le meilleur disponible pour créer des références cohérentes et non ambiguës à ces enregistrements individuels.

Par conséquent, l'amélioration de leur stabilité peut aider les détenteurs de données et les chercheurs qui citent et relient des enregistrements de spécimens ou d'observations, alors même qu'ils attendent les résultats d'initiatives au sein de la communauté GBIF visant à développer un système mondial robuste d'identificateurs persistants uniques. (Cette problématique peut fournir une introduction aux détails techniques pour ceux qui souhaitent en savoir plus sur le sujet plus large.)

Avec l'introduction de ces améliorations back-end, lorsque les producteurs mettent à jour les ensembles de données, le pipeline de traitement des données analyse chaque mise à jour et alerte le service d'assistance du GBIF s'il détecte un nombre anormalement élevé d'identifiants modifiés. Le personnel peut ensuite examiner les données et travailler avec les producteurs de données pour confirmer si les modifications sont intentionnelles ou non. Le personnel du Secrétariat surveillera et affinera le seuil de déclenchement de ce processus au fil du temps.

Les producteurs de données modifient généralement les ID d'occurrence GBIF pour l'une des trois raisons suivantes :

  1. Mises à jour administratives reflétant les décisions politiques, telles que l'adoption de nouveaux identifiants (par exemple CETAF Stable Identifiers) ou de nouveaux modèles (par exemple institutionCode : collectionCode : catalogNumber), l'introduction du cryptage du site Web (par exemple http > https) ou des modifications du nom ou conditionnement des jeux de données.
  2. Erreurs involontaires causées par inadvertance dans les coulisses par des mises à jour logicielles, des scripts défectueux ou d'autres problèmes techniques.
  3. Manque de sensibilisation que l'introduction de modifications généralisées ou fréquentes des ID d'occurrence peut avoir des conséquences en aval pour les autres utilisateurs.

Dans le cas du premier exemple, le service d'assistance du GBIF dispose désormais d'un flux de travail permettant aux producteurs de données de coordonner les modifications administratives, de détecter les erreurs accidentelles et de préserver la provenance et la cohérence des enregistrements individuels sans créer de nouveaux identifiants d'occurrence.

 

« Le maintien de la stabilité des gbifID est essentiel pour renforcer la confiance dans la recherche et les systèmes dont elle dépend », a déclaré David Shorthouse, développeur de Bionomia, un environnement de conservation ouvert permettant de relier et de créditer les enregistrements de spécimens d'histoire naturelle aux experts qui ont collecté et identifié leur. « Toute amélioration de la durabilité et de la persistance des gbifID apporte plus de stabilité à Bionomia, plus de confiance dans les liens que nos bénévoles établissent et un plus grand potentiel pour effectuer des flux de travail aller-retour afin de réintégrer les améliorations numériques dans les systèmes de gestion des collections et d'autres magasins de données locaux. »

 

«Des identifiants d'occurrence stables sont une condition préalable pour faire correspondre les citations matérielles dans les publications aux occurrences et ainsi étendre l'accès et la connaissance d'une occurrence » a déclaré Donat Agosti, président du participant GBIF et producteur de données Plazi. « Ces correspondances constituent la première étape vers la révélation d'occurrences cachées dans les publications et la mise en relation des spécimens des collections d'histoire naturelle avec les traitements taxonomiques de leurs bibliothèques - un sujet brûlant actuellement soutenu par le projet BiCIKL financé par l'UE , les universités suisses et le Fond Arcadia. »

 

Avec ces changements en place, le GBIF va maintenant commencer à développer des outils qui surveillent la stabilité des identifiants d'occurrence par institution et par pays et aident les utilisateurs de données à évaluer si les identifiants répondent à leurs besoins.

 

Nymphe d'un papillon jaune des graminées à trois points (Eurema blanda subsp. arsakia), observée sur l'île de Taïwan. Photo 2022 via les données d'occurrence de la teigne de Taiwan collectées à partir du réseau social, sous licence CC BY 4.0.

 

Lire l'article original

Revenir en haut