Lundi 07 Octobre 2024

Validation

Grâce au nouveau validateur de données du GBIF, les éditeurs de données peuvent améliorer la qualité de leurs jeux de données : le logiciel identifie les problèmes potentiels avant la phase de publication, permettant ainsi à l'utilisateur de les corriger.

L'équipe informatique du Secrétariat du GBIF a développé une version «early release» du service avec pour objectif de l'améliorer, en grande partie grâce au retours des utilisateurs. Le service effectue les mêmes contrôles que ceux effectués après la publication des jeux de données sur le GBIF.org. Cela permet de signaler des erreurs avant la publication.
C'est également le premier outil permettant d'interpréter et de valider le contenu d'un jeu de données ainsi que sa structure.

Les utilisateurs qui chargent un jeu de données (en utilisant un des formats acceptés) dans le validateur reçoivent rapidement un rapport.
Celui-ci interprète le jeu de données et met en évidence les problèmes potentiels concernant son contenu, sa syntaxe et sa structure.
Les types de fichiers pris en charge incluent :
    - les archives Darwin Core (DwC-A)
    - les modèles de jeux de données GBIF standard
    - les fichiers CSV simples qui contiennent des termes Darwin Core dans leur première rangée.

Ceux qui souhaitent valider de grands jeux de données peuvent également soumettre des URL de jeux de données.

Le temps de traitement varie en fonction de la taille du jeu de données. Toutefois, étant donné que chaque nouveau processus de validation génère un identifiant unique de travail, les utilisateurs disposant de grands jeux de données, ou limités dans le temps, peuvent mettre en "marque-page" l'URL de leur rapport et y revenir plus tard.

Chaque rapport de validation contient:

    - un résumé rapide du jeu de données qui indique si le GBIF.org peut indexer le fichier avec succès ou non
    - un aperçu des problèmes d'interprétation du GBIF pour le jeu de données
    - un résumé détaillé de tous les problèmes rencontrés avec les métadonnées, le coeur du jeu de données et ses extensions
    - le nombre d'enregistrements interprétés avec succès
    - la fréquence des termes utilisés dans le jeu de données
    
Les utilisateurs du validateur de données peuvent également voir comment leurs métadonnées apparaîtront une fois celle-ci publiées sur le GBIF.org.

Les utilisateurs, dont les rapports de validation permettent d'identifier les problèmes bloquants liés à l'indexation de leurs jeux de données, peuvent se concentrer sur la résolution de ceux-ci avant de procéder à la publication.
Dans le même temps, les utilisateurs dont les jeux de données ont été validés peuvent examiner attentivement d'autres problèmes moins graves ou des erreurs de conversion et ainsi améliorer encore la qualité de leurs données.
Tous les utilisateurs sont encouragés à envoyer des jeux de données dans le validateur, que les erreurs qu'ils souhaitent détecter soient importantes, systématiques ou uniques.

Comme tous les outils GBIF, le validateur de données est un logiciel open-source, avec son code source et sa documentation disponibles dans le dossier GitHub du projet.

Cliquez sur les liens suivants pour en savoir plus sur le validateur de données ou, mieux encore, comment mettre l'outil à disposition. Les retours des utilisateurs seront à la fois bienvenus et essentiels pour affiner ce service et aider les éditeurs de données à résoudre les problèmes potentiels avec leurs jeux de données, de manière rapide et efficace.

 

Plus d'informations ici (en anglais)

 

Hachemort à la tête de la mort (Acherontia atropos) avec des abeilles mellifères (Apis melifera). Photo de blingbeek via des observations d'iNaturalist Research sous licence CC BY-NC 4.0.

Le Conseil d'Administration du GBIF, réuni à New Delhi la semaine dernière à l'occasion du 21° Governing Board, a décidé de mettre en pratique de nouvelles recommandations concernant la validation et les licences des données publiées via le réseau GBIF.

Ces décisions ont été élaborées grâce aux réponses reçues lors des consultations sur ces sujets (licences - validation) lancées au printemps 2014.

En ce qui concerne les licences de données, il est désormais vivement recommandé que les jeux de données d'occurrences d'espèces soient associés à des licences digitales équivalentes aux licences ci-dessous, proposées par Creative Commons :

- CCO, qui permet la réutilisation des données sans restriction,

- CC-BY, qui permet la réutilisation des données avec citation de la source,

- CC-BY-NC, qui permet la réutilisation des données pour un usage non commercial, avec citation de la source.

L'attribution et la citation des données sera de plus facilitée par l'adoption de DOI (Digital Objects Identifiers) pour tous les jeux de données.

En ce qui concerne la validation des institutions et jeux de données, le GBIF maintient le processus actuel, auquel deux améliorations ont été ajoutées :

- Le Secrétariat du GBIF, en collaboration avec la communauté GBIF, va proposer des critères pour aider les points nodaux à évaluer les fournisseurs de données potentiels durant le processus de validation,

- Dans les cas où un éventuel fournisseur de données est d'un pays qui ne participe pas encore au réseau GBIF, le Nodes Steering Group va élaborer des procédures pour sa validation avec des critères similaires.

Plus d'informations (en anglais) sur cette page.

Revenir en haut