Auteurs : Emmanuel Côtez, Sonja Laubscher & Christophe Reveillard
Identifiant : https://doi.org/10.5852/adansonia2023v45a13_s3
Pagination : 600 p.
Circonstances
Afin de « fixer » les données de l’herbier DP, tout en pérennisant le travail d’informatisation accompli par Sonja, nous avons décidé de publier, avec l’article sur l’herbier de Daniel Pellé paru dans la revue Adansonia, un catalogue complet des planches et des métadonnées qui les accomagnent (ce catalogue correspond à l’Annexe de l’article et est directement téléchargeable via le DOI https://doi.org/10.5852/adansonia2023v45a13_s3.
Historique
La transformation des données de l’herbier DP en publication scientifique – via des techniques éditoriales de conversion – a permis la génération automatique de ce catalogue. La publication quelques années plus tôt, dans la revue Geodiversitas, d’un catalogue des radiolaires du Paléozoïque (voir Caridroit et al. 2017 et aussi O’Dogherty et al. 2009a, b et O’Dogherty et al. 2021 dans le section Bibliographie) m’avait déjà donné une première expérience pratique dans ce domaine.
Génération du catalogue
La première étape pour générer ce catalogue a consisté à récupérer les données de l’herbier dans un format exploitable. Le système de gestion de contenu Drupal, qui animait la seconde version du site mon-herbier, nous a ainsi permis d’exporter les données au format CSV (pour Comma Separated Values).
Une fois l’ordre des champs déterminé, les données sont importées dans le catalogue via un « modèle » InDesign ; les données du fichier CSV sont lues et les champs du modèle substitués pour générer toutes les pages du catalogue. Voici le modèle utilisé :
D’un côté, l’ensemble des champs insérés dans le fichier InDesign du catalogue sont stylés (application d’un style de caractère sur chaque champ), ce qui les rend facilement manipulables via des scripts ou des expressions régulières (GREP).
De l’autre, le fichier CSV source contient les colonnes suivantes (certaines ne sont pas utilisées dans le catalogue, comme l’URL des planches par exemple, qui est généré à la volée depuis un script directement dans InDesign) :
La procédure suivante a ensuite permis de générer le catalogue :
– export des données au format « texte unicode » ;
– import dans le fichier de modèle InDesign ;
– génération du catalogue en utilisant la fusion de données d’InDesign ;
– lancement des scripts de récolte et de traitement des données à partir de l’API de l’INPN (occurrences « CD_NOM ») ;
– application de « rechercher/remplacer » basés sur les expressions régulières (GREP, Tournier 2020) ; nettoyage du texte ; remplacements systématiques (format des dates, suppression des données vides) ;
– lissage et complétion de l’entrée manuellement ; factorisation et regroupement des enregistrements (plusieurs planches correspondant aux mêmes métadonnées) : ajout des liens vers la flore Bonnier en ligne et des références à la flore de Coste. Voici le résultat final correspondant à une entrée entièrement traitée (planche DP0252) :
La majeure partie de la mise en forme est donc entièrement automatisée ; 41 requêtes différentes ont été appliquées au catalogue pour nettoyer les données qui, étant structurées très précisément, sont facilement reconnaissables. Les scripts suivants, écrits en Javascript sous InDesign, ont ensuite été « passés » sur le catalogue :
– extraction de données via l’API fournie par l’INPN (nom actuel des taxons, auteurs des genres, statut de protection [UICN 2012]), etc.) ;
– insertion de liens vers la flore Bonnier en ligne, vers les identifiants Tela Botanica ou TaxREF ;
– insertion des références vers la Flore de Coste ;
– ajout de liens vers les spécimens de l’Herbier P et vers les fichiers de l’herbier DP en ligne (sur Zenodo) ;
– coordonnées géographiques cliquables.
Une fois ces opérations effectuées, nous disposons d’un jeu de fichiers PDF comprenant toutes les informations sur l’herbier et les métadonnées complètes des planches. Les liens vers les planches chargées en ligne sur les sites Zenodo et Récolnat (en attente de chargement à ce jour) permettent d’accéder à une version des planches dans la meilleure définition de numérisation possible, accompagnées de leurs métadonnées. Le catalogue étant aujourd’hui publié, les données de l’herbier DP sont donc sauvegardées pour d’éventuelles études ultérieures.
Le catalogue complet des planches de l’herbier de Daniel Pellé (herbier DP) peut être téléchargé librement ici : https://doi.org/10.5852/adansonia2023v45a13_s3.