Transformer des données format “humain” en format “ordinateur”
Page de documentation va s’articuler en deux temps :
- Comprendre les enjeux de cette standardisation (théorie)
- Comment mener à bien cette standardisation
Récupération des données
La première étape consiste donc à déterminer sur quelles sources s’appuyer = s’appuyer sur le cahier des charges
Les données dans l’état actuel des choses ne pas ou peu exploitables pour de nombreuses raisons dont deux principales : - Les tableaux sont créés de façon à être interprété par un humain (et non par une machine). Exemple : [inserer image]
- Les tableaux produits utilisent des structures ou des écritures variant les unes des autres. Exemple : [inserer image1] [inserer image2]
La première tache consiste donc à centraliser toutes ces données différentes puis de les centraliser en un seul set de données, uniforme et facilement interprétable par une machine.
Données existantes fiables
Rendus évaluation HCERES Rapports produits par le DSR Données externes au service (ScanR) DOBS ?
Au fur-et-à-mesure de votre processus de centralisation, vous constaterez que certaines informations peuvent manquer (ponctuellement ou largement). Celles-ci pourront être complétées à postériori via l’utilisation d’Oméka S (modules) ou en solicitant directement les enseignants chercheurs et les laboratoires par divers moyens (campagne de mailing, formulaires, …)
Préparer les données pour Oméka S
Utilisation d’un classeur “tableur” contenant deux feuilles, chacun avec une orientation de lecture différente : une première version orientée humain ; une seconde version orientée machine.
| Intitulé | Dictionnaire | Définition | Encodage | Source |
|---|---|---|---|---|
| dcterms:title | Dublin Core | Ici, combinaison “prénom+nom” servant à nommer l’objet dans la BDD. | Texte brute (str) | — |
| foaf:givenName | FoaF | Prénom de l’enseignant-chercheur. | Texte brute (str) | researchers_Erua → “first_name” |
| foaf:familyName | FoaF | Nom de famille de l’enseignant-chercheur. | Texte brute (str) | researchers_Erua → “surname_name” |
| foaf:birthday | FoaF | Date de naissance de l’enseignant-chercheur. | Texte brute (str) ou date ? | Rapport HCERES → “Année de naissance” (nécessite tri) |
| curation:status | Curation | Statut de l’enseignant chercheur (PR, MDF, …) | ID Oméka* | Rapport HCERES → “Corps” (nécessite tri) |
| valo:orcid | Dublin Core | Numéro unique ORCID de l’enseignant-chercheur lorsque celui-ci est disponible. | Texte brute (str) | — |
| dcterms:isPartOf | Dublin Core | Laboratoire auquel est rattaché l’enseignant-chercheur. | ID Oméka* | researchers_Erua → research_units |
| dcterms:hasPart | Dublin Core | Sous-unité du laboratoire dans lequel l’enseignant-chercheur opère. | ID Oméka* | Rapport HCERES → “Nom de l’équipe interne n°X” (nécessite tri) |
| valo:dbt_research | Dict. personnalisé | Date de début en tant que chercheur | Texte brute (str) / date ? | — |
| valo:cnu | Dict. personnalisé | Code CNU affilié à l’enseignant chercheur | ID Oméka* | — |
| valo:domaine_hceres | Dict. personnalisé | Panels disciplinaires dans lesquels le chercheur publie (selon la nomenclature du HCERES.) | Texte brute (str) | — |
| valo:expertise | Dict. personnalisé | Expertises reconnus de l’enseignant-chercheur. | Texte brute (str) | — |
| valo:dir_these | Dict. personnalisé | Nombre de doctorants ayant publié une thèse sous la supervision de l’enseignant-chercheur. | Texte brute (str) | — |
| valo:ecole_doct | Dict. personnalisé | Ecoles doctorales dont l’enseignant-chercheur est membre. | Texte brute (str) ou ID Oméka* ? | — |
| valo:partenariats | Dict. personnalisé | Identifiants des “items” de la bdd correspondant aux partenaires non-académiques avec lesquelles l’enseignant-chercheur a travaillé. | ID Oméka* | — |
| foaf:mbox | FoaF | Boite mail professionnelle de l’enseignant-chercheur. | Texte brute (str) | researchers_Erua → professional_email |
ID Oméka : ID unique donné à chaque item généré sur Oméka S, permettant d’effectuer des liens internes entre les objets dans la BDD.
Structuration des données liées aux laboratoires de Paris 8.
Utilisation d’un classeur “tableur” contenant deux feuilles, chacun avec une orientation de lecture différente : une première version orientée humain ; une seconde version orientée machine.
| Intitulé | Dictionnaire | Définition | Encodage | Source |
|---|---|---|---|---|
| dcterms:title | Dublin Core | Nom de l’objet dans la bdd. Constitue généralement un diminutif communément utilisé. | Texte brute (str) | Labos_Paris8 → “Acronyme” ; Rapports HCERES |
| dcterms:alternative | Dublin Core | Nom alternatif (souvent le nom complet) du laboratoire. | Texte brute (str) | Labos_Paris8 → “Intitulé” ; Rapports HCERES |
| valo:idRNSR | Dublin Core | Numéro unique RNSR du laboratoire. | Texte brute (str) | ScanR (module Oméka S) |
| valo:hasAxe | Dict. personnalisé | Ensemble des sous-équipes d’un laboratoire | ID Oméka* | Rapports HCERES |
| valo:domaine_hceres | Dict. personnalisé | Panels scientifiques revendiqué par le labratoire, selon la nomenclature du HCERES. | Texte brute (str) | — |
| valo:domaine_erc | Dict. personnalisé | Panels scientifiques revendiqué par le laboatoire, selon la nomenclature ERC | Texte brute (str) | — |
| valo:obj_recherche | Dict. personnalisé | Objet de recherche du laboratoire. | Texte brute (str) | Labos_Paris8 → “Objets de la recherche” |
| valo:axeRech | Dict. personnalisé | Les axes de recherche du laboratoire. | ID Oméka* | Labos_Paris8 → “Axes de recherche” |
| valo:heywords | Dict. personnalisé | Mots-clés renseignés par les laboratoires dans le rendu HCERES des laboratoires. | ID Oméka* ? | — |
| valo:expertise | Dict. personnalisé | Domaines de maitrise dont lesquels le laboratoire est reconnu. | Texte brute (str) | — |
| foaf:mbox | FoaF | Courriel pour contacter directement le laboratoire. | Texte brute (str) | — |
| valo:plateforme_txt | Dict. personnalisé | Plateformes déclarées par les laboratoire n’ayant pas été convertis en “item” sur Omeka S** | Texte brute (str) | Labos_Paris8 → “Plateformes” |
| valo:plateforme_internalid | Dict. personnalisé | Plateformes déclarées par les laboratoire ayant été convertis en “item” sur Omeka S** | Texte brute (str) | Labos_Paris8 → “Plateformes” |
| valo:ecole_doct | Dict. personnalisé | Ecoles doctorales dont l’enseignant-chercheur est membre. | Texte brute (str) ou ID Oméka* ? | — |
| valo:dir_these | Dict. personnalisé | Nombre de doctorants ayant publié une thèse sous la supervision de l’enseignant-chercheur. | Texte brute (str) | — |
| valo:partenariats | Dict. personnalisé | Partenariats de recherche avec le monde non-académique. (entrer leur ID Oméka) | ID Oméka* | — |
| valo:idHAL | Dict. personnalisé | Identifiant unique HAL du laboratoire, permettant à postériori l’extraction des publications du laboratoire. | Texte brute (str) | — |
*ID Oméka : ID unique donné à chaque item généré sur Oméka S, permettant d’effectuer des liens internes entre les objets dans la BDD.
**Choix a été fait de convertir ou non les plateformes déclarées par les laboratoires en item en fonction de s’il s’agit d’une “entité” ou non (une chaine YouTube n’est pas une entité ; une start-up en est une).
Structuration des données liées aux partenaires non-académique déjà notés.
Utilisation d’un classeur “tableur” contenant deux feuilles, chacun avec une orientation de lecture différente : une première version orientée humain ; une seconde version orientée machine.
(La constitution de ce jeu de données est toujours en cours.)
ID Oméka : ID unique donné à chaque item généré sur Oméka S, permettant d’effectuer des liens internes entre les objets dans la BDD.
Bibliographie :
- https://bioportal.bioontology.org/ontologies/VIVO?p=properties
- https://www.dublincore.org/specifications/dublin-core/dcmi-terms/