Transformer des données format “humain” en format “ordinateur”

Page de documentation va s’articuler en deux temps :

  1. Comprendre les enjeux de cette standardisation (théorie)
  2. Comment mener à bien cette standardisation

Récupération des données

La première étape consiste donc à déterminer sur quelles sources s’appuyer = s’appuyer sur le cahier des charges

Les données dans l’état actuel des choses ne pas ou peu exploitables pour de nombreuses raisons dont deux principales : - Les tableaux sont créés de façon à être interprété par un humain (et non par une machine). Exemple : [inserer image]

  • Les tableaux produits utilisent des structures ou des écritures variant les unes des autres. Exemple : [inserer image1] [inserer image2]

La première tache consiste donc à centraliser toutes ces données différentes puis de les centraliser en un seul set de données, uniforme et facilement interprétable par une machine.

Données existantes fiables

Rendus évaluation HCERES Rapports produits par le DSR Données externes au service (ScanR) DOBS ?

Note

Au fur-et-à-mesure de votre processus de centralisation, vous constaterez que certaines informations peuvent manquer (ponctuellement ou largement). Celles-ci pourront être complétées à postériori via l’utilisation d’Oméka S (modules) ou en solicitant directement les enseignants chercheurs et les laboratoires par divers moyens (campagne de mailing, formulaires, …)

Préparer les données pour Oméka S

Utilisation d’un classeur “tableur” contenant deux feuilles, chacun avec une orientation de lecture différente : une première version orientée humain ; une seconde version orientée machine.

Intitulé Dictionnaire Définition Encodage Source
dcterms:title Dublin Core Ici, combinaison “prénom+nom” servant à nommer l’objet dans la BDD. Texte brute (str)
foaf:givenName FoaF Prénom de l’enseignant-chercheur. Texte brute (str) researchers_Erua → “first_name”
foaf:familyName FoaF Nom de famille de l’enseignant-chercheur. Texte brute (str) researchers_Erua → “surname_name”
foaf:birthday FoaF Date de naissance de l’enseignant-chercheur. Texte brute (str) ou date ? Rapport HCERES → “Année de naissance” (nécessite tri)
curation:status Curation Statut de l’enseignant chercheur (PR, MDF, …) ID Oméka* Rapport HCERES → “Corps” (nécessite tri)
valo:orcid Dublin Core Numéro unique ORCID de l’enseignant-chercheur lorsque celui-ci est disponible. Texte brute (str)
dcterms:isPartOf Dublin Core Laboratoire auquel est rattaché l’enseignant-chercheur. ID Oméka* researchers_Erua → research_units
dcterms:hasPart Dublin Core Sous-unité du laboratoire dans lequel l’enseignant-chercheur opère. ID Oméka* Rapport HCERES → “Nom de l’équipe interne n°X” (nécessite tri)
valo:dbt_research Dict. personnalisé Date de début en tant que chercheur Texte brute (str) / date ?
valo:cnu Dict. personnalisé Code CNU affilié à l’enseignant chercheur ID Oméka*
valo:domaine_hceres Dict. personnalisé Panels disciplinaires dans lesquels le chercheur publie (selon la nomenclature du HCERES.) Texte brute (str)
valo:expertise Dict. personnalisé Expertises reconnus de l’enseignant-chercheur. Texte brute (str)
valo:dir_these Dict. personnalisé Nombre de doctorants ayant publié une thèse sous la supervision de l’enseignant-chercheur. Texte brute (str)
valo:ecole_doct Dict. personnalisé Ecoles doctorales dont l’enseignant-chercheur est membre. Texte brute (str) ou ID Oméka* ?
valo:partenariats Dict. personnalisé Identifiants des “items” de la bdd correspondant aux partenaires non-académiques avec lesquelles l’enseignant-chercheur a travaillé. ID Oméka*
foaf:mbox FoaF Boite mail professionnelle de l’enseignant-chercheur. Texte brute (str) researchers_Erua → professional_email

ID Oméka : ID unique donné à chaque item généré sur Oméka S, permettant d’effectuer des liens internes entre les objets dans la BDD.

Structuration des données liées aux laboratoires de Paris 8.

Utilisation d’un classeur “tableur” contenant deux feuilles, chacun avec une orientation de lecture différente : une première version orientée humain ; une seconde version orientée machine.

Intitulé Dictionnaire Définition Encodage Source
dcterms:title Dublin Core Nom de l’objet dans la bdd. Constitue généralement un diminutif communément utilisé. Texte brute (str) Labos_Paris8 → “Acronyme” ; Rapports HCERES
dcterms:alternative Dublin Core Nom alternatif (souvent le nom complet) du laboratoire. Texte brute (str) Labos_Paris8 → “Intitulé” ; Rapports HCERES
valo:idRNSR Dublin Core Numéro unique RNSR du laboratoire. Texte brute (str) ScanR (module Oméka S)
valo:hasAxe Dict. personnalisé Ensemble des sous-équipes d’un laboratoire ID Oméka* Rapports HCERES
valo:domaine_hceres Dict. personnalisé Panels scientifiques revendiqué par le labratoire, selon la nomenclature du HCERES. Texte brute (str)
valo:domaine_erc Dict. personnalisé Panels scientifiques revendiqué par le laboatoire, selon la nomenclature ERC Texte brute (str)
valo:obj_recherche Dict. personnalisé Objet de recherche du laboratoire. Texte brute (str) Labos_Paris8 → “Objets de la recherche”
valo:axeRech Dict. personnalisé Les axes de recherche du laboratoire. ID Oméka* Labos_Paris8 → “Axes de recherche”
valo:heywords Dict. personnalisé Mots-clés renseignés par les laboratoires dans le rendu HCERES des laboratoires. ID Oméka* ?
valo:expertise Dict. personnalisé Domaines de maitrise dont lesquels le laboratoire est reconnu. Texte brute (str)
foaf:mbox FoaF Courriel pour contacter directement le laboratoire. Texte brute (str)
valo:plateforme_txt Dict. personnalisé Plateformes déclarées par les laboratoire n’ayant pas été convertis en “item” sur Omeka S** Texte brute (str) Labos_Paris8 → “Plateformes”
valo:plateforme_internalid Dict. personnalisé Plateformes déclarées par les laboratoire ayant été convertis en “item” sur Omeka S** Texte brute (str) Labos_Paris8 → “Plateformes”
valo:ecole_doct Dict. personnalisé Ecoles doctorales dont l’enseignant-chercheur est membre. Texte brute (str) ou ID Oméka* ?
valo:dir_these Dict. personnalisé Nombre de doctorants ayant publié une thèse sous la supervision de l’enseignant-chercheur. Texte brute (str)
valo:partenariats Dict. personnalisé Partenariats de recherche avec le monde non-académique. (entrer leur ID Oméka) ID Oméka*
valo:idHAL Dict. personnalisé Identifiant unique HAL du laboratoire, permettant à postériori l’extraction des publications du laboratoire. Texte brute (str)

*ID Oméka : ID unique donné à chaque item généré sur Oméka S, permettant d’effectuer des liens internes entre les objets dans la BDD.

**Choix a été fait de convertir ou non les plateformes déclarées par les laboratoires en item en fonction de s’il s’agit d’une “entité” ou non (une chaine YouTube n’est pas une entité ; une start-up en est une).

Structuration des données liées aux partenaires non-académique déjà notés.

Utilisation d’un classeur “tableur” contenant deux feuilles, chacun avec une orientation de lecture différente : une première version orientée humain ; une seconde version orientée machine.

(La constitution de ce jeu de données est toujours en cours.)

ID Oméka : ID unique donné à chaque item généré sur Oméka S, permettant d’effectuer des liens internes entre les objets dans la BDD.

Bibliographie :

  • https://bioportal.bioontology.org/ontologies/VIVO?p=properties
  • https://www.dublincore.org/specifications/dublin-core/dcmi-terms/