Accueil > Formation > Supports de cours > Méthodologie > Recueil de données pour une petite étude
Mots-clés : datamanagement, logiciel tableur, qualité des données, recueil de données, tableau de données
Informations sur l'article (auteurs, licence)
Rédaction : le lundi 7 décembre 2020, par
Se connecter pour modifier l'article (droit réservé à ses auteurs et aux webmesters)
Licence : CC BY-SA 4.0 (voir le contenu)
Le recueil de données de santé à but de recherche est particulièrement visé dans cet article, même si les conseils techniques concernant la création d’un tableau de données ont une portée assez générique et peuvent être appliquées pour des études non cliniques.
Il faut donc bien avoir compris :
Un des principes fondamentaux est qu’on ne peut recueillir que les données justifiées par l’étude.
Ce recueil de données doit être autorisé :
C’est une condition indispensable.
Ainsi, il convient :
Pourtant, il faut conserver une correspondance entre les données recueillies et l’identité des sujets, ne serait-ce que pour permettre un contrôle de la qualité du recueil. Pour ce faire, la méthode de référence est d’établir une liste de correspondance entre identité et n° d’anonymat, conservée au sein de l’établissement de santé où s’effectue la recherche. Dans le recueil de données ne doit apparaître que le n° d’anonymat.
Cas des identifiants internes à l’établissement, c’est-à-dire n° IPP (patient) ou IEP (séjour) : leur utilisation comme n° d’anonymat est normalement proscrite car ils sont directement nominatifs.
Néanmoins, ils peuvent parfois être un bon compromis pour les « petites » études internes type mémoire d’étudiant :
C’est simple : seules les données nécessaires et suffisantes pour répondre aux objectifs fixés doivent être recueillies.
Donc il faut avoir fait à l’avance un protocole a minima avec des objectifs et critères de jugements définis précisément.
Les données recueillies pour la recherche doivent pouvoir être vérifiables, c’est-à-dire se baser sur des données dites « sources » présentes dans le dossier médical du patient, qu’il soit papier ou électronique.
Ce recueil se fait via un CRF, et les données qu’ils contient sont considérées comme la référence pour la suite de la recherche (analyses). Il s’agit de formulaire(s) sous forme :
Les CRF ne sortent jamais de l’établissement de la recherche
À partir du CRF, les données doivent être agrégées sous forme tabulaire pour pouvoir être analysées (fichier tableur). Ce travail est manuel dans le cas d’un CRF papier, automatique dans le cas d’un eCRF.
NB : pour les plus geeks (mais alors très geeks), le logiciel libre SDAPS permet d’importer quasi-automatiquement des données saisies sur formulaire papier.
Procédures de sécurité :
Dans le cas de données de santé, il est interdit d’utiliser un système cloud générique tels Google Drive, iCloud...
Il est nécessaire de disposer d’un hébergement agréé pour données de santé. Autant dire que c’est le plus souvent inacessible pour les « petites » études.
La réglementation exige une pérennité des données contenues dans les CRF (15 ans). C’est à l’établissement responsable de la recherche de s’en charger (archivage des CRF papier, sauvegardes informatiques...).
Concernant le tableau de données, une bonne gestion du processus de sauvegarde permet d’éviter les pertes d’information et de s’épargner du travail.
Les principes sont simples :
Tous ces exemples « très bêtes » font légion parmi les expériences de thésards. On n’y pense généralement que trop tard.
Exemple de gestion :
Une mesure d’hygiène numérique : apprendre à installer des backups automatisés ! Voir une liste ici, par ex. FreeFileSync.
L’objectif est de disposer de données propres pour effectuer les analyses statistiques.
Il s’agit en général d’un fichier tableur. Il convient d’utiliser un format de fichier standard et ouvert pour faciliter l’échange d’informations entre plusieurs intervenants et assurer leur pérennité :
D’une façon générale, les logiciels de statistiques attendent des tableaux « à plat », à deux entrées, avec un nombre de colonnes identiques pour toutes les lignes. L’import des informations d’une feuille de calcul vers ces logiciels sera donc facilité si elle ne contient qu’un seul tableau, et rien d’autre.
S’il est nécessaire d’enregistrer des informations non contenues dans le tableau de données, comme des listes de choix prédéfinis, des résultats de calculs (par ex., somme ou moyenne des colonnes), des graphiques..., les disposer dans une autre feuille du fichier.
Éviter autant que possible de scinder les données en plusieurs tableaux. Ceci n’est justifié que dans de rares cas où un ensemble de variables données est enregistré de façon répétitive pour chaque sujets d’étude. Par ex., si l’étude prévoit le recueil de détails concernant des traitements pris par un patient, avec nom de molécule, posologie, date de début..., avec un nombre indéfini de traitements par patient, il serait judicieux de créer un 2e tableau (sur une 2e feuille) et enregistrer un traitement par ligne, avec une colonne contenant l’identifiant patient pour faire le lien avec le tableau principal.
Par contre, scinder un tableau juste pour différencier des groupes de patients (avec les mêmes variables) est contre-productif. Par ex., au lieu de faire un tableau pour les patients traités et un autre pour les témoins, tout enregistrer dans un seul et unique tableau et indiquer le groupe (« traité » / « contrôle ») par une variable (colonne).
On entend « individu statistique ». Il s’agit en général d’un patient, mais pas toujours. Ainsi, dans l’exemple ci-dessus du 2e tableau pour enregistrer les traitements d’un patient, l’invidu est ici, pour ce tableau précis, le traitement.
Un numéro d’identification, souvent dans la 1ere colonne, doit permettre de désigner un individu de manière unique, et peut servir à « faire le pont » avec les données d’un autre tableau. Il s’agit généralement du n° d’anonymat (cf. ci-dessus), suite arithmétique simple ou n° d’identification d’une source externe.
1ere ligne
Une exception, la(les) première(s) ligne(s), qui doit(vent) servir pour désigner les noms de variables.
Tout est dit : une colonne doit servir au recueil d’un seule variable, prévue dans le protocole.
Question à choix multiples
Une question à choix multiples cache en fait plusieurs variables binaires. Il est en effet souvent peu opportun d’entrer plusieurs valeurs dans une cellule.
Ainsi, à la question « cochez le(les) médicament(s) en cours (parmi ces 5 propositions) » correspondra à cinq variables binaires : Traitement1 « oui » / « non », Traitement2 « oui » / « non », ... Traitement5 « oui » / « non »
Ainsi, ne pas laisser de ligne ou colonne vide juste à but « esthétique », pour séparer des groupes, aérer la présentation... Les fonctions de formatage (dimensions des lignes et colonnes, couleurs...) sont là pour ça !
Valeur = contenu textuel
Les valeurs correspondent au texte (caractères) saisis et nullement à autre chose ; ainsi, l’information apporté par la couleur d’une cellule ne sera pas prise en compte au moment des analyses.
Exceptions : plusieurs valeurs dans une cellule
Dans de rares cas, ceci peut être nécessaire quand le nombre de réponses choisies à une question à choix multiples ne peut être connu à l’avance. Par ex., la liste de germes trouvés dans une hémoculture ne peut être modélisée par :
La création de nouvelle variable au fur et à mesure du recueil des données est déconseillée, car source d’erreur.
Dans ce cas, une solution est de saisir une liste de bactéries séparées car un caractère dédié, qu’on ne risque pas de retrouver dans les noms de bactéries eux-mêmes, comme un caractère de ponctuation.
NB : pour des listes de phrases pouvant contenir de la ponctuation, le caractère « | » (AltGr + 6) fait généralement très bien l’affaire car quasiment jamais utilisé par ailleurs.
Juste avoir conscience que dans ce cas, il faudra une étape de datamanagement un peu spécialisé pour extraire l’information.
Chaque nom doit identifier une variable d’une manière unique. Aucune colonne ne doit avoir le même nom.
Se limiter aux mots clés décrivant la variable, sans les déterminants de liaison.
Compromis entre trop concis, donc peu compréhensible, et trop verbeux.
Les noms de variable doivent être compatibles avec les logiciels de traitement statistique. Il est ainsi préférable de suivre des conventions de nommage courantes en informatique :
Exemples incorrects :
nom | ce qui ne va pas |
---|---|
date admission | présence d’une espace |
date_d’admission | apostrophe |
date-admission | signe « - » = soustraction mathématique |
1date | chiffre en première position |
Deux options pour marquer la séparation des mots clés, afin d’améliorer la lisibilité :
Éviter :
Si les noms de variable (entête de colonne) occupent la 1ere ligne du tableau, ne pas se priver d’utiliser quelques autres lignes pour expliciter ces variables (signification, valeurs attendues...), en prenant garde de ne pas les importer dans le logiciel d’analyses statistiques à la fin. On peut même envisager d’utiliser la 2e ligne pour les noms de variable et d’indiquer des groupes de variables dans la 1ere (notamment cellules fusionnées colorées).
Règle absolue : le type de valeur (numérique, date, texte...) doit être constant pour toutes les cellules d’une variable donnée.
Par ex., pour recueillir la date d’un examen, on ne mélange pas des dates avec du texte comme commentaire (tel « examen non réalisé »). Si l’on veut enregistrer l’information « examen réalisé oui/non », deux possibilités : soit une absence de date est considérée comme l’équivalent d’un examen non réalisé, soit on ajoute une variable binaire dédiée.
Généralement utilisé pour représenter une variable quantitative, mais aussi pour une variable catégorielle dont les modalités sont codées par un nombre (ex. variable binaire : « 1 » pour « oui », « 0 » pour « non »).
Un croyance assez répandue voudrait qu’il faut privilégier un encodage numérique des modalités d’une variable catégorielle plutôt que la saisie des modalités elles-mêmes. C’est assez souvent faux ! Cf. ci-dessous
Concernant les nombres décimaux, le format doit être homogène dans tout le fichier : il faut choisir un fois pour toutes le séparateur de décimale « . » (anglo-saxon) ou « , » (francophone). Régler pour cela la langue du fichier.
Là encore, le format doit être homogène dans le fichier. On pourra utiliser le format « YYYY/MM/JJ » ou « JJ/MM/YYYY » (francophone).
Éviter le format anglo-saxon « MM/JJ/YYYY », auquel on n’est pas habitué et qui est donc associé à un risque d’erreur de saisie par confusion entre jour et mois.
Il s’agit d’une variable qualitative dont les réponses possibles sont toutes connues à l’avance.
Sauf si le codage numérique des modalités est évident, comme dans le cas d’une variable binaire, on lui préfèrera généralement la saisie de valeurs explicites, c-à-d une valeur textuelle, avec possibilité de caractère accentué (contrairement aux noms de variable), mais plutôt concise. Ex., une variable Transfert pourra recevoir une valeur « domicile » plutôt que « sortie vers le domicile ».
Concernant l’encodage numérique des modalités :
Par ex., variable Sexe avec des valeurs « 1 » / « 2 », ou, pire, « 0 » / « 1 » : la signification de ces codes n’est pas évidente.
La notation d’une valeur donnée doit être strictement homogène au sein d’une variable, au caractère près, y compris la casse et une éventuelle espace surnuméraire avant ou après un mot (invisible).
Ainsi :
Cas particulier du type catégoriel, destiné à recevoir une valeur positive ou négative, on pourra saisir des modalités « oui »/« non », « vrai »/« faux » ou tout simplement le code « 1 »/« 0 », très explicite et beaucoup plus rapide à saisir.
Concerne généralement une variable qui ne sera pas analysée, car inexploitable, mais dont la présence est utile dans le tableau de données à d’autres fins. Par ex. :
C’est le type de valeur qui concerne tous les tableaux de données, même si le recueil tente de les limiter au maximum.
Deux possibilités de gestion :
Quelque soit la technique choisie, elle doit être homogène dans tout le tableau.
C’est la fonctionnalité des logiciels tableur qui permet d’avoir des données propres.
Il s’agit de préciser les valeurs qu’il y est possible de saisir pour toutes les variables, à l’exception de celles au format texte libre, pour n’accepter que des valeurs cohérentes.
Selon le type de variable :
Se référer au tutoriel du logiciel tableur, ici pour LibreOffice, ici pour Excel.
Quelques trucs qui rendent un tableau de données plus agréable :