Accueil > Formation > Supports de cours > Méthodologie > Recueil de données pour une petite étude

Recueil de données pour une petite étude

Mots-clés : datamanagement, logiciel tableur, qualité des données, recueil de données, tableau de données

Informations sur l'article (auteurs, licence)

Rédaction : le lundi 7 décembre 2020, par DEGOUL Samuel

Se connecter pour modifier l'article (droit réservé à ses auteurs et aux webmesters)

Licence : CC BY-SA 4.0 (voir le contenu)

1 - Contexte

Le recueil de données de santé à but de recherche est particulièrement visé dans cet article, même si les conseils techniques concernant la création d’un tableau de données ont une portée assez générique et peuvent être appliquées pour des études non cliniques.

Il faut donc bien avoir compris :

ce qu’est une donnée de santé : voir le site de la CNIL à ce propos,
la réglementation relative à la recherche clinique : cf. le cours s’y rapportant dans cet article.

Un des principes fondamentaux est qu’on ne peut recueillir que les données justifiées par l’étude.

Ce recueil de données doit être autorisé :

étude prospective, de type RIPH (loi Jardé) : accord d’un CPP, déclaration à la CNIL,
étude rétrospective : déclaration à la CNIL (ou déclaration de conformité à une norme « méthode de référence »).

2 - Réglementation, sécurité des données

2.1 - Données recueillies

2.1.1 - Anonymisation

C’est une condition indispensable.

Ainsi, il convient :

de ne mettre aucune donnée directement nominative dans le recueil principal des données : nom, prénom, n° de sécurité sociale (NIR), adresse, date de naissance, sauf si explicitement justifiée (par ex., nécessité d’un calcul précis de l’âge à partir de la date de naissance),
de limiter les informations indirectement nominatives (par recoupement). Par ex., un acte chirurgical rare, un établissement de soin et une date opératoire indiquent potentiellement un unique patient.

Pourtant, il faut conserver une correspondance entre les données recueillies et l’identité des sujets, ne serait-ce que pour permettre un contrôle de la qualité du recueil. Pour ce faire, la méthode de référence est d’établir une liste de correspondance entre identité et n° d’anonymat, conservée au sein de l’établissement de santé où s’effectue la recherche. Dans le recueil de données ne doit apparaître que le n° d’anonymat.

Cas des identifiants internes à l’établissement, c’est-à-dire n° IPP (patient) ou IEP (séjour) : leur utilisation comme n° d’anonymat est normalement proscrite car ils sont directement nominatifs.
Néanmoins, ils peuvent parfois être un bon compromis pour les « petites » études internes type mémoire d’étudiant :

établissement d’un fichier de correspondance pérenne et fiable non possible car l’étudiant gère à peu près seul son travail et n’a qu’un accès à l’établissement limité dans le temps (pas de classeur investigateur). Ces identifiants sont fiables dans le temps (à condition d’utiliser le copier-coller pour éviter toute erreur de saisie !),
faible risque lié à la rupture d’anonymat : vis-à-vis d’un tiers externe à l’établissement, qui n’a pas accès à son système d’information (SI), ces numéros remplissent leur fonction d’identifiant anonyme ; un personnel de l’établissement peut rompre facilement l’anonymat, mais ce n’est souvent pas un problème dans la mesure où il a déjà accès à l’information source (dossier patient) via son accès au SI,
enfin, ils permettent de faire la jointure avec d’éventuels exports automatiques de données du dossier patient informatisé. Bien sûr, dans la mesure du possible, cette fusion devrait être réalisée en interne, puis le tableau de données devrait être anonymisé.

2.1.2 - Conformité au protocole

C’est simple : seules les données nécessaires et suffisantes pour répondre aux objectifs fixés doivent être recueillies.

Donc il faut avoir fait à l’avance un protocole a minima avec des objectifs et critères de jugements définis précisément.

2.2 - Support de stockage

2.2.1 - Recueil primaire : CRF

Les données recueillies pour la recherche doivent pouvoir être vérifiables, c’est-à-dire se baser sur des données dites « sources » présentes dans le dossier médical du patient, qu’il soit papier ou électronique.

Ce recueil se fait via un CRF, et les données qu’ils contient sont considérées comme la référence pour la suite de la recherche (analyses). Il s’agit de formulaire(s) sous forme :

papier,
électronique (eCRF), système dédié à la recherche clinique et agréé pour l’hébergement de données de santé. C’est très rare de pouvoir en disposer pour une « petite » étude. Il est par contre interdit d’utiliser un système générique de recueil, tels Google Form, SurveyMonkey...

Les CRF ne sortent jamais de l’établissement de la recherche

À partir du CRF, les données doivent être agrégées sous forme tabulaire pour pouvoir être analysées (fichier tableur). Ce travail est manuel dans le cas d’un CRF papier, automatique dans le cas d’un eCRF.

NB : pour les plus geeks (mais alors très geeks), le logiciel libre SDAPS permet d’importer quasi-automatiquement des données saisies sur formulaire papier.

2.2.2 - Tableau de données

2.2.2.1 - Fichier informatique local

Procédures de sécurité :

au mieux : la réglementation prévoit que les données restent dans l’établissement où se déroule la recherche et n’en sortent jamais (seuls les résultats anonymisés peuvent en sortir, pour publication), donc que le fichier reste dans son SI,
en pratique, et là encore pour les « petites » études d’étudiants qui sont obligés de travailler chez eux sur leur ordinateur personnel, il est obligatoire de protéger les données recueillies :
- a minima bloquer l’accès au fichier par un mot de passe (fonctionnalité du logiciel tableur),
- au mieux utiliser une méthode de chiffrement fort du(des) fichier(s). On citera par ex. le logiciel libre Veracrypt (limites : on ne peut l’utiliser que sur son ordinateur, où l’on dispose de droits administrateur).

2.2.2.2 - Fichier distant

Dans le cas de données de santé, il est interdit d’utiliser un système cloud générique tels Google Drive, iCloud...

Il est nécessaire de disposer d’un hébergement agréé pour données de santé. Autant dire que c’est le plus souvent inacessible pour les « petites » études.

2.3 - Sauvegarde

La réglementation exige une pérennité des données contenues dans les CRF (15 ans). C’est à l’établissement responsable de la recherche de s’en charger (archivage des CRF papier, sauvegardes informatiques...).

Concernant le tableau de données, une bonne gestion du processus de sauvegarde permet d’éviter les pertes d’information et de s’épargner du travail.
Les principes sont simples :

supports distincts et distants : sauvegarder sur un ordinateur portable et un clé USB, c’est bien, mais si la clé USB est dans la sacoche de l’ordinateur et que le tout est volé, c’est très bête !
sauvegarde régulière : se rendre compte, quand on a perdu un fichier, que la dernière sauvegarde remonte à six mois, c’est aussi très bête !
gestion de version : écraser un nouveau fichier avec un ancien fichier, c’est là encore très bête !

Tous ces exemples « très bêtes » font légion parmi les expériences de thésards. On n’y pense généralement que trop tard.

Exemple de gestion :

renommage des fichiers avec la date à chaque édition (au format AA-MM-JJ : classement automatique des fichiers dans le bon ordre, contrairement à JJ-MM-AA où le fichier 05-11-20 se placera entre le 01-03-20 et le 23-01-20),
à chaque édition, copier systématiquement le fichier sur un autre support de stockage,
sauvegarde externe toutes les semaines, dont un ordinateur de l’établissement de recherche si possible,
...

Une mesure d’hygiène numérique : apprendre à installer des backups automatisés ! Voir une liste ici, par ex. FreeFileSync.

3 - Faire un tableau de données

L’objectif est de disposer de données propres pour effectuer les analyses statistiques.

Il s’agit en général d’un fichier tableur. Il convient d’utiliser un format de fichier standard et ouvert pour faciliter l’échange d’informations entre plusieurs intervenants et assurer leur pérennité :

format XLSX : logiciel Microsoft Excel ≥ 2007, mais LibreOffice convient bien aussi,
format ODS, à préférer car vrai standard ouvert : logiciels LibreOffice, OpenOffice...
Voir cet article pour en savoir plus sur les formats de fichiers.

3.1 - La règle des « 1 »

3.1.1 - 1 feuille = 1 tableau

D’une façon générale, les logiciels de statistiques attendent des tableaux « à plat », à deux entrées, avec un nombre de colonnes identiques pour toutes les lignes. L’import des informations d’une feuille de calcul vers ces logiciels sera donc facilité si elle ne contient qu’un seul tableau, et rien d’autre.
S’il est nécessaire d’enregistrer des informations non contenues dans le tableau de données, comme des listes de choix prédéfinis, des résultats de calculs (par ex., somme ou moyenne des colonnes), des graphiques..., les disposer dans une autre feuille du fichier.

Éviter autant que possible de scinder les données en plusieurs tableaux. Ceci n’est justifié que dans de rares cas où un ensemble de variables données est enregistré de façon répétitive pour chaque sujets d’étude. Par ex., si l’étude prévoit le recueil de détails concernant des traitements pris par un patient, avec nom de molécule, posologie, date de début..., avec un nombre indéfini de traitements par patient, il serait judicieux de créer un 2^e tableau (sur une 2^e feuille) et enregistrer un traitement par ligne, avec une colonne contenant l’identifiant patient pour faire le lien avec le tableau principal.
Par contre, scinder un tableau juste pour différencier des groupes de patients (avec les mêmes variables) est contre-productif. Par ex., au lieu de faire un tableau pour les patients traités et un autre pour les témoins, tout enregistrer dans un seul et unique tableau et indiquer le groupe (« traité » / « contrôle ») par une variable (colonne).

3.1.2 - 1 ligne = 1 individu

On entend « individu statistique ». Il s’agit en général d’un patient, mais pas toujours. Ainsi, dans l’exemple ci-dessus du 2^e tableau pour enregistrer les traitements d’un patient, l’invidu est ici, pour ce tableau précis, le traitement.

Un numéro d’identification, souvent dans la 1^ere colonne, doit permettre de désigner un individu de manière unique, et peut servir à « faire le pont » avec les données d’un autre tableau. Il s’agit généralement du n° d’anonymat (cf. ci-dessus), suite arithmétique simple ou n° d’identification d’une source externe.

1^ere ligne
Une exception, la(les) première(s) ligne(s), qui doit(vent) servir pour désigner les noms de variables.

3.1.3 - 1 colonne = 1 variable

Tout est dit : une colonne doit servir au recueil d’un seule variable, prévue dans le protocole.

Question à choix multiples
Une question à choix multiples cache en fait plusieurs variables binaires. Il est en effet souvent peu opportun d’entrer plusieurs valeurs dans une cellule.
Ainsi, à la question « cochez le(les) médicament(s) en cours (parmi ces 5 propositions) » correspondra à cinq variables binaires : Traitement1 « oui » / « non », Traitement2 « oui » / « non », ... Traitement5 « oui » / « non »

Ainsi, ne pas laisser de ligne ou colonne vide juste à but « esthétique », pour séparer des groupes, aérer la présentation... Les fonctions de formatage (dimensions des lignes et colonnes, couleurs...) sont là pour ça !

3.1.4 - 1 cellule = 1 valeur

Valeur = contenu textuel

Les valeurs correspondent au texte (caractères) saisis et nullement à autre chose ; ainsi, l’information apporté par la couleur d’une cellule ne sera pas prise en compte au moment des analyses.

Exceptions : plusieurs valeurs dans une cellule
Dans de rares cas, ceci peut être nécessaire quand le nombre de réponses choisies à une question à choix multiples ne peut être connu à l’avance. Par ex., la liste de germes trouvés dans une hémoculture ne peut être modélisée par :

un certain nombre de variables tel Germe1, Germe2, Germe3 : combien faire de colonnes ? Quid si un seul patient a 4 germes ? De plus, comment attribuer les germes aux colonnes, c’est-à-dire quelle signification des n° d’ordre « 1 », « 2 », « 3 » ?
une variable binaire par germe possible : une liste exhaustive créable à l’avance est-elle vraiment possible (et raisonnable) ?

La création de nouvelle variable au fur et à mesure du recueil des données est déconseillée, car source d’erreur.
Dans ce cas, une solution est de saisir une liste de bactéries séparées car un caractère dédié, qu’on ne risque pas de retrouver dans les noms de bactéries eux-mêmes, comme un caractère de ponctuation.

NB : pour des listes de phrases pouvant contenir de la ponctuation, le caractère « | » (AltGr + 6) fait généralement très bien l’affaire car quasiment jamais utilisé par ailleurs.

Juste avoir conscience que dans ce cas, il faudra une étape de datamanagement un peu spécialisé pour extraire l’information.

3.2 - Construire les variables

3.2.1 - Choisir des noms de variables

3.2.1.1 - Unique

Chaque nom doit identifier une variable d’une manière unique. Aucune colonne ne doit avoir le même nom.

3.2.1.2 - Concis et parlant

Se limiter aux mots clés décrivant la variable, sans les déterminants de liaison.

Compromis entre trop concis, donc peu compréhensible, et trop verbeux.

3.2.1.3 - Bien formaté

Les noms de variable doivent être compatibles avec les logiciels de traitement statistique. Il est ainsi préférable de suivre des conventions de nommage courantes en informatique :

seulement des caractères alphanumériques et le caractère « _ » (underscore). Un chiffre ne doit pas se trouver en première position.
caractères interdits : lettres accentuées, caractères de ponctuation, espace, opérateurs mathématiques (dont le « - »), caractères spéciaux.

Exemples incorrects :

nom	ce qui ne va pas
date admission	présence d’une espace
date_d’admission	apostrophe
date-admission	signe « - » = soustraction mathématique
1date	chiffre en première position

Deux options pour marquer la séparation des mots clés, afin d’améliorer la lisibilité :

première lettre de chaque mot en majuscule : par ex., DateAdmission, LeucocytesJ0. Dans ce cas, on veillera à mettre une majuscule aussi aux variables ne contenant qu’un seul mot, pour plus de cohérence (ex. : Poids, Age),
caractère « _ » : par ex., date_admission, leucocytes_J0. Les variables ne contenant qu’un mot resteront alors en lettres minuscules (ex. : poids, age).

Éviter :

ce qui ralentit la frappe, rendant la saisie pénible lors des analyses : tout en majuscules (ex. DATE_ADMISSION), combinaisons des deux techniques de séparation des mots (ex. Date_Admission). Une majuscule est en effet plus longue à saisir qu’une minuscule, donc l’éviter si elle n’est pas justifiée par la séparation des mots ou pour indiquer des sigles (par ex., HTA est OK),
ce qui diminue la lisibilité, notamment des mots collés sans changement de casse (ex. dateadmission ou DATEADMISSION).

Si les noms de variable (entête de colonne) occupent la 1^ere ligne du tableau, ne pas se priver d’utiliser quelques autres lignes pour expliciter ces variables (signification, valeurs attendues...), en prenant garde de ne pas les importer dans le logiciel d’analyses statistiques à la fin. On peut même envisager d’utiliser la 2^e ligne pour les noms de variable et d’indiquer des groupes de variables dans la 1^ere (notamment cellules fusionnées colorées).

3.2.2 - Type de valeur

Règle absolue : le type de valeur (numérique, date, texte...) doit être constant pour toutes les cellules d’une variable donnée.

Par ex., pour recueillir la date d’un examen, on ne mélange pas des dates avec du texte comme commentaire (tel « examen non réalisé »). Si l’on veut enregistrer l’information « examen réalisé oui/non », deux possibilités : soit une absence de date est considérée comme l’équivalent d’un examen non réalisé, soit on ajoute une variable binaire dédiée.

3.2.2.1 - Numérique

Généralement utilisé pour représenter une variable quantitative, mais aussi pour une variable catégorielle dont les modalités sont codées par un nombre (ex. variable binaire : « 1 » pour « oui », « 0 » pour « non »).

Un croyance assez répandue voudrait qu’il faut privilégier un encodage numérique des modalités d’une variable catégorielle plutôt que la saisie des modalités elles-mêmes. C’est assez souvent faux ! Cf. ci-dessous

Concernant les nombres décimaux, le format doit être homogène dans tout le fichier : il faut choisir un fois pour toutes le séparateur de décimale « . » (anglo-saxon) ou « , » (francophone). Régler pour cela la langue du fichier.

3.2.2.2 - Date

Là encore, le format doit être homogène dans le fichier. On pourra utiliser le format « YYYY/MM/JJ » ou « JJ/MM/YYYY » (francophone).
Éviter le format anglo-saxon « MM/JJ/YYYY », auquel on n’est pas habitué et qui est donc associé à un risque d’erreur de saisie par confusion entre jour et mois.

3.2.2.3 - Catégoriel

Il s’agit d’une variable qualitative dont les réponses possibles sont toutes connues à l’avance.

Sauf si le codage numérique des modalités est évident, comme dans le cas d’une variable binaire, on lui préfèrera généralement la saisie de valeurs explicites, c-à-d une valeur textuelle, avec possibilité de caractère accentué (contrairement aux noms de variable), mais plutôt concise. Ex., une variable Transfert pourra recevoir une valeur « domicile » plutôt que « sortie vers le domicile ».

Concernant l’encodage numérique des modalités :

avantage : saisie plus rapide... et c’est tout,
inconvénients, non négligeables :
- risque d’erreur de saisie si oubli de la signification du code,
- lecture plus difficile,
- variable considérée par défaut comme numérique lors des analyses statistiques. Or des opérations mathématiques sur ces valeurs numériques n’ont aucun sens.

Par ex., variable Sexe avec des valeurs « 1 » / « 2 », ou, pire, « 0 » / « 1 » : la signification de ces codes n’est pas évidente.

La notation d’une valeur donnée doit être strictement homogène au sein d’une variable, au caractère près, y compris la casse et une éventuelle espace surnuméraire avant ou après un mot (invisible).

Ainsi :

"une valeur" ≠ " une valeur" ≠ "une valeur ",
"Une valeur" ≠ "une valeur".

3.2.2.4 - Binaire

Cas particulier du type catégoriel, destiné à recevoir une valeur positive ou négative, on pourra saisir des modalités « oui »/« non », « vrai »/« faux » ou tout simplement le code « 1 »/« 0 », très explicite et beaucoup plus rapide à saisir.

3.2.2.5 - Texte libre

Concerne généralement une variable qui ne sera pas analysée, car inexploitable, mais dont la présence est utile dans le tableau de données à d’autres fins. Par ex. :

commentaires,
n° d’identification des individus : une valeur différente pour chaque sujet, donc pas de modalité prédéfinie, et pas de calcul associé à cette variable (même s’il s’agit d’un nombre).

3.2.2.6 - Valeur manquante

C’est le type de valeur qui concerne tous les tableaux de données, même si le recueil tente de les limiter au maximum.

Deux possibilités de gestion :

utilisation d’une ou plusieurs valeur(s) exclusivement dédiée(s) à cette fin dans le tableau. Il peut s’agir de « NA » (= non applicable), « ND » (non défini), « NC » (non connu)...
- avantage : explicitation possible de la raison du caractère manquant d’une valeur, pour, éventuellement, aider une complétion itérative du tableau : on ne cherchera qu’à compléter les « NC », les « NA » étant expliqués par le contexte du sujet et donc « normaux »,
- inconvénient : principalement une limitation des possibilités de contrôle de saisie (cf. infra), surtout pour les variables numériques.
case vide : acceptable dans la mesure où le pourquoi du caractère manquant d’une valeur n’est pas pris en compte par le logiciel d’analyses statistiques, et a plutôt sa place dans le CRF.
- avantages : saisie plus rapide (= aucune saisie) et contrôle de saisie plus facile à configurer,
- inconvénients : perte d’information concernant la raison d’une valeur manquante (mais qui peut être remplacée par une couleur de cellule, ou, surtout, explicitée dans le CRF) et risque de saisie inaperçue d’espace. Se souvenir en effet que les valeurs " " (espace) et "" (vide) sont différentes !

Quelque soit la technique choisie, elle doit être homogène dans tout le tableau.

3.2.3 - Contrôle de saisie

C’est la fonctionnalité des logiciels tableur qui permet d’avoir des données propres.

Il s’agit de préciser les valeurs qu’il y est possible de saisir pour toutes les variables, à l’exception de celles au format texte libre, pour n’accepter que des valeurs cohérentes.

Selon le type de variable :

numérique : en général, bornes d’acceptabilité (valeurs minimale et maximale). Ceci est aussi à appliquer pour les variables binaires codées « 1 »/« 0 », pour lesquelles les conditions seront : nombre entier, minimum = 0, maximum = 1,
date : bornes également,
catégoriel : définir une liste exhaustive des modalités possibles, de préférence dans une plage de cellule présente dans une autres feuille. Ceci permettra aussi de faciliter la saisie, en proposant une liste déroulante des valeurs possibles (même si la saisie directe peut parfois être plus rapide si les modalités contiennent très peu de lettres, comme « M »/« F » pour le sexe).

Se référer au tutoriel du logiciel tableur, ici pour LibreOffice, ici pour Excel.

3.3 - Configurer l’affichage du tableau

Quelques trucs qui rendent un tableau de données plus agréable :

« fixer » les 1^ere colonne et ligne, permettant d’avoir toujours en vue la variable et le n° du sujet concernés par la valeur en cours de saisie (si ce n° se trouve bien dans la 1^ere colonne). Voir les tutoriels : ici pour Libreoffice, ici pour Excel,
couleurs de lignes alternées, permettant d’éviter de se tromper de ligne lors de la saisie ou la lecture. Voir les tutoriels : ici pour LibreOffice, ici pour Excel.

4 - Exemples de tableau de recueil

Audit sur l’antibioprophylaxie au bloc opératoire du GHRMSA. Le CRF est disponible dans l’article (NB : on remarquera qu’il ne s’agit pas d’un vrai CRF, mais plutôt d’un document source, nominatif).
- Les n° d’anonymat sont une suite arithmétique simple et peuvent donc être anticipés.
- Des listes de valeurs possibles pour certaines variables catégorielles se trouvent en feuille 2.
  
  Format ODS
  
  Format XLSX

Étude rétrospective (tableau partiel). Particularités :
- protection par mot de passe (= TttRendBoite),
- « vrais » noms de variables dans la 3^e ligne, qui est masquée, les deux premières lignes étant destinées à les expliciter pour faciliter la saisie,
- n° patient pas vraiment anonyme = IPP, justifié par le besoin d’un croisement avec des données biologiques extraites automatiquement du dossier patient informatisé,
- manque une coloration alternée des lignes.
  
  Format ODS
  
  Format XLSX