La préparation des données

Une fois la réception des questionnaires effectuée, il faut récupérer les données, les intégrer dans des bases de données et en contrôler la qualité.
Les données des 2 premiers questionnaires ont été saisies par lecture optique, celles du 3ème à la main, par une société de prestation, et à partir du 4ème questionnaire, nous avons adopté la méthode de Lecture Automatique des Documents (LAD).

1. Le traitement des premiers questionnaires : saisie par scanner optique

Les premiers questionnaires ont été lus par un scanner optique : le principe étant de transformer une case noircie au crayon en une donnée informatisée. Le rythme de lecture du scanner était de 1 600 pages par heure. Pour scanner les données de 100 000 questionnaires de 2 pages, il fallait une personne à temps plein pendant 1 mois. La rigueur du scanner optique présente de grands avantages mais aussi l'inconvénient de rejeter toute feuille où une erreur est détectée, par exemple deux cases noircies au lieu d'une. Afin de corriger les erreurs de lecture du scanner optique, toutes les réponses étaient vérifiées sur papier. Les feuilles étaient ainsi revues et corrigées une à une. Le rythme de cette vérification était très lent.

Les 3 premiers questionnaires ont été triés manuellement, par numéro d'identification, afin de pouvoir les retrouver.

2. La Lecture Automatique des Documents (LAD)

La Lecture Automatique de Documents (LAD) est un ensemble de technologies qui permet de segmenter et d'extraire, par reconnaissance optique de caractères, des informations textuelles sur des documents numérisés. Les informations ainsi extraites sont alors utilisées comme métadonnées dans un système de GED (Gestion Electronique de Documents). Nous avons acquis un logiciel de LAD en 1995 : le logiciel SIAD de la société SWT. En 2000, grâce aux progrès informatiques, nous avons migré notre système SIAD vers le logiciel ICR suite PRO, et nos bases de données sous SQL serveur 7.

Après l'envoi d'un questionnaire à l'ensemble des femmes de la cohorte E3N, voilà les différentes étapes de traitement des questionnaires :

- les codes-barres des questionnaires reçus en réponse sont passés au stylo optique (ou douchés). Cela permet d'organiser les relances au plus vite.
- les questionnaires sont triés selon nos besoins en fonction de nos études (cancer, maladies cardio-vasculaires...)
- les questionnaires sont conditionnés par lots en vue d'être scannés
- les questionnaires sont scannés, à raison de 600 questionnaires de 2 pages par heure
- après la procédure de reconnaissance automatique, il faut vérifier les informations ainsi recueillies. Le vidéo-codage des réponses permet de visualiser à l'écran, et, éventuellement, de corriger les informations mal reconnues par le logiciel de LAD.

La LAD nous a permis de gagner beaucoup de temps dans le traitement et l'archivage des questionnaires. En effet, nous avons évité le tri manuel des questionnaires papier, raccourci le temps de saisie des données, et au final, obtenu des données plus précises.

3. Un nouveau système de GED : Documentum

En 2009, nous avons acquis 2 nouvelles plateformes de la société EMC : Input Accel pour le logiciel de LAD et Documentum pour la GED.

Documentum est l'infrastructure qui nous permet de gérer le contenu de l'étude, les auto-questionnaires, les informations manuscrites qui les accompagnent (souvent sous forme de petits mots), les comptes-rendus anatopathologiques des tumeurs et tous les autres documents médicaux disponibles. Documentum permet également d'enregistrer des fichiers électroniques ou d'autres sources de données et de les transformer en informations numériques transférables à des systèmes back-end (SAS) directement exploitables pour des analyses statistiques.

Cette nouvelle infrastructure nous aide à réduire considérablement la saisie manuelle des données, tout en limitant les erreurs de traitement, en améliorant la précision des données et en augmentant la productivité. Enfin, elle nous permet de chercher rapidement les documents électroniques.

4. Le contrôle de la qualité des données et leur validation

Tout descriptif statistique nécessite au préalable une vérification des données enregistrées.

Pour que les données soient exploitables, il faut que le pourcentage de réponses manquantes soit faible et que la cohérence intra-questionnaire des réponses soit respectée. Le sérieux des volontaires E3N établit le taux de réponse à chaque questionnaire au niveau très satisfaisant de 85%.

Les comparaisons avec les statistiques nationales sont nécessaires pour crédibiliser les données E3N par rapport à des groupes de référence. A titre d'exemple, la répartition par groupe sanguin des volontaires E3N est très similaire à celle que fournit le Centre National de Transfusion Sanguine.

Comme les données reposent sur l'auto-déclaration des volontaires, certains éléments, notamment ceux qui concernent leur santé, doivent être validés. Dès qu'une pathologie est auto-déclarée, l'équipe E3N se procure les documents histologiques nécessaires à sa confirmation, grâce à l'aide des médecins (de ville, des hôpitaux, des centres anti-cancéreux, des laboratoires d'anatomie pathologique).

Depuis janvier 2004, en accord avec la Cnil, la MGEN nous transmet les données sur les médicaments remboursés à chacune des volontaires E3N. Ainsi, le nom des médicaments prescrits et leur date de délivrance sont connus. Il est important de souligner qu’il y a une très bonne concordance entre les données auto-déclarées et celles de la base de remboursement de la MGEN.