Conseils de traitement et de gestion des données Enroll-HD

Une brève introduction à la manipulation et à la gestion des données Enroll-HD (ne remplace pas la lecture de la documentation de l'ensemble de données – mais un bon point de départ !)

Introduction

Enroll-HD est une plateforme d'étude observationnelle et de recherche clinique qui a débuté en 2012 et qui a recruté environ 24 000 participants sur environ 160 sites sur quatre continents du monde. Il est conçu pour faire progresser notre compréhension de la MH, améliorer et soutenir la conception et la conduite d'essais cliniques, et améliorer les soins cliniques pour les patients MH.

Les données de l'étude Enroll-HD sont mises à la disposition des chercheurs vérifiés pour analyse via le site Web Enroll-HD de deux manières : des ensembles de données périodiques (PDS) et des ensembles de données spécifiés (SPS). Les ensembles de données périodiques sont des coupes horodatées de l'ensemble de données cliniques Enroll-HD préparées tous les 1 à 2 ans et incluent la grande majorité des variables collectées (certaines variables sont supprimées, agrégées ou transformées pour minimiser le risque d'identification des participants). Chaque participant de l'ensemble de données a effectué une visite de référence et la plupart disposent de données longitudinales provenant de visites de suivi annuelles. L'accès au PDS Enroll-HD est simple et rapide. Tous les détails sont fournis sur le Page d'accès.

Les versions Enroll-HD PDS contiennent onze ensembles de données distincts, dont certains sont basés sur les participants tandis que d'autres sont basés sur les visites. Les ensembles de données basés sur les participants comportent une ligne (ou observation) pour chaque participant et incluent des données démographiques qui ne sont pas spécifiques à une visite. En revanche, les ensembles de données basés sur les visites contiennent des données collectées à chaque visite et comportent plusieurs lignes pour les participants ayant effectué plusieurs visites. Par exemple, le sexe d'un participant et la durée du CAG (c.-à-d. caghaut) sont inclus dans un ensemble de données basé sur les participants sur une seule ligne (comme dans le tableau 1), tandis que le score moteur total (c'est-à-dire score de mots) fait partie d'un ensemble de données basé sur les visites avec une ligne pour chaque visite de participant (comme dans le tableau 2). En général, une ligne dans le PDS correspond à un participant (ou une visite pour un participant) et une colonne correspond à une variable, telle que sexe, caghaut, ou score de mots. Prière de se référer à Explorer la structure de l'ensemble de données pour des informations plus détaillées sur la structure de l’ensemble de données.


Gestion des ensembles de données Enroll-HD

Il est important de comprendre la structure de l'ensemble de données afin que les données puissent être combinées correctement pour l'analyse. Deux variables clés sont utilisées pour combiner les données ; l'identifiant du participant (c'est-à-dire, subjid), qui est unique et relie ses données entre les ensembles de données basés sur les participants et les visites (Tableaux 1 et 2), et le nombre de jours de l'étude (c'est-à-dire visdy), qui est utilisé dans les ensembles de données basés sur les visites (Tableau 2) et a une valeur de zéro lors de la visite de référence et le nombre de jours écoulés depuis lors des visites ultérieures (par exemple, une valeur de 370 représente 370 jours après la première visite). La combinaison de subjid et visdy est nécessaire pour fusionner les données.


Tableau 1.
Exemple de données basées sur les participants

subjid

sexe

caghaut

1

F

39

2

m

44

3

F

18

 

Tableau 2. Exemple de données basées sur les visites

subjid

visdy

score de mots

1

0

8

1

370

9

2

0

14

2

345

17

3

0

1

 

La fusion consiste à intégrer les données d'un ensemble de données dans un autre (ajout de colonnes) et est nécessaire lorsque les données à analyser se trouvent dans plusieurs ensembles de données. Le nombre de lignes est généralement le même que celui du plus grand des ensembles de données d'origine. Par exemple, la plupart des analyses nécessitent à la fois des données démographiques et cliniques, mais celles-ci sont contenues dans deux ensembles de données différents (profil et inscrire respectivement). L'ensemble de données d'analyse peut être obtenu en fusionnant les ensembles de données démographiques et cliniques en subjid et visdy. Le tableau 3 montre le résultat après fusion du tableau 1 et du tableau 2.


Tableau 3.
Résultat après fusion des ensembles de données basés sur les participants et les visites

subjid

sexe

caghaut

visdy

score de mots

1

F

39

0

8

1

F

39

370

9

2

m

44

0

14

2

m

44

345

17

3

F

18

0

1

Le sous-ensemble est une autre technique importante dans la gestion des ensembles de données, qui consiste à filtrer un ensemble de données pour inclure uniquement les participants qui répondent à un certain critère (suppression de lignes). Après avoir sous-défini, le nombre de lignes dans le nouvel ensemble de données est inférieur à celui de l'ensemble de données d'origine. Par exemple, certaines analyses peuvent se concentrer sur les HDGEC, ce qui nécessite de supprimer de l’ensemble de données celles sans expansion génétique. Le tableau 4 montre le résultat après sous-ensemble du tableau 3 pour les HDGEC.


Tableau 4.
Résultat après sous-ensemble de l'ensemble de données pour HDGEC

subjid

sexe

caghaut

visdy

score de mots

1

F

39

0

8

1

F

39

370

9

2

m

44

0

14

2

m

44

345

17

Une troisième technique de gestion des ensembles de données consiste à créer des variables dérivées, qui sont définies par une fonction ou un regroupement en termes d'autres variables. Une catégorie de variables dérivées est un score total ; de nombreux scores totaux sont inclus dans les PDS, notamment score de mots et les mesures fonctionnelles TFC (c.-à-d. score tfc) et le SAF (c.-à-d. fascore). Une deuxième catégorie de variables dérivées est un score composite, qui est souvent créé pour être utilisé dans ou comme résultat d'une analyse. Le score CAP (décrit dans d'autres articles de cette série ; Warner et al. 2020) est généré à l'aide de âge et caghaut. L'indice pronostique (Long et al. 2017) utilise âge, caghaut, et score de mots ainsi qu'une mesure cognitive, le test des modalités des chiffres-symboles (c'est-à-dire sdmt1). L'UHDRS composite (cUHDRS ; Schobel et al. 2017) est calculé à partir de score de mots, score tfc, et sdmt1 plus une mesure cognitive différente, le test de lecture de mots Stroop (c.-à-d. swrt1). Ces scores composites sont importants pour comprendre la progression de la MH.


Enroll-HD Données manquantes

Les valeurs de données manquantes sont inévitables dans les grandes études observationnelles, et deux grandes catégories de données manquantes sont pertinentes pour les publications PDS : défini par le système données manquantes (indiquées par des valeurs de variables vides), et défini par l'utilisateur données manquantes (indiquées par des codes spécifiques indiquant la raison de l'absence). Les données manquantes définies par l'utilisateur se produisent lorsqu'un champ de variable obligatoire, tel que déterminé par le système EDC, n'est pas rempli, ou lorsque la valeur saisie dans l'EDC est connue pour être erronée. Le PDS fournit des informations supplémentaires sur quatre raisons possibles pour les données manquantes définies par l'utilisateur ; la valeur des données est connue pour être « fausse » ou très douteuse, ce qui peut être dû à une erreur d'administration ou d'instrumentation ; l'élément est « sans objet », ce qui est le cas lorsque le participant ne peut pas y répondre ou ne s'applique pas en raison de certaines circonstances ; une « valeur manquante » résultant soit du refus du participant de partager, soit de l'omission accidentelle des données ; les données sont « inconnues » du participant et/ou de l'administrateur (ne s'applique qu'à des champs de variables spécifiques). Les codes de valeurs manquantes pour ces quatre raisons sont présentés dans le tableau 5. 


Tableau 5.
Codes valeur manquants

Valeur manquante

Faux

N'est pas applicable

Manquant

Inconnu

Valeurs numériques

9996

9997

9998

9999

Valeurs de texte

FAUX

NOTAPPL

MANQUANT

INCONNU


Documents justificatifs Enroll-HD

Prise en charge des données Enroll-HD Documentation comprend la documentation générale de l'étude (par exemple, le protocole d'étude, le dictionnaire de données, les CRF annotés), les guides du système de codage et les documents spécifiques aux ensembles de données, y compris de nouvelles orientations sur la façon de comprendre et d'interpréter les données. Ces documents aideront les chercheurs dans leurs analyses, et nous encourageons tous les utilisateurs à consulter cette documentation avant leur analyse de données.


Les références

Landwehrmeyer BG, Fitzer-Attas CJ, Giuliano JD et al. Analyse des données de Enroll-HD, une plateforme mondiale de recherche clinique sur la maladie de Huntington. Pratique clinique des troubles du mouvement 2016 ; 4 : 212-24.

Warner JH, Long JD, Mills JA, Langbehn DR, Ware JJ, Mohan A et Sampaio C. Standardisation du score CAP dans la maladie de Huntington I : Prédire l'âge d'apparition. 2020.

Long JD, Langbehn DR, Tabrizi SJ et al. Validation d'un indice pronostique de la maladie de Huntington. Mouvement Désordre 2017;32(2):256-263.

Schobel SA, Palermo G, Auinger P et al. Les déclins moteurs, cognitifs et fonctionnels contribuent à un seul facteur progressif de la MH précoce. Neurologie 2017;89(24):2495-2502.

fr_FRFR

Plateforme de Recherche Clinique

Enroll-HD est une plateforme de recherche clinique et la plus grande étude observationnelle au monde sur les familles de la maladie de Huntington.

Pour les sites d'étude

À venir! Ressources opérationnelles pour les sites d’études, y compris l’accès au portail de formation.