Score automatique
MaisonMaison > Nouvelles > Score automatique

Score automatique

Jul 16, 2023

BMC Medical Research Methodology volume 22, Article number: 286 (2022) Citer cet article

1434 accès

1 Citations

1 Altmétrique

Détails des métriques

Les modèles de prédiction des risques sont des outils utiles dans la prise de décision clinique qui aident à la stratification des risques et à l'allocation des ressources et peuvent conduire à de meilleurs soins de santé pour les patients. AutoScore est un générateur automatique de scores cliniques basé sur l'apprentissage automatique pour les résultats binaires. Cette étude vise à étendre le cadre AutoScore pour fournir un outil de prédiction du risque interprétable pour les résultats ordinaux.

Le cadre AutoScore-Ordinal est généré à l'aide des 6 mêmes modules de l'algorithme AutoScore original, y compris le classement des variables, la transformation des variables, la dérivation du score (à partir de modèles de cotes proportionnelles), la sélection du modèle, l'ajustement du score et l'évaluation du modèle. Pour illustrer la performance AutoScore-Ordinal, la méthode a été menée sur les données des dossiers de santé électroniques du service des urgences de l'hôpital général de Singapour de 2008 à 2017. Le modèle a été entraîné sur 70 % des données, validé sur 10 % et testé sur les autres. 20 %.

Cette étude a inclus 445 989 cas de patients hospitalisés, où la distribution du résultat ordinal était de 80,7 % en vie sans réadmission dans les 30 jours, 12,5 % en vie avec une réadmission dans les 30 jours et 6,8 % sont décédés en hospitalisation ou au jour 30 après la sortie. Deux modèles de prédiction du risque basés sur des points ont été développés à l'aide de deux ensembles de 8 variables prédictives identifiées par la procédure de sélection flexible des variables. Les deux modèles ont indiqué des performances raisonnablement bonnes mesurées par l'aire moyenne sous la courbe caractéristique de fonctionnement du récepteur (0,758 et 0,793) et l'indice c généralisé (0,737 et 0,760), qui étaient comparables à d'autres modèles.

AutoScore-Ordinal fournit un cadre automatisé et facile à utiliser pour le développement et la validation de modèles de prédiction des risques pour les résultats ordinaux, qui peuvent systématiquement identifier les prédicteurs potentiels à partir de données de grande dimension.

Rapports d'examen par les pairs

Les modèles de prédiction des risques sont des équations mathématiques qui aident les cliniciens à estimer la probabilité d'un résultat médical, compte tenu des données des patients. Ces modèles comprennent des scores en points entiers qui peuvent être utilisés pour prédire qu'une maladie est présente (modèles de diagnostic) ou qu'un résultat spécifique se produira (modèles de pronostic), en fonction de la question clinique. Une combinaison de plusieurs prédicteurs (différents poids pour différents prédicteurs) est incluse dans un modèle multivariable pour calculer un score de risque [1,2,3]. Certains modèles de prédiction du risque ont été utilisés dans des contextes cliniques de routine, notamment le score de risque de Framingham [4], les règles de la cheville d'Ottawa [5], l'indice pronostique de Nottingham [6], le modèle de Gail [7], l'Euro-SCORE [8], le modèle modifié Early Warning Score (MEWS) [9, 10] et Simplified Acute Physiology Score [11].

L'utilisation des technologies de l'information sur la santé, en particulier les dossiers de santé électroniques (DSE), a augmenté au cours de la dernière décennie, ce qui offre des possibilités de recherche sur les mégadonnées. Les données du DSE comprennent des informations détaillées sur les patients et des variables de résultats cliniques qui peuvent constituer une source de données unique pour le développement de modèles de risque [12, 13]. La disponibilité d'un grand nombre de variables dans les données du DSE pourrait être un défi mathématique lors de l'utilisation d'une analyse de régression traditionnelle pour construire un modèle de risque. L'apprentissage automatique (ML), en tant qu'approche alternative, applique des algorithmes mathématiques pour gérer ces mégadonnées, ce qui donne lieu à de nouveaux modèles de prédiction des risques. Les approches traditionnelles de sélection de variables (telles que l'élimination en amont, la sélection en aval, la sélection par étapes à l'aide de règles d'arrêt prédéfinies) peuvent entraîner différents sous-ensembles de variables dans le contexte des données du DSE, et les connaissances cliniques peuvent ne pas toujours être disponibles dans certains domaines cliniques. De puissantes techniques de sélection de caractéristiques sont disponibles pour l'apprentissage supervisé, qui est un aspect très critique dans le développement de modèles de risque lorsque l'on travaille avec des données de DSE [13, 14].

AutoScore [15] est un générateur de score clinique automatique basé sur l'apprentissage automatique, facile à utiliser, qui développe des modèles de notation clinique interprétables. Dans une expérience empirique utilisant des données de DSE, AutoScore a généré des modèles de notation qui ont atteint des performances prédictives comparables à celles de plusieurs méthodes conventionnelles de développement de modèles de risque, mais en utilisant moins de variables [15]. L'avantage du cadre AutoScore est la combinaison d'une sélection de variables efficace à l'aide de techniques ML et de l'accessibilité et de l'interprétabilité de modèles de régression simples. Il peut être facilement utilisé dans différents contextes cliniques et son applicabilité a été démontrée avec un grand nombre de variables (données DSE, par exemple) [15]. Certaines études récentes ont utilisé ce cadre pour développer un modèle de prédiction des risques dans divers domaines cliniques [16, 17, 18, 19, 20].

La plupart des modèles de prédiction des risques dans la littérature ont été développés à l'aide de modèles de régression logistique multivariable ou de techniques de ML pour prédire un résultat binaire. Outre le cadre AutoScore, les applications ML incluent l'utilisation de Naive Bayes (NB), XGBoost, k-plus proche voisin (K-NN), perceptron multicouche, support vector machine (SVM) et CatBoost pour prédire le risque de maladie cardiovasculaire [21 ], forêt aléatoire (RF), XGBoost, régression logistique, SVM et K-NN pour le risque de rétinopathie diabétique incidente chez les patients atteints de diabète sucré de type 2 [22], un modèle de prédiction du risque d'AVC utilisant les modèles NB, arbre décisionnel et RF [ 23], un modèle de prédiction du risque d'infarctus cérébral basé sur XGBoost [24] et un modèle de risque développé pour la mortalité à 90 jours des patients subissant une résection d'un cancer gastrique à visée curative en utilisant une méthode de régression logistique élastique régularisée validée croisée, une régression linéaire amplifiée, une RF et un modèle d'ensemble [25].

De nombreuses variables de résultats ordinaux cliniques existent et elles sont souvent dichotomisées (favorables et défavorables) ou réduites à des catégories non ordonnées pour plus de simplicité, par exemple, dans une étude transversale du triage aux urgences [26] et une étude de cohorte rétrospective sur le cancer de l'ovaire malades [27]. Néanmoins, il ne faut pas ignorer qu'une telle re-catégorisation entraîne une perte d'informations cliniquement et statistiquement pertinentes, ce qui peut également entraîner des difficultés chez les patients borderline (cas qui peuvent facilement être classés dans l'un ou l'autre des deux niveaux de résultat). Il convient de noter que l'analyse des variables ordinales a plus de puissance statistique par rapport aux variables binaires recatégorisées correspondantes. Cela a été illustré à la fois dans des simulations et des études empiriques dans des essais cliniques [28,29,30,31,32]. La littérature recommande également l'utilisation des résultats de l'échelle ordinale plutôt que la dichotomisation, car des tailles d'effet de traitement plus petites sont détectables via l'analyse ordinale [29, 33,34,35].

Dans la littérature, les variables de résultat ordinales sont discutées dans plusieurs domaines cliniques, où l'objectif était soit une exploration d'association, soit des prédictions. Une vaste étude internationale (incluant 26 hôpitaux de six pays) a mené une régression logistique ordinale pour étudier une variable de résultat ordinale composite (définie comme 1 = vivant, pas de longue durée de séjour [DS], pas de réadmission ; 2 = vivant, longue durée de séjour, pas de réadmission ; 3 = vivant, pas de longue durée de séjour, réadmission ; 4 = vivant, longue durée de séjour, réadmission ; 5 = décès), et la corrélation entre les différents niveaux du résultat ordinal composite au niveau hospitalier a été rapportée [36]. Des méthodes ML utilisant plusieurs biomarqueurs ont été réalisées pour développer un cadre prédictif spécifique au cancer de l'ovaire dans une étude de cohorte rétrospective de 435 patientes sur un résultat ordinal secondaire de la taille de la tumeur résiduelle (définie comme : aucune tumeur résiduelle, < 1 cm de tumeur résiduelle, ≥ 1 cm tumeur résiduelle), et la précision prédictive et l'ASC ont été discutées [27]. Des méthodes statistiques et ML ont été utilisées pour les résultats ordinaux dans la littérature, par exemple, le modèle de cotes proportionnelles (POM) dans le diagnostic de dysfonctionnement de l'oreille moyenne des nourrissons [37] et dans une étude sur la maladie coronarienne [38], le RF ordinal dans l'ovaire susmentionné. étude sur le cancer [27], perceptron multicouche avec perte ordinale dans une étude portant sur 9 sous-Reddits liés à la santé mentale et au suicide [39] et modèle de réseau neuronal convulatoire 3D avec décomposition binaire ordinale chez des patients atteints de la maladie de Parkinson [40]. Cependant, il y a un manque d'interprétabilité (où l'on peut ne pas comprendre facilement la sortie d'un tel complexe et son fonctionnement, ce qui n'est pas recommandé dans le domaine de la santé [41]) et l'accessibilité en utilisant ces approches ML, alors que le POM transparent n'est pas aussi facilement utilisé comme système de notation des risques interprétable dans la clinique pour la prise de décision en temps réel.

Il y a un manque de littérature dans le développement de modèles utilisant l'analyse ordinale qui peut être facilement appliquée aux études cliniques traitant de données complexes (EHR, par exemple). L'objectif principal de cette étude était d'étendre le cadre AutoScore original pour fournir un outil permettant de développer et de valider facilement des modèles de prédiction des risques pour les résultats ordinaux. Par conséquent, la principale contribution de l'étude actuelle n'est pas seulement l'inclusion des blocs ordinaux, mais également certaines modifications du cadre AutoScore d'origine, ce qui conduit à de nouveaux travaux méthodologiques et à des mesures de performances du modèle révisées adaptées aux résultats ordinaux. À des fins d'illustration, un modèle de prédiction des risques a été développé et validé à l'aide des données du DSE du service des urgences (en tant que données du monde réel), où le résultat ordinal comprenait trois catégories (vivant sans réadmission à l'hôpital dans les 30 jours suivant la sortie, vivant avec réadmission dans les 30 jours après la sortie et décès du patient hospitalisé ou dans les 30 jours après la sortie).

Dans cette section, nous décrivons les 6 modules constituant le cadre AutoScore-Ordinal proposé. Dans le module 1 (voir Fig. 1), les données sont d'abord divisées en un ensemble d'apprentissage pour former des modèles de prédiction, un ensemble de validation pour sélectionner des hyper-paramètres (par exemple, le nombre de variables, des valeurs seuils pour catégoriser les variables continues), et un ensemble de test pour évaluer le(s) modèle(s) final(aux) sélectionné(s). Les trois ensembles de données contiennent généralement 70 %, 10 % et 20 % de l'ensemble de données complet, respectivement. Les variables sont classées en fonction de leur importance pour une RF [42] pour la classification multiclasse (c'est-à-dire en ignorant l'ordre des catégories), formées sur l'ensemble d'apprentissage avec un nombre par défaut de 100 arbres.

Illustration visuelle du workflow AutoScore-Ordinal. Modules de surbrillance de couleur bleue modifiés à partir du cadre AutoScore d'origine [15]

Pour simplifier l'interprétation et tenir compte d'une éventuelle relation non linéaire entre les variables prédictives et le résultat, toutes les variables continues sont classées dans le module 2 (voir Fig. 1). Pour automatiser ce processus, AutoScore-Ordinal catégorise chaque variable continue en utilisant les 5e, 20e, 80e et 95e centiles (basés sur l'ensemble d'apprentissage) comme valeurs seuils, mais certains seuils peuvent être supprimé pour éviter les problèmes de parcimonie lorsque la distribution d'une variable est fortement asymétrique. Ces valeurs seuils (quelque peu arbitraires) fournissent une configuration initiale raisonnable pour le développement ultérieur des scores et peuvent être affinées par les utilisateurs dans le module 5 (voir les détails ci-dessous).

Dans le module 3 (voir Fig. 1), les poids associés aux variables sont développés à l'aide du modèle de lien cumulatif [43] avec le lien logit, également connu sous le nom de modèle de cotes proportionnelles (POM) [43, 44], qui est l'un des les modèles de régression les plus largement utilisés dans les études de résultats ordinaux et ont été intégrés à des approches d'apprentissage en profondeur pour gérer des données complexes (par exemple, des images) [45]. Soit le scalaire Y désigne le résultat ordinal avec J catégories (notées par les nombres entiers 1, …, J) et le vecteur colonne x désigne les variables (avec des variables continues facilement catégorisées dans le module 2). Le POM suppose un modèle linéaire pour le logit des probabilités cumulées associées à la j-ième catégorie ordinale, c'est-à-dire pj = P(Y ≤ j), j = 1, …, J − 1 :

Les termes scalaires θj sont des termes d'interception spécifiques à la catégorie, où θ1 < θ2 < … < θJ − 1 pour garantir pj < pk pour tout j < k. β est le vecteur des coefficients de régression correspondant aux prédicteurs. Le signe négatif devant β découle de la notation utilisée par McCullagh [43, 44], telle qu'une valeur positive de β indique une association positive entre x et Y, c'est-à-dire qu'une augmentation de x conduit à une probabilité accrue d'observer une catégorie supérieure en Y. Par conséquent, une augmentation de xTβ est toujours associée à des probabilités accrues d'observer des catégories de résultats plus élevées, ce qui nous permet de construire des scores de prédiction basés sur xTβ. Une autre approche générale pour gérer les résultats ordinaux est la décomposition binaire ordinale, mais elle modélise un résultat ordinal sous la forme de plusieurs étiquettes binaires dans des modèles séparés [46], ce qui rend difficile l'obtention d'un score commun pour le risque d'être dans chaque catégorie ordinale.

Une mise à l'échelle et un arrondi simples des valeurs β formées peuvent générer un modèle de notation couvrant des valeurs négatives et positives avec une interprétation confuse, par exemple, le score zéro arbitraire peut être interprété à tort comme aucun risque. Par conséquent, le POM est réajusté après avoir redéfini les catégories de référence dans chaque variable de sorte que tous les éléments de β soient positifs, et β est normalisé par rapport à la valeur minimale de β. Avec toutes les variables continues facilement catégorisées dans le module 2, ces coefficients normalisés peuvent être interprétés comme des scores associés à une catégorie d'une variable, appelés scores partiels. Les scores partiels (qui sont 0 pour les catégories de référence et 1 ou plus sinon) sont arrondis à des nombres entiers positifs pour simplifier le calcul des scores de prédiction finaux, qui est la somme de tous les scores partiels correspondant aux valeurs des variables pour un individu. Pour faciliter l'interprétation, tous les scores partiels sont souvent remis à l'échelle (et ensuite arrondis) de telle sorte que le score total maximum atteignable soit une valeur significative (par exemple, 100).

Pour évaluer les performances du modèle final, la prédiction du résultat Y avec J catégories est divisée en J − 1 classifications binaires de Y ≤ j vs Y > j, et l'aire moyenne sous la courbe caractéristique de fonctionnement du récepteur (AUC) à travers ces classifications binaires. classifications (appelées ci-après mAUC) est utilisée pour évaluer la performance globale pour prédire Y, qui est équivalente au c-index dichotomisé moyen pour évaluer les prédictions ordinales [47, 48]. Dans le module 4, un modèle de notation est développé en ajoutant une variable à chaque fois (sur la base du classement des variables du module 1) jusqu'à ce que toutes les variables candidates soient incluses, et l'amélioration de mAUC (évaluée sur l'ensemble de validation) avec un nombre croissant de variables est inspecté à l'aide du diagramme de parcimonie. La liste finale des variables est souvent sélectionnée lorsque l'avantage de l'ajout d'une variable est faible, où un tel petit avantage pourrait être évalué par inspection visuelle (en regardant le diagramme de parcimonie) et les connaissances cliniques (et supprimer/inclure les variables manuellement). Ensuite, les valeurs seuils des variables continues sélectionnées dans le module 4 peuvent être affinées pour une interprétation favorable dans le module 5, par exemple en utilisant des tranches d'âge de 10 ans au lieu des intervalles basés sur des quantiles arbitrairement définis. Le modèle final est évalué sur l'ensemble de test du module 6 à l'aide du mAUC et du c-index généralisé de Harrell [47, 49, 50], qui est basé sur la proportion de paires concordantes (c'est-à-dire lorsque les prédictions et les résultats observés génèrent le même classement pour la paire d'observations, y compris les rangs ex aequo) parmi toutes les paires d'observations possibles. Pour la mAUC et le c-index généralisé, une valeur de 0,5 indique une performance aléatoire et une valeur de 1 indique une performance prédictive parfaite. La mAUC et l'indice c généralisé de l'ensemble de tests sont rapportés avec l'intervalle de confiance bootstrap à 95 % corrigé du biais (IC) [51].

Pour démontrer et valider notre proposition de cadre AutoScore-Ordinal, nous l'avons appliqué dans une étude clinique conformément à la liste de contrôle pour l'évaluation de l'IA médicale [52]. Nous avons utilisé AutoScore-Ordinal pour prédire la réadmission et le décès (résultat composite) après la sortie de l'hôpital, en utilisant les données recueillies auprès des patients qui se sont rendus au service des urgences (ED) de l'hôpital général de Singapour entre 2008 et 2017 et ont ensuite été admis à l'hôpital [53, 54]. La cohorte complète comprenait des données sur 449 593 cas de présentation à l'ED. Les informations sur les données démographiques des patients, l'administration du service d'urgence, l'admission des patients hospitalisés, les tests cliniques et les signes vitaux au service d'urgence, les antécédents médicaux et les comorbidités ont été extraites du système de dossier de santé électronique de l'hôpital [16]. Nous avons exclu les patients âgés de moins de 18 ans, ce qui a donné un échantillon final de 445 989 cas hospitalisés.

Nous avons construit un résultat ordinal composite avec trois catégories : vivant sans réadmission à l'hôpital dans les 30 jours après la sortie, vivant avec réadmission dans les 30 jours après la sortie, décédé en hospitalisation ou dans les 30 jours après la sortie. Parmi les 445 989 cas, 359 961 (80,7 %) appartenaient à la première catégorie de résultats (c.-à-d. vivants sans réadmission dans les 30 jours), 55 552 (12,5 %) appartenaient à la deuxième catégorie (c.-à-d. vivants avec réadmission dans les 30 jours) et 30 476 (6,8 %) appartenaient à la troisième catégorie (c'est-à-dire qu'ils sont décédés à l'hôpital ou au 30e jour après la sortie).

Nous avons divisé au hasard l'ensemble de données (stratifié par catégories de résultats) en un ensemble d'apprentissage de 70 % (n = 312 193) cas pour entraîner des modèles, un ensemble de validation de 10 % (n = 44 599) cas pour effectuer les ajustements nécessaires du modèle pour AutoScore- Ordinal, et un ensemble de tests de 20 % (n = 89 197) cas pour évaluer les performances des modèles de prédiction finaux. Pour chaque cas, nous avons extrait la durée de séjour (LOS) de l'hospitalisation précédente (les valeurs manquantes ont été traitées comme 0 jour). Les valeurs manquantes pour les signes vitaux ou les tests cliniques ont été imputées à l'aide de la valeur médiane de l'ensemble de validation.

Nous avons comparé le modèle de prédiction construit à l'aide d'AutoScore-Ordinal avec le RF (avec 100 arbres) et le POM avec LASSO ou des techniques de sélection de variables pas à pas. Pour chaque modèle, nous avons calculé l'IC à 95 % pour mAUC et l'indice c généralisé à partir d'échantillons bootstrap de l'ensemble de test (le nombre d'échantillons bootstrap a été sélectionné à 100 à des fins de démonstration et peut être modifié dans l'algorithme AutoScore). Le c-index généralisé a été calculé sur la base du score total pour les modèles générés par AutoScore, le prédicteur linéaire excluant les termes d'interception pour POM et les catégories de résultats prédits pour RF.

Toutes les analyses ont été implémentées dans la version R 4.0.5 [55]. Notre AutoScore-Ordinal proposé est implémenté sous la forme d'un package R, disponible sur https://github.com/nliulab/AutoScore-Ordinal. POM a été implémenté en utilisant la fonction clm du package ordinal [56]. La fonction stepAIC du package MASS [57] a été utilisée pour effectuer une sélection de variables pas à pas pour POM, et la fonction ordinalNet du package ordinalNet [58] a été utilisée pour implémenter l'approche LASSO. Le RF a été implémenté en utilisant la fonction randomForest du package randomForest [59]. L'IC bootstrap corrigé du biais a été implémenté à l'aide de la fonction bca du package coxed [60]. Le c-index généralisé a été implémenté en utilisant la fonction rcorrcens du package Hmisc [61].

Les caractéristiques de la cohorte complète sont résumées dans le tableau 1. Les cas dans les 3 catégories de résultats ont montré une différence statistique dans toutes les variables, il n'est donc pas trivial de développer un modèle de prédiction clairsemé basé sur le POM.

Le diagramme de parcimonie (voir Fig. 2) suggère un modèle raisonnable des 8 premières variables : LOS ED, créatinine, heure d'embarquement ED, nombre de visites dans l'année précédente, âge, pression artérielle systolique (PAS), bicarbonate et pouls, qui a atteint un mAUC qui n'est que de 7,9 % inférieur à celui du modèle de notation utilisant les 41 variables. Nous appelons ce modèle le modèle 1. Lorsqu'ils utilisent le diagramme de parcimonie pour sélectionner des variables, les chercheurs ne sont pas limités à sélectionner consécutivement des variables dans l'ordre décroissant d'importance. Par exemple, nous avons construit un modèle alternatif (c'est-à-dire le modèle 2) avec 8 variables, où nous avons exclu la 3e variable (c'est-à-dire l'heure d'embarquement à l'urgence) du modèle 1 qui avait peu d'impact sur le mAUC, et ajouté la 14e variable (c'est-à-dire l'historique de cancer métastatique au cours des 5 dernières années, qui peuvent être facilement recueillies en interrogeant le patient ou la personne/la famille/les proches qui l'accompagne) qui a augmenté la mAUC d'environ 4 % lorsqu'elle est entrée dans le modèle de prédiction.

Graphique de parcimonie par l'aire moyenne sous la courbe (mAUC) sur l'ensemble de validation

Toutes les variables sélectionnées dans les deux modèles étaient continues, et nous avons affiné leurs valeurs seuils à l'étape de catégorisation pour améliorer l'interprétabilité. Les tableaux de notation après ajustement fin ont été présentés dans le tableau 2 pour les deux modèles, et les performances des modèles de prédiction résultants (évalués sur l'ensemble de test) ont été rapportées dans le tableau 3. Le modèle 1 avait une mAUC de 0,758 (IC à 95 % : 0,754 –0,762), et en excluant le temps d'embarquement aux urgences et en ajoutant le cancer métastatique, la mAUC du modèle 2 s'est améliorée à 0,793 (IC à 95 % : 0,789–0,796).

Le score généré par AutoScore (à partir des modèles 1 et 2) peut être mappé à la probabilité de tomber dans différentes catégories de résultats en fonction des proportions observées dans l'ensemble de formation. Par exemple, nous illustrons l'utilisation du modèle 2 pour la prédiction du risque pour un nouveau patient hypothétique à la Fig. 3. Avec les valeurs des 8 variables mesurées pour ce nouveau patient, les cliniciens peuvent simplement vérifier les lignes pertinentes dans le tableau de notation, additionner les scores partiels à un score total pour ce patient, et lisez les probabilités prédites correspondantes pour les trois catégories de résultats dans la table de recherche. Ces probabilités prédites peuvent également être calculées à partir de POM à l'aide d'une calculatrice ou être renvoyées par RF à l'aide de commandes logicielles désignées, mais le tableau de notation de type liste de contrôle des modèles générés par AutoScore et les tables de recherche de probabilités prédites qui l'accompagnent sont beaucoup plus faciles à utiliser dans la pratique clinique .

Tables de notation et de recherche pour le modèle 2 généré par AutoScore, avec leur utilisation illustrée pour un nouveau patient hypothétique

Nous évaluons les performances d'étalonnage des modèles 1 et 2, présentés visuellement à la Fig. 4. Plus précisément, nous avons regroupé les sujets en fonction des intervalles de score définis dans le tableau de consultation de la Fig. 3, et tracé le risque observé d'être dans chaque catégorie de résultats dans le test par rapport au risque prédit (sur la base des tables de recherche). Les modèles 1 et 2 ont généré un risque prédit similaire aux niveaux observés, indiqués par des points près de la ligne diagonale. Une augmentation des scores (indiquée visuellement par une couleur plus claire sur la Fig. 4) reflète généralement une probabilité accrue d'être dans une catégorie supérieure dans le résultat, tandis que le modèle 2 a amélioré la capacité par rapport au modèle 1 à différencier différentes catégories de résultats en fonction des différents scores prédits (indiqué par une répartition plus large des points le long de la ligne diagonale).

Performances d'étalonnage pour (A) Modèle 1 et (B) Modèle 2

Les modèles de prédiction générés par AutoScore avaient des mAUC comparables au POM qui utilisaient les mêmes variables (voir le tableau 3, où POM1 et POM2 correspondent respectivement aux modèles 1 et 2). Le RF utilisant les mêmes variables que le modèle 1 (voir RF1 dans le tableau 3) avait un mAUC plus élevé que le modèle 1, mais par rapport au modèle 2, l'avantage du RF correspondant (voir RF2 dans le tableau 3) en termes de mAUC est moins prononcé. . Les modèles générés par AutoScore avaient un c-index généralisé légèrement plus élevé que les POM correspondants, et les deux étaient plus élevés que les RF correspondants. En particulier, l'indice c généralisé des RF était bien inférieur à celui des modèles ou POM générés par AutoScore correspondants, en raison de l'utilisation d'étiquettes prédites au lieu de scores numériques lors de l'évaluation des performances des RF.

Lors de l'utilisation de méthodes traditionnelles de construction de modèles pour construire des POM clairsemés, l'algorithme pas à pas utilisant AIC n'a pas fonctionné lors du démarrage à partir du modèle nul (c'est-à-dire sans aucune variable) et a fini par sélectionner 35 variables lors du démarrage à partir du modèle complet (c'est-à-dire, y compris les 41 variables). Bien que ce POM avec 35 modèles ait un mAUC élevé et un indice c généralisé (voir POM (par étapes) dans le tableau 3), il est difficile à utiliser dans des contextes pratiques. L'approche LASSO a sélectionné 10 variables (c.-à-d. la durée de séjour à l'urgence, le sexe, le code de triage à l'urgence, le nombre total de séjours aux soins intensifs au cours de l'année écoulée, le type d'admission, la SpO2, la PAS, le bicarbonate, le sodium et le diabète avec complications) qui avaient des performances bien inférieures à celles des autres modèles (voir POM (LASSO) dans le tableau 3).

Un système de notation a été développé en utilisant le cadre AutoScore pour les résultats ordinaux dans cette étude. L'algorithme a été appliqué sur une étude de cas pour discuter du modèle de prédiction du risque et de son application sur les données du DSE du service des urgences où le résultat ordinal comprend trois catégories (vivant sans réadmission à l'hôpital dans les 30 jours suivant la sortie, vivant avec réadmission dans les 30 jours après la sortie et décès du patient hospitalisé ou dans les 30 jours après la sortie). Le modèle a été développé en utilisant 70 % des données (n = 312 193) ; validé sur un sous-ensemble de 10 % des données (n = 44 599) pour effectuer les ajustements nécessaires du modèle ; et testé sur un ensemble de 20 % (n = 89 197). Les performances du modèle AutoScore-Ordinal ont été vérifiées par rapport aux modèles alternatifs, y compris POM et RF, en utilisant 100 échantillons bootstrap via mAUC et c-index généralisé. L'AutoScore-Ordinal a identifié deux modèles de notation réalisables avec 8 variables, et les deux avaient des performances légèrement meilleures que le POM et le RF qui utilisent les mêmes variables. La nouveauté du modèle AutoScore-Ordinal réside dans ses fonctionnalités de générateur de scores cliniques automatiques faciles à utiliser et basées sur l'apprentissage automatique, qui développent des modèles de notation cliniques interprétables et peuvent être des outils utiles pour la prise de décision clinique à différentes étapes du parcours clinique.

Les modèles de prédiction en milieu clinique sont des outils utiles pour éclairer la prise de décision clinique à différentes étapes de la pratique clinique [62, 63]. Pour concevoir, réaliser et construire des modèles de prédiction, des concepts fondamentaux, notamment le développement, la validation et la mise à jour de modèles de prédiction des risques, sont abordés dans la déclaration TRIPOD (Transparent Reporting of a multivariable predictive model for Individual Prognosis Or Diagnosis) [64]. Les nouveaux modèles de risque doivent toujours être validés pour quantifier la capacité prédictive du modèle (par exemple, calibrage et discrimination), qui pourrait être adressée via une validation interne (bootstrapping, validation croisée, etc.) ou externe (cohorte indépendante, par exemple) [64].

La plupart des modèles développés dans la littérature manquent d'interprétabilité et d'accessibilité lors de l'utilisation de techniques d'apprentissage automatique [26, 27, 39]. En revanche, l'AutoScore-Ordinal via un modèle de prédiction des risques basé sur des points peut être facilement mis en œuvre dans différents contextes cliniques et comble une lacune d'interprétabilité, lorsqu'il s'agit de résultats ordinaux. Les avantages du framework AutoScore original [15] s'appliquent au framework AutoScore-Ordinal. AutoScore-Ordinal s'appuie sur le POM, qui convient à l'analyse des résultats ordinaux et est largement utilisé dans la recherche clinique et épidémiologique. Par rapport à l'utilisation conventionnelle de POM, AutoScore-Ordinal utilise des méthodes d'apprentissage automatique pour créer des modèles de prédiction clairsemés avec de bonnes performances de prédiction, alors que les approches traditionnelles telles que la sélection de variables pas à pas et LASSO peuvent ne pas bien fonctionner. AutoScore-Ordinal crée un modèle de notation de style liste de contrôle qui est facilement mis en œuvre dans les environnements cliniques. Dans la recherche clinique, les données quantitatives sont parfois classées comme des variables ordinales pour différentes raisons telles que l'asymétrie ou la distribution multimodale. Dans de tels scénarios, la dichotomie peut ne pas être idéale et entraîner une perte d'informations cliniquement et statistiquement pertinentes. On peut tirer parti du cadre AutoScore-Ordinal pour traiter de telles variables de résultat ordinales.

AutoScore-Ordinal fournit une procédure de sélection de variable efficace, simple et flexible basée sur le diagramme de parcimonie, qui présente visuellement l'amélioration des performances du modèle avec un nombre croissant de variables dans le modèle. Intuitivement, les chercheurs peuvent sélectionner les quelques variables les plus importantes qui correspondent à une performance de modèle satisfaisante et l'inclusion d'une variable supplémentaire entraîne une petite amélioration (par exemple, < 1 %), ce qui a abouti au modèle 1 dans notre exemple. De plus, AutoScore-Ordinal permet aux chercheurs d'ajouter ou de supprimer manuellement des variables des variables finales en fonction de leur contribution aux performances du modèle (par exemple, comme illustré dans le modèle 2) ou des implications pratiques. Alors que l'implémentation actuelle d'AutoScore-Ordinal utilise le POM (ou plus généralement le modèle de lien cumulatif avec le lien logit) qui est largement utilisé dans les applications cliniques, il peut être utilisé avec d'autres fonctions de lien (par exemple, probit, log-log complémentaire) avec modifications mineures pour d'éventuelles améliorations de l'ajustement du modèle. Les chercheurs peuvent souhaiter dessiner plusieurs diagrammes de parcimonie pour sélectionner une fonction de lien qui convient le mieux aux données lors de la détermination des variables à inclure dans le modèle final.

Dans notre exemple de données, nous avons formé RF avec 100 arbres lors du classement des variables dans le module 1 d'AutoScore-Ordinal et lors de son utilisation comme modèle de prédiction. Les chercheurs peuvent vouloir augmenter le nombre d'arbres pour améliorer les performances dans les applications générales, par exemple, 500 arbres est un choix courant [65]. En raison de la grande taille de l'échantillon de notre étude de cas, nous manquons de mémoire lors de la formation d'un RF avec 500 arbres, et un RF avec 200 arbres a généré des résultats comparables lors du classement des variables et de la prédiction des résultats ordinaux.

Comme son nom l'indique, POM suppose des cotes proportionnelles, c'est-à-dire que l'effet de chaque variable sur le résultat est le même dans toutes les catégories de résultats. Dans les analyses POM univariées de l'ensemble d'apprentissage (sans catégoriser les variables continues), l'hypothèse des cotes proportionnelles a été rejetée pour toutes les variables (avec un niveau de signification de 5 %). Une étude future devrait étudier comment assouplir cette hypothèse si nécessaire sans compliquer considérablement l'interprétation du modèle de notation résultant. Malgré cela, les deux modèles de prédiction construits à l'aide d'AutoScore-Ordinal ont fonctionné raisonnablement bien. Pour l'évaluation des performances, nous avons considéré deux métriques (c'est-à-dire, mAUC et c-index généralisé) qui ont une interprétation simple et une définition similaire avec des métriques pour les prédictions binaires et de survie [47, 48, 50]. Les travaux futurs peuvent envisager d'autres mesures de performance, par exemple, le volume sous la surface caractéristique de fonctionnement du récepteur (plus généralement l'hypervolume sous le collecteur) [66] et l'indice c ordinal [47] pour la prédiction ordinale, ou l'indice M [67] et l'indice de discrimination polytomique [68, 69] pour les résultats multi-classes sans tenir compte explicitement de l'ordre des catégories.

Notre exemple de données vise à illustrer l'utilisation de notre cadre AutoScore-Ordinal proposé. Les performances de prédiction peuvent être améliorées, par exemple, bien que le modèle 2 ait eu de meilleures performances que le modèle 1, il échouera très probablement à prédire tout nouveau cas dans la catégorie 2, car cette catégorie est dominée par les deux autres catégories (voir le tableau de recherche à la Fig. 3). L'AutoScore-Ordinal doit être appliqué dans d'autres domaines cliniques avec différentes tailles d'échantillons et différents nombres de variables pour établir la validité externe. Une enquête plus approfondie est nécessaire pour améliorer les performances avant d'appliquer les modèles de notation dérivés d'AutoScore-Ordinal dans des contextes cliniques, par exemple, l'inclusion de variables pertinentes supplémentaires, l'imputation alternative des valeurs manquantes et la fonctionnalité de validation croisée dans le package. Une autre direction de recherche future, comme on le voit dans la littérature [70,71,72,73], est d'intégrer le package AutoScore-Ordinal en tant qu'application mobile où il pourrait être facilement accessible aux cliniciens. Néanmoins, AutoScore-Ordinal fournit un cadre puissant, flexible et facile à utiliser pour développer des modèles de notation interprétables pour les résultats cliniques ordinaux.

AutoScore-Ordinal en tant que modèle de prédiction du risque a été développé pour la variable de résultat ordinale. À des fins d'illustration, le cadre a été mis en œuvre et validé à l'aide des données du DSE du service des urgences, où le résultat ordinal comprenait trois catégories (vivant sans réadmission à l'hôpital dans les 30 jours suivant la sortie, vivant avec réadmission dans les 30 jours après la sortie et décédé hospitalisé ou dans les 30 jours suivant la sortie). Une procédure de sélection de variables efficace et flexible a été expliquée et le modèle a indiqué une qualité d'ajustement comparable par rapport aux modèles alternatifs. Le modèle de prédiction des risques basé sur des points généré par l'AutoScore-Ordinal est facile à mettre en œuvre et à interpréter dans différents contextes cliniques.

Les ensembles de données de cette étude ne sont pas accessibles au public, mais disponibles auprès de l'auteur correspondant sur demande raisonnable.

Moons KGM, Royston P, Vergouwe Y, Grobbee DE, Altman DG. Pronostic et recherche pronostique : quoi, pourquoi et comment ? BMJ. 2009;338:b375.

Article PubMed Google Scholar

Steyerberg EW. Modèles de prédiction clinique : une approche pratique du développement, de la validation et de la mise à jour. New York : Springer ; 2009.

Réserver Google Scholar

Wasson JH, Sox HC, Neff RK, Goldman L. Règles de prédiction clinique - Applications et normes méthodologiques. N Engl J Méd. 1985;313(13):793–9.

Article CAS PubMed Google Scholar

Anderson KM, Odell PM, Wilson PW, Kannel WB. Profils de risque des maladies cardiovasculaires. Am Heart J. 1991;121(1 Pt 2):293–8.

Article CAS PubMed Google Scholar

Stiell IG, Greenberg GH, McKnight RD, Nair RC, McDowell I, Worthington JR. Une étude visant à développer des règles de décision clinique pour l'utilisation de la radiographie dans les blessures aiguës de la cheville. Ann Urgence Méd. 1992;21(4):384–90.

Article CAS PubMed Google Scholar

Haybittle JL, Blamey RW, Elston CW, Johnson J, Doyle PJ, Campbell FC, et al. Un indice pronostique dans le cancer du sein primitif. Br J Cancer. 1982;45(3):361–6.

Article CAS PubMed PubMed Central Google Scholar

Gail MH, Brinton LA, Byar DP, Corle DK, Green SB, Schairer C, et al. Projection des probabilités individualisées de développer un cancer du sein pour les femmes blanches qui sont examinées chaque année. J Natl Cancer Inst. 1989;81(24):1879–86.

Article CAS PubMed Google Scholar

Nashef SA, Roques F, Michel P, Gauducheau E, Lemeshow S, Salamon R. Système européen d'évaluation du risque opératoire cardiaque (EuroSCORE). Eur J Cardiothorac Surg. 1999;16(1):9–13.

Article CAS PubMed Google Scholar

Stenhouse C, Coates S, Tivey M, Allsop P, Parker T. Évaluation prospective d'un score d'alerte précoce modifié pour faciliter la détection précoce des patients développant une maladie grave dans un service de chirurgie générale. Frère J Anaesth. 2000;84(5):663P.

Article Google Scholar

Subbe CP, Kruger M, Rutherford P, Gemmel L. Validation d'un score d'alerte précoce modifié dans les admissions médicales. QJM. 2001;94(10):521–6.

Article CAS PubMed Google Scholar

Le Gall JR, Loirat P, Alperovitch A, Glaser P, Granthil C, Mathieu D, et al. Un score simplifié de physiologie aiguë pour les patients en soins intensifs. Crit Care Med. 1984;12(11):975–7.

Article PubMed Google Scholar

Wang LE, Shaw PA, Mathelier HM, Kimmel SE, French B. Évaluation des modèles de prédiction des risques à l'aide de données provenant de dossiers de santé électroniques. Ann Appl Stat. 2016;10(1):286–304.

Article CAS PubMed PubMed Central Google Scholar

Weiskopf NG, Weng C. Méthodes et dimensions de l'évaluation de la qualité des données des dossiers de santé électroniques : permettre la réutilisation pour la recherche clinique. J Am Med Inform Assoc. 2013;20(1):144–51.

Article PubMed PubMed Central Google Scholar

Heinze G, Wallisch C, Dunkler D. Sélection variable - un examen et des recommandations pour le statisticien en exercice. Biom J. 2018;60(3):431–49.

Article PubMed PubMed Central Google Scholar

Xie F, Chakraborty B, Ong MEH, Goldstein BA, Liu N. AutoScore : un générateur de score clinique automatique basé sur l'apprentissage automatique et son application à la prédiction de la mortalité à l'aide de dossiers de santé électroniques. JMIR Med Inform. 2020;8(10):e21798.

Article PubMed PubMed Central Google Scholar

Xie F, Ong MEH, Liew JNMH, Tan KBK, Ho AFW, Nadarajan GD, et al. Développement et évaluation d'un outil de triage d'apprentissage automatique interprétable pour estimer la mortalité après les admissions aux urgences. JAMA Netw Open. 2021;4(8):e2118467.

Article PubMed PubMed Central Google Scholar

Wong XY, Ang YK, Li K, Chin YH, Lam SSW, Tan KBK, et al. Développement et validation du score SARICA pour prédire la survie après le retour de la circulation spontanée en cas d'arrêt cardiaque hors hôpital à l'aide d'un cadre d'apprentissage automatique interprétable. Réanimation. 2022;170:126–33.

Article PubMed Google Scholar

Petersen KK, Lipton RB, Grober E, Davatzikos C, Sperling RA, Ezzati A. Prédiction de la positivité amyloïde chez les personnes âgées cognitivement intactes. Neurologie. 2022;98(24):e2425–35.

Article PubMed PubMed Central Google Scholar

Liu N, Liu M, Chen X, Ning Y, Lee JW, Siddiqui FJ, et al. Développement et validation d'un score de retour de circulation spontanée préhospitalier (P-ROSC) interprétable pour les patients ayant subi un arrêt cardiaque extra-hospitalier à l'aide de l'apprentissage automatique : une étude rétrospective. eClinicalMedicine. 2022;48:101422.

Article PubMed PubMed Central Google Scholar

Ang Y, Li S, Ong MEH, Xie F, Teo SH, Choong L, et al. Développement et validation d'un score clinique interprétable pour l'identification précoce de l'insuffisance rénale aiguë au service des urgences. Sci Rep. 2022;12(1):1–8.

Article Google Scholar

Kanagarathinam K, Sankaran D, Manikandan R. Modèle de prédiction des risques basé sur l'apprentissage automatique pour les maladies cardiovasculaires à l'aide d'un ensemble de données hybride. Data Knowl Eng. 2022;140:102042.

Article Google Scholar

Zhao Y, Li X, Li S, Dong M, Yu H, Zhang M, et al. Utilisation de techniques d'apprentissage automatique pour développer des modèles de prédiction du risque de rétinopathie diabétique incidente chez les patients atteints de diabète sucré de type 2 : une étude de cohorte. Avant Endocrinol (Lausanne). 2022;13:885.

Google Scholar

Adi NS, Farhany R, Ghina R, Napitupulu H. Modèle de prédiction du risque d'AVC utilisant l'apprentissage automatique. Dans : Conférence internationale 2021 sur l'intelligence artificielle et l'analyse des mégadonnées ; 2021. p. 56–60.

Chapitre Google Scholar

Li X, Wang Y, Xu J. Développement d'un modèle de prédiction des risques basé sur l'apprentissage automatique pour l'infarctus cérébral et comparaison avec le modèle de nomogramme. Trouble de l'affect J. 2022;314:341–8.

Article PubMed Google Scholar

Pera M, Gibert J, Gimeno M, Garsot E, Eizaguirre E, Miró M, et al. Modèle de prédiction du risque d'apprentissage automatique de la mortalité à 90 jours après une gastrectomie pour le cancer. Anne Surg. 2022;276:776–83.

Article PubMed Google Scholar

Jiang H, Mao H, Lu H, Lin P, Garry W, Lu H, et al. Modèles basés sur l'apprentissage automatique pour soutenir la prise de décision dans le triage des services d'urgence pour les patients suspects de maladie cardiovasculaire. Int J Med Inform. 2021;145:104326.

Article PubMed Google Scholar

Kawakami E, Tabata J, Yanaihara N, Ishikawa T, Koseki K, Iida Y, et al. Application de l'intelligence artificielle pour le diagnostic préopératoire et la prédiction pronostique du cancer épithélial de l'ovaire sur la base de biomarqueurs sanguins. Clin Cancer Res. 2019;25(10):3006–15.

Article CAS PubMed Google Scholar

Valenta Z, Pitha J, Poledne R. Régression logistique des cotes proportionnelles - un moyen efficace de faire face à une incertitude limitée dans la dichotomie des résultats cliniques. Stat Med. 2006;25(24):4227–34.

Article PubMed Google Scholar

Roozenbeek B, Lingsma HF, Perel P, Edwards P, Roberts I, Murray GD, et al. La valeur ajoutée de l'analyse ordinale dans les essais cliniques : un exemple dans le traumatisme crânien. Soins critiques. 2011;15(3):R127.

Article PubMed PubMed Central Google Scholar

McHugh GS, Butcher I, Steyerberg EW, Marmarou A, Lu J, Lingsma HF, et al. Une étude de simulation évaluant les approches d'analyse des données de résultats ordinaux dans des essais contrôlés randomisés sur les lésions cérébrales traumatiques : résultats du projet IMPACT. Essais cliniques. 2010;7(1):44–57.

Article PubMed Google Scholar

Sauveur JL. Nouvelles techniques d'analyse des points finaux et interprétation des changements sur toute la gamme des échelles de résultats dans les essais sur les AVC aigus. Accident vasculaire cérébral. 2007;38(11):3055–62.

Article PubMed Google Scholar

Machado SG, Murray GD, Teasdale GM. Évaluation de modèles d'essais cliniques d'agents neuroprotecteurs dans les traumatismes crâniens. Consortium européen sur les lésions cérébrales. J Neurotraumatisme. 1999;16(12):1131–8.

Article CAS PubMed Google Scholar

Ceyisakar IE, van Leeuwen N, Dippel DW, Steyerberg EW, Lingsma HF. L'analyse des résultats ordinaux améliore la détection des différences de résultats entre les hôpitaux. Méthodologie BMC Med Res. 2021;21(4):4.

Réserver Google Scholar

Uryniak T, Chan ISF, Fedorov VV, Jiang Q, Oppenheimer L, Snapinn SM, et al. Analyses des répondants - un document de position PhRMA. Stat Biopharm Res. 2011;3(3):476–87.

Article Google Scholar

Altman DG, Royston P. Le coût de la dichotomie des variables continues. BMJ. 2006;332(7549):1080.

Article PubMed PubMed Central Google Scholar

Lingsma HF, Bouteille A, Middleton S, Kievit J, Steyerberg EW, Marang-van de Mheen PJ. Évaluation des résultats hospitaliers : la relation entre la durée de séjour, la réadmission et la mortalité dans une grande base de données administrative internationale. BMC Health Serv Res. 2018;18(1):116.

Article PubMed PubMed Central Google Scholar

Myers J, Kei J, Aithal S, Aithal V, Driscoll C, Khan A, et al. Diagnostiquer le dysfonctionnement de l'oreille moyenne chez les nourrissons de 10 à 16 mois à l'aide de l'absorbance à large bande : un modèle de prédiction ordinale. J Speech Lang Hear Res. 2019;62(8):2906–17.

Article PubMed Google Scholar

Edlinger M, Dörler J, Ulmer H, Wanitschek M, Steyerberg EW, Alber HF, et al. Un modèle de prédiction ordinale du diagnostic de coronaropathie non obstructive et de maladie multitronculaire dans la cohorte CARDIIGAN. Int J Cardiol. 2018 ;267 : 8–12.

Article PubMed Google Scholar

Sawhney R, Joshi H, Gandhi S, Jin D, Shah RR. Évaluation robuste du risque de suicide sur les réseaux sociaux via un apprentissage contradictoire approfondi. J Am Med Inform Assoc. 2021;28(7):1497–506.

Article PubMed PubMed Central Google Scholar

Barbero-Gómez J, Gutiérrez PA, Vargas VM, Vallejo-Casas JA, Hervás-Martínez C. Une approche ordinale CNN pour l'évaluation des dommages neurologiques chez les patients atteints de la maladie de Parkinson. Expert Syst Appl. 2021;182:115271.

Article Google Scholar

Rudin C. Arrêtez d'expliquer les modèles d'apprentissage automatique en boîte noire pour les décisions à enjeux élevés et utilisez plutôt des modèles interprétables. Nat Mach Intelligence. 2019;1(5):206–15.

Article PubMed PubMed Central Google Scholar

Breiman L. Forêts aléatoires. Mach Apprendre. 2001;45(1):5–32.

Article Google Scholar

McCullagh P, Nelder JA. Modèles linéaires généralisés. 2e éd. Londres : Chapman et Hall/CRC ; 1989.

Réserver Google Scholar

McCullagh P. Modèles de régression pour les données ordinales. JR Stat Soc Ser B. 1980;42(2):109–42.

Google Scholar

Rosati R, Romeo L, Vargas VM, Gutiérrez PA, Hervás-Martínez C, Frontoni E. Une nouvelle approche de classification ordinale profonde pour la classification du contrôle de la qualité esthétique. Application de calcul neuronal. 2022;34(14):11625–39.

Article Google Scholar

Wang L, Zhu D. S'attaquer au problème de régression ordinale pour des données hétérogènes : approches d'apprentissage multitâches clairsemées et profondes. Disque de connaissance des données minimales. 2021;35(3):1134.

Article Google Scholar

van Calster B, van Belle V, Vergouwe Y, Steyerberg EW. Capacité de discrimination des modèles de prédiction pour les résultats ordinaux : relations entre les mesures existantes et une nouvelle mesure. Biom J. 2012;54(5):674–85.

Article PubMed Google Scholar

Waegeman W, de Baets B, Boullart L. Analyse ROC dans l'apprentissage par régression ordinale. Reconnaissance de motif Lett. 2008;29(1):1–9.

Article Google Scholar

Harrell FE, Califf RM, Pryor DB, Lee KL, Rosati RA. Évaluer le rendement des tests médicaux. JAMA. 1982;247(18):2543–6.

Article PubMed Google Scholar

Harrel FEJ. Stratégies de modélisation de régression : avec des applications aux modèles linéaires, à la régression logistique et ordinale et à l'analyse de survie. 2e éd. New York : Springer ; 2015. (Série Springer en statistique)

Réserver Google Scholar

DiCiccio TJ, Efron B. Intervalles de confiance Bootstrap. Stat Sci. 1996;11(3):189–228.

Article Google Scholar

Cabitza F, Campagner A. La nécessité de séparer le bon grain de l'ivraie en informatique médicale : introduction d'une liste de contrôle complète pour l'(auto)-évaluation des études d'IA médicale. Int J Med Inform. 2021;153:104510.

Article PubMed Google Scholar

Xie F, Liu N, Wu SX, Ang Y, Low LL, Ho AFW, et al. Nouveau modèle de prédiction de la mortalité des patients hospitalisés après une admission d'urgence à l'hôpital de Singapour : étude observationnelle rétrospective. BMJ ouvert. 2019;9(9):e031382.

Article PubMed PubMed Central Google Scholar

Liu N, Xie F, Siddiqui FJ, Wah Ho AF, Chakraborty B, Nadarajan GD, et al. Tirer parti des dossiers de santé électroniques à grande échelle et de l'apprentissage automatique interprétable pour la prise de décision clinique au service des urgences : protocole de développement et de validation du système. JMIR Res Protoc. 2022;11(3):e34201.

Équipe de base R. R : un langage et un environnement pour le calcul statistique. Fondation R pour le calcul statistique, Vienne, Autriche ; 2020. Disponible sur : https://cran.r-project.org

Christensen RHB. ordinal---Modèles de régression pour les données ordinales. Version du package R 2018.4–19. 2018. Disponible sur : http://www.cran.r-project.org/package=ordinal/

Venables WN, Ripley BD. Statistiques appliquées modernes avec S. 4e éd. New York : Springer ; 2002.

Réserver Google Scholar

Wurm MJ, Rathouz PJ, Hanlon BM. Régression ordinale régularisée et package ordinalNet R. Journal des logiciels statistiques . 2017;99(6):1–42.

Google Scholar

Liaw A, Wiener M. Classification et régression par randomForest. Nouvelles R. 2002;2(3):18–22.

Google Scholar

Kropko J, Harden JJ. coxed : quantités d'intérêt basées sur la durée pour le modèle de risques proportionnels de Cox ; 2020. Disponible sur : https://CRAN.R-project.org/package=coxed.

Harrell Jr F. Hmisc : Harrell Divers ; 2021. Disponible sur : https://CRAN.R-project.org/package=Hmisc.

Goff DCJ, Lloyd-Jones DM, Bennett G, Coady S, D'Agostino RB, Gibbons R, et al. Ligne directrice 2013 de l'ACC/AHA sur l'évaluation du risque cardiovasculaire : rapport du groupe de travail de l'American College of Cardiology/American Heart Association sur les lignes directrices de pratique. Circulation. 2014;129(25 Suppl 2):S49–73.

Google Scholar PubMed

Rabar S, Lau R, O'Flynn N, Li L, Barry P. Évaluation des risques de fractures de fragilité : résumé des directives du NICE. BMJ. 2012;345:e3698.

Article PubMed Google Scholar

Collins GS, Reitsma JB, Altman DG, Moons KGM. Rapport transparent d'un modèle de prédiction multivariable pour le pronostic ou le diagnostic individuel (TRIPOD) : la déclaration TRIPOD. BMJ. 2015;350:g7594.

Article PubMed Google Scholar

Probst P, Boulesteix AL. Accorder ou non le nombre d'arbres dans la forêt aléatoire. J Mach Learn Res. 2018;18:1–18.

Google Scholar

Scurfield BK. Tâches à choix forcé à événements multiples dans la théorie de la détectabilité du signal. J Math Psychol. 1996;40(3):253–69.

Article CAS PubMed Google Scholar

DJ à la main, jusqu'à RJ. Une généralisation simple de l'aire sous la courbe ROC pour les problèmes de classification à classes multiples. Mach Apprendre. 2001;45(2):171–86.

Article Google Scholar

van Calster B, van Belle V, Vergouwe Y, Timmerman D, van Huffel S, Steyerberg EW. Étendre la statistique c aux résultats nominalement polytomiques : l'indice de discrimination polytomique. État méd. 2012;31(23):2610–26.

Article PubMed Google Scholar

Dover DC, Islam S, Westerhout CM, Moore LE, Kaul P, Savu A. Calcul de l'indice de discrimination polytomique. Stat Med. 2021;40(16):3667–81.

Article PubMed Google Scholar

Guo X, Khalid MA, Domingos I, Michala AL, Adriko M, Rowel C, et al. Diagnostic ADN basé sur smartphone pour la détection du paludisme utilisant l'apprentissage en profondeur pour l'aide à la décision locale et la technologie blockchain pour la sécurité. Nat Électron. 2021;4(8):615–24.

Article CAS Google Scholar

Krittanawong C, Rogers AJ, Johnson KW, Wang Z, Turakhia MP, Halperin JL, et al. Intégration de nouveaux dispositifs de surveillance avec la technologie d'apprentissage automatique pour une gestion cardiovasculaire évolutive. Nat Rev Cardiol. 2020;18(2):75–91.

Article PubMed PubMed Central Google Scholar

Wu Y, Yao X, Vespasiani G, Nicolucci A, Dong Y, Kwong J, et al. Interventions basées sur des applications mobiles pour soutenir l'autogestion du diabète : une revue systématique d'essais contrôlés randomisés pour identifier les fonctions associées à l'efficacité glycémique. JMIR Mhealth Uhealth. 2017;5(3):e6522.

Article Google Scholar

Ferri A, Rosati R, Bernardini M, Gabrielli L, Casaccia S, Romeo L, et al. Vers la conception d'une plate-forme de soins de santé grand public basée sur l'apprentissage automatique, alimentée par des dossiers de santé électroniques et la mesure du style de vie via les données des smartphones. Dans : 2019 IEEE 23e Symposium international sur les technologies grand public (ISCT) ; 2019. p. 37–40.

Chapitre Google Scholar

Télécharger les références

Aucun.

Cette étude a été soutenue par Duke-NUS Medical School, Singapour. YN est soutenu par le Khoo Postdoctoral Fellowship Award (projet n° Duke-NUS-KPFA/2021/0051) de la succession de Tan Sri Khoo Teck Puat. Les bailleurs de fonds n'ont joué aucun rôle dans la conception de l'étude, la collecte et l'analyse des données, la décision de publier ou la préparation du manuscrit.

Seyed Ehsan Saffari et Yilin Ning ont contribué à parts égales à ce travail.

Centre de médecine quantitative, Duke-NUS Medical School, Singapour, Singapour

Seyed Ehsan Saffari, Yilin Ning, Feng Xie, Bibhas Chakraborty, Roger Vaughan et Nan Liu

Programme de recherche sur les services et les systèmes de santé, Duke-NUS Medical School, Singapour, Singapour

Seyed Ehsan Saffari, Feng Xie, Bibhas Chakraborty, Roger Vaughan, Marcus Eng Hock Ong et Nan Liu

Département de biostatistique et de bioinformatique, Duke University, Durham, NC, États-Unis

Bibhas Chakraborty

Département de statistique et de science des données, Université nationale de Singapour, Singapour, Singapour

Bibhas Chakraborty

Département de neurochirurgie, Centre médical universitaire Erasmus MC, Rotterdam, Pays-Bas

Victor Volovici

Département de la santé publique, Erasmus MC, Rotterdam, Pays-Bas

Victor Volovici

Département de médecine d'urgence, Hôpital général de Singapour, Singapour, Singapour

Marcus Eng Hock Ong

Bureau SingHealth AI, Services de santé de Singapour, Singapour, Singapour

Nan Liu

Institut des sciences des données, Université nationale de Singapour, Singapour, Singapour

Nan Liu

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

NL : conception et conception de l'étude, supervision et mentorat. ES, YN et FX : développement du modèle, rédaction de la première ébauche. ES et YN : analyse des données. ES, YN, FX, BC, VV, RV, MO et NL : contributions substantielles à l'interprétation des résultats, à l'amélioration de l'algorithme et à la révision critique du manuscrit. Tous les auteurs ont examiné les résultats, lu et approuvé la version finale du manuscrit.

Correspondance à Nan Liu.

Cette étude a été approuvée par le Conseil d'examen institutionnel centralisé des services de santé de Singapour (CIRB 2021/2122) et une dispense de consentement a été accordée pour la collecte de données du DSE. Toutes les méthodes ont été réalisées conformément aux directives et réglementations en vigueur.

N'est pas applicable.

Aucun.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournir un lien vers la licence Creative Commons et indiquer si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/. La renonciation Creative Commons Public Domain Dedication (http://creativecommons.org/publicdomain/zero/1.0/) s'applique aux données mises à disposition dans cet article, sauf indication contraire dans une ligne de crédit aux données.

Réimpressions et autorisations

Saffari, SE, Ning, Y., Xie, F. et al. AutoScore-Ordinal : un cadre d'apprentissage automatique interprétable pour générer des modèles de notation pour les résultats ordinaux. BMC Med Res Methodol 22, 286 (2022). https://doi.org/10.1186/s12874-022-01770-y

Télécharger la citation

Reçu : 24 mai 2022

Accepté : 25 octobre 2022

Publié: 04 novembre 2022

DOI : https://doi.org/10.1186/s12874-022-01770-y

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt