Logo Logo
Help
Contact
Switch Language to German
Crispin, Alexander; Strahwald, Brigitte; Cheney, Catherine; Mansmann, Ulrich (2018): Risikoberechnung mit Routinedaten? Entwicklung und Validierung multivariabler Modelle zur Prädiktion der 30- und 90-Tage-Mortalität nach chirurgischer Behandlung kolorektaler Karzinome. In: Gesundheitswesen, Vol. 80, No. 11: pp. 963-973
Full text not available from 'Open Access LMU'.

Abstract

AIMS Quality control, benchmarking, and pay for performance (P4P) require valid indicators and statistical models allowing adjustment for differences in risk profiles of the patient populations of the respective institutions. Using hospital remuneration data for measuring quality and modelling patient risks has been criticized by clinicians. Here we explore the potential of prediction models for 30- and 90-day mortality after colorectal cancer surgery based on routine data. STUDY DESIGN Full census of a major statutory health insurer. SETTING Surgical departments throughout the Federal Republic of Germany. PATIENTS 4283 and 4124 insurants with major surgery for treatment of colorectal cancer during 2013 and 2014, respectively. PREDICTORS Age, sex, primary and secondary diagnoses as well as tumor locations as recorded in the hospital remuneration data according to §301 SGB V. OUTCOMES 30- and 90-day mortality. STATISTICAL ANALYSIS Elixhauser comorbidities, Charlson conditions, and Charlson scores were generated from the ICD-10 diagnoses. Multivariable prediction models were developed using a penalized logistic regression approach (logistic ridge regression) in a derivation set (patients treated in 2013). Calibration and discrimination of the models were assessed in an internal validation sample (patients treated in 2014) using calibration curves, Brier scores, receiver operating characteristic curves (ROC curves) and the areas under the ROC curves (AUC). RESULTS 30- and 90-day mortality rates in the learning-sample were 5.7 and 8.4%, respectively. The corresponding values in the validation sample were 5.9% and once more 8.4%. Models based on Elixhauser comorbidities exhibited the highest discriminatory power with AUC values of 0.804 (95% CI: 0.776 -0.832) and 0.805 (95% CI: 0.782-0.828) for 30- and 90-day mortality. The Brier scores for these models were 0.050 (95% CI: 0.044-0.056) and 0.067 (95% CI: 0.060-0.074) and similar to the models based on Charlson conditions. Regardless of the model, low predicted probabilities were well calibrated, while higher predicted values tended to be overestimates. CONCLUSION The reasonable results regarding discrimination and calibration notwithstanding, models based on hospital remuneration data may not be helpful for P4P. Routine data do not offer information regarding a wide range of quality indicators more useful than mortality. As an alternative, models based on clinical registries may allow a wider, more valid perspective. ZIELE Qualitätssicherung, Benchmarking und Pay for Performance (P4P) erfordern aussagekräftige Indikatoren sowie die adäquate Berücksichtigung der Risikostruktur der Patientenpopulation der jeweiligen Institution anhand geeigneter statistischer Modelle. Der Ansatz, Abrechnungsdaten zur Qualitätsmessung und Risikomodellierung zu verwenden, wird häufig kritisch gesehen. Ziel unserer Analysen war die exemplarische Entwicklung von Prädiktionsmodellen für die 30- und 90-Tage-Mortalität nach chirurgischer Therapie kolorektaler Karzinome mit Routinedaten. STUDIENDESIGN Vollerhebung der Patienten einer großen gesetzlichen Krankenkasse. SETTING Chirurgische Kliniken im gesamten Bundesgebiet. PATIENTEN 4283 bzw. 4124 Patienten mit Operationen kolorektaler Karzinome in den Jahren 2013 bzw. 2014. PRäDIKTOREN: Alter, Geschlecht, Haupt- und Nebendiagnosen sowie Tumorlokalisation aus den von den Kliniken an die Krankenkasse übermittelten Abrechnungsdaten gemäß §301 Sozialgesetzbuch V. OUTCOMES 30- und 90-Tage-Mortalität. STATISTISCHE ANALYSE Ableitung von Elixhauser Comorbidities, Charlson Conditions sowie Charlson Scores aus den ICD-10-Diagnosen. Entwicklung von Prädiktionsmodellen anhand eines penalisierten Regressionverfahrens (logistische Ridge Regression) in einer Lernstichprobe (Patienten des Jahres 2013). Beurteilung von Kalibrierung und Diskriminationsfähigkeit der Modelle in einer internen Validierungsstichprobe (Patienten des Jahres 2014) mithilfe von Kalibrierungskurven, Brier Scores und Analysen von Receiver Operating Characteristic Curves (ROC-Kurven) und der Flächen unter denselben (Areas Under the Curves, AUC). ERGEBNISSE Die 30- bzw. 90-Tage-Mortalität in der Lernstichprobe betrugen 5,7 bzw. 8,4%. Die entsprechenden Werte im Validierungssample waren 5,9% und gleichfalls 8,4%. Modelle auf der Basis der Elixhauser Comorbidities zeigten die beste Diskrimination mit AUC-Werten von 0,804 (95%-KI: 0,776–0,832) bzw. 0,805 (95%-KI: 0,782–0,828) für die 30- bzw. 90-Tage-Mortalität. Die zugehörigen Brier-Scores für die Elixhauser-Modelle betrugen 0,050 (95%-KI: 0,044–0,056) bzw. 0,067 (95%-KI: 0,060–0,074) und stimmten weitgehend mit denjenigen der konkurrierenden Modelle überein. Alle Modelle zeigten im Bereich niedriger prädizierter Wahrscheinlichkeiten eine gute Kalibrierung, bei höheren prädizierten Werten tendierten sie zur Überschätzung der Ereigniswahrscheinlichkeiten. SCHLUSSFOLGERUNG Trotz der augenscheinlich befriedigenden Ergebnisse zur Diskriminierung und Kalibrierung der vorgestellten Prädiktionsmodelle auf der Basis von Abrechnungsdaten ist deren Anwendung im Kontext von P4P kritisch zu sehen. Als Alternative bietet sich die Modellierung auf der Basis klinischer Register an, die ein umfassenderes, valideres Bild vermitteln dürften.