Logo
DeutschClear Cookie - decide language by browser settings
Gartner, H. and Scheid, S. (2003): Multiple Imputation von fehlenden Werten mit Daten über Unterernährung und Kindersterblichkeit. Collaborative Research Center 386, Discussion Paper 322
[img]
Preview

PDF

392kB

Abstract

In dieser Arbeit werden die Auswirkungen einer Ersetzung von fehlenden Werten auf das Ergebnis einer Regressionsanalyse untersucht. Grundlage ist eine Untersuchung von Klasen (2000) über die Unterschiede im Zusammenhang zwischen Unterernährung und Kindersterblichkeit in Afrika und Südasien. In dem Makro-Datensatz, welcher 101 Entwicklungsländer umfasst, fällt etwa ein Drittel der 273 Beobachtungen weg, da für verschiedene verwendete Variablen die Werte fehlen. Die so verloren gegangenen Informationen sollen in dieser Untersuchung genutzt werden um die Schätzergebnisse zu verbessern. Hierzu wird ein Verfahren zur multiplen Imputation verwandt, in welchem mit einem Data-Augmentation-Verfahren mehrere vervollständigte Datensätze generiert werden, mit welchen dann getrennt Schätzungen durchgeführt werden. Die Ergebnisse der Schätzungen werden dann miteinander kombiniert. Durch die Auswertung mehrerer vervollständigter Datensätze wird eine höhere Effizienz der Schätzer erreicht. Ein Vergleich von Regressionsanalysen, die mit dem vervollständigten Daten durchgeführt wurden, mit einer Complete-case-Analyse hat gezeigt, dass sich bestimmte Koeffizienten in ihrer Größenordnung geändert haben. Bei manchen Koeffizienten sind unplausible Vorzeichen aus der Complete-case Analyse verschwunden. Es ist also vorteilhaft, bei Problemen mit fehlenden Werten moderne Imputationsverfahren zu verwenden. Die wesentlichen Ergebnisse aus der Untersuchung von Klasen (2000) konnten dennoch bestätigt werden. Durch die Ersetzung der fehlenden Werte konnten noch eine Reihe von Variablen zugänglich gemacht werden, die in den bisherigen Untersuchungen nicht verwendet wurden, da dadurch auf noch mehr Beobachtungen hätte verzichtet werden müssen.