Logo Logo
Help
Contact
Switch Language to German
Nasseh, Daniel; Stausberg, Jürgen (September 2013): Einfluss von Varianten des anonymen Record Linkage auf Gewichtsverteilung und Klassifikation. GMDS 2013: 58. Jahrestagung der Deutschen Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie e. V., 01. - 05.09.2013, Lübeck.
[img]
Preview
1MB

Abstract

Einleitung und Fragestellung: Bei der Analyse medizinischer Daten kann es notwendig sein, Datensätze verschiedener Quellen zusammenzuführen. Meist geschieht dies über den Abgleich gemeinsamer Attribute der Beobachtungseinheiten. Entsprechend der Ähnlichkeit der Attributausprägungen werden Gewichte berechnet und zu einem Gesamtgewicht zusammengefasst. Über zwei Schwellenwerte werden Datenpaare als Link, Non-Link bzw. möglicher Link klassifiziert, welche schließlich manuell bewertet werden. Diese Methodik wird als Record Linkage bezeichnet. Schwieriger gestaltet sich das anonyme Record Linkage, das mit Datensätzen arbeitet, die datenschutzrechtlichen Beschränkungen unterliegen. Ein Beispiel hierfür ist die Studie „Familien schützen & stärken“ zu familiärem Darmkrebs, bei der neuerkrankte Patienten und deren Angehörige mit registrierten Patienten des Tumorregisters München abgeglichen werden [1]. Dieser Abgleich erfolgt nicht im Klartext, sondern pseudonymisierten Attributswerten. Hierdurch ist eine manuelle Nachkontrolle möglicher Links nicht durchführbar, wodurch lediglich eine binäre Klassifikation möglich ist. In Voruntersuchungen zur Studie wurde beobachtet, dass bereits geringe Modifikationen bei der Konfiguration des Record Linkage die Gewichte und folglich auch die Klassifikation stark beeinflussen können. Um dies und generelle Schwachstellen unüberwachter Klassifikationsmethoden offenzulegen wurden drei mögliche Varianten eines Record Linkage ausgewählt und auf verschiedene Testsets angewendet. Material und Methoden: Ein konfigurierbares Record Linkage System, nach Felligi und Sunter [2], wurde in Java implementiert. Die Konfigurationen unterscheiden sich im Blocking sowie einer Nachbearbeitungstechnik, die in dieser Arbeit als Multi-Link-Cleaning bezeichnet wird (MLC). Blocking dient der Reduktion der Anzahl der Datenvergleiche, indem ausschließlich Einträge, die in gewählten Blocking-Variablen übereinstimmen, weiter betrachtet werden. Hierbei wurde sich zum einem für eine Variante entschieden, die Gewichte bei Übereinstimmung mehrerer Blocking-Variablen mehrfach speichert, zum anderem für eine Variante ohne mehrfachem Vorkommen von Datenpaaren und ihrer Gewichte. Bei der dritten Konfigurationsmöglichkeit werden Links mit dazugehörigen Gewichten, die Einträge enthalten, die bereits in höher gewichteten Links enthalten sind, entfernt (MLC). Das Linking wurde auf einem öffentlich zugänglichem [3] und einem künstlich erzeugten Testset durchgeführt. Zu den sechs durchgeführten Experimenten wurden Gewichtsdaten erstellt und als Histogramme visualisiert. Histogramme eignen sich zur Untersuchung, da Klassifizierer basierend auf unüberwachtem Lernen Klassenränder bei breiten Lücken bzw. Tiefpunkten vorhersagen. Ergebnisse: Die Ergebnisse zum öffentlichen Testset veranschaulichen, dass es mehrere ausgeprägte Lücken bzw. Tiefpunkte geben kann. Die Gefahr einer starken Fehlklassifikation ist hierbei unumgänglich da unüberwachte Klassifikationssysteme die binäre Klassengrenze innerhalb einer dieser Lücken ansiedeln, was jedoch bei der Vielzahl an Lücken nicht die richtige Vorhersage sein muss. Anhand der Ergebnisse zu den künstlichen Daten zeigt sich, dass eine Klassifikation in den verschiedenen Varianten unterschiedlich schwer fällt. Während in den ersten beiden Varianten ein ausgeprägter Tiefpunkt erkennbar ist, ist dieser bei Nutzung des MLCs nicht mehr zu erkennen. Diskussion: Binäre Klassifikation basierend auf unüberwachtem Lernen birgt die Gefahr suboptimale Klassengrenzen vorherzusagen. Bei Unklarheit kann es hilfreich sein, mehrere Konfigurationen auszuwerten. Um der Problematik besser entgegenzutreten würden sich Weiterentwicklungen im Bereich des überwachtem Lernen anbieten, da dieses von den Gewichtsdateien unabhängig ist. Die Schranken werden hier basierend auf bereits klassifizierten Trainingssets, die den original Daten strukturell ähnlich sind, vorhergesagt. Um der fehlenden Verfügbarkeit dieser Trainingssets gegenüberzutreten wäre ein möglicher Ansatz die Trainingssets basierend auf ausgewählten Parametern der Orginalsets zu konstruieren.