Navigationslinks überspringen | Datenmanagement | Phase 5: Aufbereitung der Daten für die Datenweitergabe

Phase 5: Aufbereitung der Daten für die Datenweitergabe

Ist eine Archivierung von Beginn der Forschung an eingeplant worden, so wird sich der Aufwand nun als gering und unkompliziert darstellen. Trotzdem gibt es einige Punkte zu beachten, bevor die Daten an ein Archiv übermittelt werden können. Das bezieht sich im Besonderen auf die Verantwortlichkeit der ForscherInnen, die vertraulichen Informationen der Befragten zu bewahren und zu schützen.

Die meisten Forschungsvorhaben beinhalten sensible und/ oder persönliche Informationen. Das Teilen oder Archivieren von Forschungsdaten muss aber nicht die Vertraulichkeit der Daten gefährden. Die Anonymisierung der Daten kann – auch im Falle fehlender Einverständniserklärungen – ein Weg sein, bei einer Archivierung die Vertraulichkeit der Daten zu gewährleisten.

Im Zuge der Anonymisierung werden persönliche Daten durch Löschen oder Ersetzen so verändert, dass Personen nicht mehr oder zumindest nur erschwert identifiziert werden können. Im Wesentlichen geht es bei persönlichen Informationen um Namen, Adressen und manchmal Berufs- und Ortsangaben, d.h. um grundlegende Identifizierungsmerkmale, die bei den meisten Forschungsprojekten erhoben werden. Gleichzeitig muss sichergestellt werden, dass Veränderungen nicht unnötigerweise die Möglichkeiten der Sekundäranalyse reduzieren. Zwischen diesen beiden Belangen besteht ein Zwiespalt, der je nach Studie und vor allem in Abhängigkeit von der Sensibilität der in den Daten vorkommenden Informationen gelöst werden sollte. Unterschiedliche Grade der Anonymisierung sind auf unterschiedlich sensible Daten anzuwenden.

Auf quantitativen Methoden basierende Projekte können im Regelfall auf eine unkomplizierte Art und Weise behandelt werden. Die Anonymisierung kann meist durch das Löschen oder Aggregieren von Schlüsselvariablen erreicht werden. Bei qualitativen Forschungsvorhaben ist die Frage der Anonymisierung heikler. Eine Identifizierung von ForschungsteilnehmerInnen kann sich auch aus mehreren Einzelinformationen ergeben, die für sich alleine stehend unbedenklich sind, in Summe aber eindeutig auf Befragte hinweisen. Daher muss mit dem Problem der Anonymisierung wohlüberlegt und reflektiert umgangen werden. In jedem Fall aber sollten sich ForscherInnen bewusst machen, wie wichtig die Frage der Vertraulichkeit für potentielle PartizipientInnen ist. ForscherInnen gehen sehr häufig davon aus, dass die RespondentInnen einer Weiterverwendung der Daten negativ gegenüberstehen. Tatsächlich hingegen haben Auskunftspersonen oft keine Einwände gegen die wiederholte Nutzung durch befugte ForscherInnen, falls geeignete Pseudonyme und andere Schutzmaßnahmen angewandt werden. Es ist nicht notwendig, die Vertraulichkeit durch Anonymisierung zu gewährleisten, wenn Auskunftspersonen froh über die Veröffentlichung ihrer Meinung sind oder wenn die Offenlegung in ihrer Rolle als öffentliche Person normal ist und vorausgesetzt werden kann. In Fällen, wo Vertraulichkeit erforderlich ist, wird dies am besten durch eine schriftliche Vereinbarung zwischen ForscherIn und ForschungsteilnehmerIn klar geregelt. Eine Vorlage für Einverständniserklärungen mit ForschungsteilnehmerInnen finden Sie hier

Wenn es um den Schutz der RespondentInnen und die Wahrung der Vertraulichkeit der Daten geht, ist die Anonymisierung der Daten eine wichtige Strategie, um die Befragten vor einer Identifizierung zu schützen und wird von ForscherInnen zumeist als die erste Herangehensweise in Betracht gezogen. Es sollten aber noch andere Optionen bedacht werden. Sensible und vertrauliche Daten können auch effektiv durch Zugangs- und Verwendungsrestriktionen abgesichert werden, welche bei der Deponierung in einem offiziellen Archiv vereinbart werden. Diese implizieren eine kontrollierte und auf bestimmte Personen und bestimmte Bedingungen eingeschränkte Nutzung und beugen damit einer missbräuchlichen Verwendung der Daten vor. In der Regel müssen NutzerInnen vor Erhalt der Daten auch rechtlich verbindliche Vereinbarungen unterzeichnen, in der sie sich verpflichten, die festgelegten Nutzungsbedingungen einzuhalten und die Vertraulichkeit der Daten zu gewährleisten. Mehr dazu in den Kapiteln Zugriffsklassen und Nutzungsbedingungen.

Weiter zu Phase 6: Archivierung der Daten

  • Quantitative Daten

    Quantitative Daten

    Es gibt zwei Arten von Variablen in sozialwissenschaftlichen Datensätzen, welche die Vertraulichkeit von PartizipientInnen gefährden können:

    • Direkte Identifikatoren: Das sind Variablen, welche im Prozess der Umfrageadministration generiert wurden und explizit auf einzelne Personen oder Gruppen hinweisen. Dies können nationale Versicherungsnummern, Telefonnummern, Führerscheinnummern oder auch Postadressen sein. Die analytische Bedeutung solcher Variablen sollte sorgfältig gegen das Risiko der Enthüllung abgewogen werden. Falls das Risiko zu groß ist, sollten solche Variablen gelöscht werden oder speziellen Sicherheitsmaßnahmen unterliegen.
    • Indirekte Identifikatoren: Das sind Variablen, die durch die Verknüpfung mit anderen öffentlich zugänglichen Quellen einen Bruch der Vertraulichkeit darstellen könnten. Dies können geographische Informationen (Wohn-, Arbeitsort), Arbeitsstätten, Bildungsinstitutionen, exakte Berufsbezeichnungen oder das genaue Einkommen sein. Es gibt verschiedene Strategien wie mit solchen Variablen umzugehen ist. Eine dieser Informationen alleine führt im Regelfall nicht zur Identifikation von Personen. Erst durch die Kombination von mehreren Merkmalen kann die Anonymität aufgehoben werden.

    Falls Daten öffentlich zugänglich gemacht werden, gibt es eine Reihe von Möglichkeiten wie mit Variablen umzugehen ist, die als indirekte Identifikatoren in Erscheinung treten könnten. Übliche Bearbeitungsarten solcher Variablen sind:

    • Entfernung – das vollständige Löschen von Variablen, die direkte Identifikationsinformationen enthalten, z.B. das Löschen von Name, Adresse, Postleitzahl, etc. von Befragten.
    • Aggregieren oder Verringern der Präzision von Variablen – Vermindern der Präzision von potentiell enthüllenden sozio-demografischen Merkmalen durch das Reduzieren von Merkmalsdetails, wie Alter oder Wohnort der PartizipientInnen (bspw. Aufzeichnung des Geburtsjahrs anstelle von Tag, Monat und Jahr).
    • Gruppieren – das Zusammenfassen der Kategorien einer kodierten (kategorialen) Variablen zu einer umfassenderen Kategorie. Falls standardisierte hierarchische Kodes (wie Berufsklassifikationen) verwendet werden, kann dieser Prozess automatisiert werden.
    • Begrenztes Kodieren – Einschränken des oberen und unteren Bereichs einer kontinuierlichen Variable. Das Einkommen, wird oft begrenzt kodiert, um die Identifizierung von Personen mit einem besonders hohen Einkommen zu verhindern.
    • Kombinieren von Variablen – das Verbinden von zwei oder mehreren Variablen durch Schaffung einer neuen Sammelvariable. Das beinhaltet auch die Generalisierung der Bedeutung von Textvariablen, z.B. spezifische Formen von Ausbildungen und Qualifikationen, die möglicherweise einzelne Befragte identifizieren.

    Andere Techniken sollten bevor sie umgesetzt werden sorgfältig geprüft werden, sie können möglicherweise den Verlust des analytischen Potentials des Datensatzes bedeuten:

    • Stichprobe: Im Gegensatz zur Bereitstellung der Originaldaten, die Veröffentlichung einer Zufallsstichprobe von geeigneter Größe, die ausreichende Rückschlüsse ermöglicht.
    • Swapping: Vertauscht die Werte von indirekten Identifikatoren. Es werden die Werte einer Variable zwischen den Fällen vertauscht, z.B. das Alter. Es besteht dann kein Zusammenhang mehr zwischen RespondentInnen und dem tatsächlichen Alter, es bleibt aber die vollständige kovariante Struktur bestehen. Swapping ist eine Dienstleistung die von einigen Archiven zur Beschränkung des Enthüllungsrisikos angeboten wird.
    • Zufallseinflüsse: Hinzufügen von zufälligen Variationen oder stochastischen Fehlern. Dadurch werden die statistischen Eigenschaften zwischen der Variable und ihren Kovarianten beibehalten, während verhindert wird, dass die Variable zur Verknüpfung mit anderen Dateien benutzt wird.

    DatengeberInnen sollten in jedem Fall vorab das Datenarchiv konsultieren, um geeignete Anonymisierungsverfahren abzuklären. WISDOM führt auch eine unabhängige Vertraulichkeitsprüfung von übermittelten Datensätzen durch und arbeitet mit ForscherInnen an der Lösung von Vertraulichkeitsfragen. In vielen Fällen übernimmt WISDOM auch die Anonymisierung des Datensatzes.

  • Qualitative Daten

    Qualitative Daten

    Qualitative Daten beinhalten oft personenbezogene, sensitive Informationen über ForschungsteilnehmerInnen. Aus diesem Grund sind diese nicht immer damit einverstanden, dass Daten unanonymisiert verwendet und in weiterer Folge archiviert werden. In der Regel wird qualitatives Datenmaterial daher – entweder schon von den PrimärforscherInnen oder später vom Archiv – anonymisiert.

    Die Anonymisierung qualitativer Daten kann das Editieren von Daten wie Interviewtranskriptionen, die Verwendung von Pseudonymen, abstrakte Systeme der Kodierung oder das simple Entfernen von Text beinhalten. Wann immer Text überarbeitet wird, sollten sich ForscherInnen bewusst sein, wie das Material dadurch verändert wird. Die Zielsetzung sollte sein, ein vernünftiges Maß an Anonymisierung zu erreichen, das eine Sekundäranalyse nicht unnötig einschränkt. Die Anonymisierung kann mit anderen Restriktionen, wie Zugangsbeschränkungen, kombiniert werden, um die Vertraulichkeit der Daten zu gewährleisten. Eine klare Einverständniserklärung und informierte Einwilligung der Befragten bewahren vor unrealistischen und überzogenen Forderungen nach Anonymisierung.

    Am einfachsten gestaltet sich die Anonymisierung, wenn man sie bereits beim Erstellen des Transkripts anfertigt bzw. während des Transkribierens ein Verzeichnis über die zu anonymisierenden Identifikatoren erstellt. Der Grad der Anonymisierung hängt von mehreren Faktoren, wie der Sensibilität der Informationen oder der Möglichkeit, Rückschlüsse auf Personen zu ziehen, etc. ab. Es sollte vorweg abgeklärt werden, in welchem Ausmaß auch subtile, aber deutliche Hinweise auf Personen, Orte oder Institutionen anonymisiert werden. WISDOM empfiehlt die Verwendung von Pseudonymen, wobei darauf zu achten ist, dass der Sinngehalt der Daten nicht verloren geht. Um nicht unbeabsichtigt Änderungen vorzunehmen, sollten Such- und Ersetzungstechniken überlegt angewandt werden und unbearbeitete Versionen bzw. Anonymisierungsprotokolle für die Verwendung im Forschungsteam und für die Aufbewahrung im Archiv erhalten bleiben. Falls die Anonymisierung nach der Transkription durchgeführt wird ist sicherzustellen, dass die benutze Systematik konsequent vom gesamten Forschungsteam angewendet wird und in allen nachfolgenden Publikationen die gleichen Pseudonyme und Bezeichnungen verwendet werden.

    WISDOM hat aus der vorhandenen Literatur Richtlinien für die Anonymisierung zusammengestellt, die Sie hier abrufen können.

    PrimärforscherInnen können die Sensibilität des Datenmaterials und insbesondere einzelner Interviewpassagen oder Verwendungszusammenhänge weitaus besser einschätzen als SekundärforscherInnen. Daher empfiehlt WISDOM DatengeberInnen außerdem, qualitativen Datensätzen bei der Archivierung zusätzlich zu einer Anonymisierung ein Merkblatt beizufügen, in dem auf heikle Passagen in Interviews oder aus zukünftigen Veröffentlichungen resultierende potentielle Gefahren und/ oder Unannehmlichkeiten für InterviewpartnerInnen hingewiesen wird.

    Wenn sichergestellt werden soll, dass ein öffentlich zugänglicher Datensatz die Anonymität von Befragten gewährleistet, können DatenproduzentInnen Datenarchive konsultieren. WISDOM führt eine unabhängige Vertraulichkeitsprüfung von übermittelten Datensätzen durch und arbeitet mit ForscherInnen/ DatengeberInnen gemeinsam an der Lösung und Vermeidung von Problemen in Zusammenhang mit der Vertraulichkeit von quantitativen wie qualitativen Forschungsdaten.