Testdatengenerator

Mithilfe des Testdatengenerators kann aus einem Datenset ein pseudonomisiertes Sample erstellt werden. Dazu gibt es folgende Schritte:

  1. Originaldatenset auswählen, Samplingmethode festlegen
  2. Pseudonomisierungsmethoden und ggf. eine Spalte für Stratfied Sampling auswählen
  3. Download der Testdaten, Statistiken von Original- und Testdatenset im Vergleich
Limitierungen: csv-Datei, max. 50MB Dateigröße, es werden nur die ersten 30.000 Zeilen und 15 Spalten beachtet

Es ist sinnvoll den Testdatengenerator nicht mehrmals im gleichen Browser zu öffnen, da die Daten in Form von Sessions verarbeitet werden. Sobald die Session abgelaufen ist, wird alles gelöscht.

Upload Datenset

Auswahl eines eigenen Datensets:

Alternativ zum Upload eines eigenen Datensets kann hier ein Beispieldatenset (www.kaggle.com) ausgewählt werden:

Auswahl Samplingmethode

Bevor eine der Samplingmethoden angewandt wird, gibt es ein generelles Sampling. Das heißt, es wird sichergstellt, dass bei numerischen Daten immer das Minimum und das Maximum im Sample enthalten sind. Außerdem ist sichergestellt, dass bei kategorischen Daten jede Kategorie mit mindestens einem Datensatz erhalten bleibt. Zum Schluss werden noch die Datenpunkte beibehalten, die die meisten/wenigsten Zeichen pro Spalten besitzen.

Random Sampling: Eine Stichprobe (10% der ursprünglichen Größe) wird anhand von zufällig generierten Zahlen ausgewält.

Stratified Sampling: Die Grundgesamtheit wird in Gruppen mit ähnlichen Merkmalen eingeteilt (hier: Spalten). Anschließend wird aus jeder Gruppe eine Zufallsstichprobe gezogen. Dadurch wird sichergestellt, dass die verschiedenen Merkmale dieser Gruppe repräsentativ bezüglich der Grundgesamtheit vertreten sind (insgesamt bleiben 10% der ursprünglichen Datenpunkte). Im nächsten Schritt, wenn die Daten eingelesen sind, kann eine Spalte für diese Methode ausgewählt werden.