Pseudonomisierungsmethoden und ggf. eine Spalte für Stratfied Sampling auswählen
Download der Testdaten, Statistiken von Original- und Testdatenset im Vergleich
Limitierungen: csv-Datei, max. 50MB Dateigröße, es werden nur die ersten 30.000 Zeilen und 15 Spalten beachtet
Es ist sinnvoll den Testdatengenerator nicht mehrmals im gleichen Browser zu öffnen, da die Daten in Form von Sessions verarbeitet werden. Sobald die Session abgelaufen ist, wird alles gelöscht.
Upload Datenset
Auswahl Samplingmethode
Bevor eine der Samplingmethoden angewandt wird, gibt es ein generelles Sampling. Das heißt, es wird sichergstellt, dass bei numerischen Daten immer das Minimum und das Maximum im Sample enthalten sind.
Außerdem ist sichergestellt, dass bei kategorischen Daten jede Kategorie mit mindestens einem Datensatz erhalten bleibt. Zum Schluss werden noch die Datenpunkte beibehalten, die die meisten/wenigsten
Zeichen pro Spalten besitzen.
Random Sampling: Eine Stichprobe (10% der ursprünglichen Größe) wird anhand von zufällig generierten Zahlen ausgewält.
Stratified Sampling: Die Grundgesamtheit wird in Gruppen mit ähnlichen Merkmalen eingeteilt (hier: Spalten). Anschließend wird aus jeder Gruppe eine Zufallsstichprobe gezogen.
Dadurch wird sichergestellt, dass die verschiedenen Merkmale dieser Gruppe repräsentativ bezüglich der Grundgesamtheit vertreten sind (insgesamt bleiben 10% der ursprünglichen Datenpunkte). Im nächsten Schritt, wenn die Daten eingelesen sind, kann eine
Spalte für diese Methode ausgewählt werden.