Dublettenprüfung – Dokumentation

Anwendung

Auf dieser Seite finden Sie das Benutzerhandbuch der Dublettenprüfung.

Dublettenprüfung
Dublettenprüfung

Einstellungen

Die Dublettenprüfung hat keine Voreinstellung und kann für jede Prüfung individuell konfiguriert werden. Markieren Sie alle Regeln für die Bereinigung und Dublettenprüfung, die Sie in der Stapelverarbeitung durchführen möchten.

Bereinigung

Alle Bereinigungen werden nacheinander durchgeführt und werden im Anschluss in neuen Feldern exportiert. Werden Bereinigungen durchgeführt, wird die Prüfung auf Dubletten erst im Anschluss durchgeführt.

Dubletten

Die Dublettenprüfung prüft nacheinander alle übergebenen Datensätze und bildet Gruppen. Über diese Gruppen können alle doppelten Datensätze im Nachgang gesichtet und bearbeitet werden. Welche Regeln bei der Prüfung einer Dublette durchgeführt wurden, wird ebenfalls ausgegeben.

Stapelverarbeitung

Wählen Sie eine Datei aus oder ziehen Sie diese per Drag&Drop auf das Feld “Importdatei” und prüfen Sie diese durch das Betätigen des “Prüfen-Button”. Dadurch startet die Überprüfung der gesamten Datei.

Der Vorgang der Überprüfung nimmt je nach Größe der Datei einige Zeit in Anspruch.

Der Name der Dubletten-Exportdatei wird automatisch vergeben und im identischen Format erzeugt, wie das übergebene Format. Wird zum Beispiel eine Datei mit dem Namen “dubletten.json” übergeben, so ist die Bezeichnung der Protokolldatei “dubletten-log.json”.

Vorab-Validierung

Die Vorabprüfung einer Dubletten-Importdatei kann Ihnen helfen, das Format und die Anzahl der gefundenen Datensätze, ohne eine Überprüfung durchzuführen, zu prüfen. Die Datei wird dabei analysiert und das Ergebnis Ihnen mit einer Meldung angezeigt.

Bereinigungen

Die hier aufgeführten Regeln der Dubletten-Bereinigungen sind Bestandteil der Dublettenprüfung. Ergänzende Möglichkeiten der Bereinigung werden wir im Laufe der Zeit für der Software hinzufügen.

Dublettenprüfung
Dublettenprüfung
BereinigungBeschreibung
c001Entfernen von mehrfacher Leerzeichen
c002Entfernen von Leerzeichen an Beginn oder Ende von Werten
c003Entfernen von nicht druckbaren Zeichen (bspw. Tab)
c004Ersetze deutsche Zeichen (Umlaute, ß, etc.)
c005Normalisieren Anführungszeichen und Hochkommata
c006Entfernen von doppelten Buchstaben, bspw. tt -> t

Sollten Sie eine Abweichung zu unserem hier aufgeführten Stand im Vergleich zur Dublettenprüfung erkennen, geben Sie uns bitte Bescheid. Haben Sie weitere Bereinigungen, die wir noch nicht zur Verfügung stellen? Geben Sie uns Bescheid, wir erweitern diese sehr gerne.

Regeln

Die hier aufgeführten Prüfregeln sind Bestandteil der Dublettenprüfung. Wir werden weitere Prüfungen in zukünftigen Versionen ergänzen.

Dublettenprüfung
Dublettenprüfung
PrüfungenBeschreibung
d100Daten stimmen zu 100% überein
d101Übereinstimmung bei Kleinschreibung
d102Ignoriere Land
d103Ignoriere Vorname/Nachname
d104Ignoriere Abteilung
d105Ignoriere Land/Vorname/Nachname/Abteilung
d106Ignoriere Hausnummer
d107Ignoriere Postleitzahl
d108Ignoriere Ort
d109Ignoriere Vorname
d110Ignoriere Nachname
d111Ignoriere Straße

Sollten Sie eine Abweichung der Dublettenprüfungen zu unserem hier aufgeführten Stand im Vergleich zur Dublettenprüfung erkennen, geben Sie uns bitte Bescheid.

Haben Sie weitere Prüfungen, die wir noch nicht zur Verfügung stellen? Geben Sie uns Bescheid, wir erweitern diese sehr gerne.

Konfiguration

Sie haben auf der Reiterkarte die Möglichkeit, einige Einstellungen für die Dublettenprüfung festzulegen. Diese werden bei der Verarbeitung berücksichtigt. Im Folgenden werden diese Einstellungen im Einzelnen beschrieben.

Dublettenprüfung - Einstellungen Verarbeitung
Dublettenprüfung – Einstellungen Verarbeitung

Trennzeichen

Das Trennzeichen ist nur für den Import von CSV-Dateien für die Dublettenprüfung relevant (unabhängig ob Stapelverarbeitung oder Hintergrundverarbeitung). Die Daten werden in einzelne Werte anhand dieses Trennzeichens aufgeteilt und zur Prüfung aufbereitet. Berücksichtigen Sie bitte bei der Einstellung des Trennzeichens auf ein Vorkommen in Ihren Stammdaten. Ein Komma oder ein Semikolon kann u.U. in einem Firmennamen vorkommen und zu einem Fehler in der Verarbeitung führen. Wir haben das Pipe-Zeichen “|” als Standardwert definiert. Für JSON und XLSX ist dieses Trennzeichen nicht notwendig.

Zeichenkodierung der Ausgabe

Mit dieser Einstellung haben Sie die Möglichkeit, die Codepage der CSV Ausgabe der Dublettenprüfung zu steuern. Im Standard ist hier UTF-8 angegeben. Wird die CSV Datei mit Microsoft Excel weiterverarbeitet, empfiehlt es sich Win1252 (dies entspricht der ANSI Kodierung) empfohlen.

Sollte die Datensätze in der Ausgabedatei der Dublettenprüfung in Ihrem Texteditor oder in Microsoft Excel beispielsweise bei Umlauten nicht korrekt dargestellt werden, stellen Sie bitte ebenfalls diesen Parameter auf den jeweils anderen als der bei Ihnen aktuell eingestellten. Dies behebt in den meisten Fällen Darstellungsprobleme.

Kommandozeile (cli)

Sie können die Dublettenprüfung auch ohne die grafische Oberfläche ausführen. Für das Ausführen des client Tools in einer Kommandozeile, geben Sie bitte alle notwendigen Parameter an.

Parameter

Führen Sie ew_service_duplicate --help aus und Sie erhalten die Übersicht aller Parameter der Dublettenprüfung, die Sie an die cli übergeben können.

Usage of: ew_service_duplicate.exe [options]

Main options:
      --lang=ARG          Language (de,en). Overwrites settings.
  -c, --cleaner=ARG       List of cleaning rules (default: all), comma-separated.
  -d, --duplicates=ARG    List of duplicate checks (default: all), comma-separated
      --inputfile=ARG     Filename to import (csv, json, xlsx)
      --outputfile=ARG    Filename to export the results (csv, json, xlsx)
      --split             Split export into different files.
      --testmail          Send a testmail.
      --validatefile=ARG  Check file, if structure is readable.
Information:
  -h, --help     Show help and exit.
  -v, --version  Version Return the version information.

Cleaning Rules:
  c001 -  Remove multiple spaces
  c002 -  Remove trailing spaces
  c003 -  Remove non printable characters
  c004 -  Remove German letters (umlauts, ß)
  c005 -  Normalize quotes, special chars (Result: ', ", -)

Duplicate Checks:
  d100 -  Entries matching with 100%
  d101 -  Entries matching ignoring case
  d102 -  Entries matching ignoring country
  d103 -  Entries matching ignoring firstname/lastname
  d104 -  Entries matching ignoring department
  d105 -  Entries matching ignoring country/firstname/lastname/department
  d106 -  Entries matching ignoring number
  d107 -  Entries matching ignoring postcode
  d108 -  Entries matching ignoring town
  d109 -  Entries matching ignoring firstname
  d110 -  Entries matching ignoring lastname
  d111 -  Entries matching ignoring street

-h --help

Zeigen Sie sich alle notwendigen Parameter an, die die cli unterstützt.

-v --version

Gibt die aktuelle installierte Version der Dublettenprüfung aus.

--lang

Mit diesem Parameter können Sie die Sprache der Dublettenprüfung angeben bzw. überschreiben.

-c --cleaner

Geben Sie diesen Parameter ohne weitere Bereinigungsregeln an, werden alle nacheinander durchgeführt. Möchten Sie nur bestimmte Bereinigungen durchführen, geben Sie diese an, bspw. --cleaner c001,c003.

Wird dieser Parameter weggelassen, werden keine Bereinigungen durchgeführt.

-d --duplicates

Geben Sie diesen Parameter ohne weitere Dubletten-Regeln an, werden alle nacheinander durchgeführt. Möchten Sie nur bestimmte Dubletten Prüfungen durchführen, geben Sie diese an, bspw. --duplicates d100,d105.

Wird dieser Parameter weggelassen, werden keine Bereinigungen durchgeführt.

-i --inputfile

Übergeben Sie mit diesem Parameter die Datei mit zu importierenden Daten an.

-o --outputfile

Die Exportdatei wird mit diesem Parameter angegeben. Wichtig ist, dass dieser nicht identisch mit der Importdatei ist.

--split

Trennt die Ergebnisdateien in eindeutige und in gefundene Dubletten auf.

--testmail

Testen Sie aus der Dublettenprüfung heraus einen Versand einer Test-E-Mail durch. Nach der Verarbeitung einer Datei kann Ihnen am Ende eine E-Mail zugesandt werden.

--validatefile

Überprüfen Sie die Importdatei der Dubletten-Bereinigung zuvor auf Ihre formale Richtigkeit.

Ausgaben der Kommandozeile

Die cli gibt während der Laufzeit immer wieder Meldungen auf der Kommandozeile aus, damit Sie verfolgen können, wie weit fortgeschritten die Prüfungen sind.

CSV Schnittstelle

Wir empfehlen die Nutzung der XLSX oder JSON Import-Schnittstellen.
Durch die Verwendung einer einfachen CSV-Datei bietet Ihnen die Software Dublettenprüfung eine Möglichkeit, Ihren gesamten Datenbestand zu überprüfen.

Wir achten darauf, dass bei der Erweiterung der Schnittstelle für den Import von CSV der Software Dublettenprüfung die Kompatibilität gewahrt bleibt. Damit können Sie jeweils die aktuellste Version einsetzen, ohne zusätzlichen Aufwand bei einer Integration in Ihr ERP System zu generieren.

Um die Zugehörigkeit der einzelnen Dubletten Datensätze in Ihre Stammdaten zu gewährleisten, haben Sie die Möglichkeit, bis zu zwei eindeutige Schlüssel in der Importdatei anzugeben.

Das Standard-Trennzeichen der einzelnen Elemente für die Dublettenprüfung ist das ‚|‘-Zeichen (pipe). Dieses kann über die Einstellungen geändert werden. Fettgedruckte Feldnamen sind Pflichtfelder (das Trennzeichen über Einstellungen änderbar).

Bitte beachten Sie, dass alle Felder in der Importdatei der Dublettenprüfung angegeben werden müssen, auch wenn Sie Schluessel_1 und Schluessel_2 nicht verwenden.

Aufbau – CSV Importdatei

FeldFormatBeispiel
key1String 
key2String 
firstnameString 
lastnameString 
name1String 
name2String 
name3String 
name4String 
streetString 
numberString 
postcodeString 
townString 
departmentString 
countryString 

Beispiel in Form einer CSV-Datei:

key1;key2;firstname;lastname;name1;name2;name3;name4;street;number;postcode;town;department;country;
val_key1;val_key2;val_firstname;val_lastname;val_name1;val_name2;val_name3;val_name4;val_street;val_number;val_postcode;val_town;val_department;val_country;

… (weitere Dublettenprüfungen)

Hinweis

Bitte achten Sie bei dem Erstellen der CSV-Importdatei auf die korrekte Anzahl an Spalten (14 Spalten). Dieser Hinweis ist wichtig für eventuelle Fehler beim Import bei der Verwendung von CSV. Sie können aber auch das XLSX oder JSON Importformat nutzen, um diese Fehlerquelle auszuschließen.

Aufbau – CSV Exportdatei

Die CSV-Exportdatei der Dubletten Prüfung beinhaltet die übergebenen, sowie bereinigten und als Duplikat markierten Werte.

FeldFormatBeispiel
internalidString 
key1String 
key2String 
firstnameString 
lastnameString 
name1String 
name2String 
name3String 
name4String 
streetString 
numberString 
postcodeString 
townString 
departmentString 
countryString 
// cleaned data  
cleaned firstnameString 
cleaned lastnameString 
cleaned name1String 
cleaned name2String 
cleaned name3String 
cleaned name4String 
cleaned streetString 
cleaned numberString 
cleaned postcodeString 
cleaned townString 
cleaned departmentString 
cleaned countryString 
// applied cleaners  
applied cleanersString 
// applied duplicates  
duplicate idsString 
address groupString 

Die Ausgabe der Exportdatei im CSV Format der Dublettenprüfung beinhaltet stets eine zusätzliche Spalte, in der die Überschriften enthalten sind. Bitte beachten Sie dies bei einem eventuellen automatischen Reimport der Prüfungsergebnisse.

JSON Schnittstelle

Mit der Schnittstelle für den Import für JSON Dateien, bietet Ihnen die Software Dublettenprüfung eine Möglichkeit, Ihren gesamten Datenbestand aus Ihren Stammdaten heraus zu überprüfen.

Wir achten darauf, dass bei der Erweiterung der JSON Dubletten-Schnittstelle die Kompatibilität stets gewahrt bleibt. Damit können Sie jeweils die aktuellste Version einsetzen, ohne zusätzlichen Aufwand bei einer Integration in Ihr ERP System zu generieren.

Um einen JSON Datensatz aus Ihrem ERP System eindeutig in der Dublettenprüfung zuordnen zu können, haben Sie die Möglichkeit, bis zu zwei eindeutige Schlüssel in der Importdatei anzugeben. Diese werden in der Exportdatei wieder zurückgegeben und können für den Reimport in Ihr ERP System genutzt werden. Sie können diese beiden Felder (key1 und key2) jedoch auch leer lassen. Diese sind für die Verarbeitung nicht notwendig.

Bitte beachten Sie, dass alle fettgedruckten Felder in der Importdatei angegeben werden müssen.

Aufbau – JSON Importdatei

FeldFormatBeispiel
key1String 
key2String 
firstnameString 
lastnameString 
name1String 
name2String 
name3String 
name4String 
streetString 
numberString 
postcodeString 
townString 
departmentString 
countryString 

Beispiel in Form einer JSON-Datei:

[
    {
        "key1":"val_key1",
        "key2":"val_key2",
        "firstname":"val_firstname",
        "lastname":"val_lastname",
        "name1":"val_name1",
        "name2":"val_name2",
        "name3":"val_name3",
        "name4":"val_name4",
        "street":"val_street",
        "number":"val_number",
        "postcode":"val_postcode",
        "town":"val_town",
        "department":"val_department",
        "country":"val_country"
    },
    {...}
]

Aufbau – JSON Exportdatei

Die JSON-Exportdatei der Dublettenprüfung beinhaltet die zuvor importierten Daten, ebenfalls, sofern nicht anders angegeben, im gleichen Datenformat. Bitte beachten Sie, dass die JSON Schnittstelle alle verfügbaren Felder ausgibt und somit das vollständigste Format darstellt.

FeldFormatBeispiel
internalidString 
key1String 
key2String 
firstnameString 
lastnameString 
name1String 
name2String 
name3String 
name4String 
streetString 
numberString 
postcodeString 
townString 
departmentString 
countryString 
// cleaned data  
cleaned firstnameString 
cleaned lastnameString 
cleaned name1String 
cleaned name2String 
cleaned name3String 
cleaned name4String 
cleaned streetString 
cleaned numberString 
cleaned postcodeString 
cleaned townString 
cleaned departmentString 
cleaned countryString 
// applied cleaners  
applied cleanersString 
// applied duplicates  
duplicate idsString 
address groupString 

Im Gegensatz zu XLSX oder CSV haben wir uns auf die rein englische Notation der Schlüssel der Dublettenprüfung innerhalb von JSON geeinigt. Damit können wir von vorneherein Laufzeitfehler bei einer fehlerhaften Konvertierung vermeiden.

Bitte beachten Sie, dass die Felder in der Exportdatei der Dublettenprüfung nicht immer in der gleichen Reihenfolge ausgegeben werden, wie in der obigen Tabelle angegeben.

XLSX Schnittstelle

Mit der Schnittstelle für den Import für Microsoft Excel (XLSX) Datei, bietet Ihnen die Software Dublettenprüfung eine Möglichkeit, Ihren gesamten Datenbestand aus Ihren Stammdaten heraus zu überprüfen.

Wir achten darauf, dass bei der Erweiterung der XLSX Dubletten-Schnittstelle die Kompatibilität (auch zu Microsoft Excel) gewahrt bleibt. Damit können Sie jeweils die aktuellste Version einsetzen, ohne zusätzlichen Aufwand bei einer Integration in Ihr ERP System zu generieren.

Um einen XLSX Datensatz aus Ihrem ERP System eindeutig in der Dublettenprüfung zuordnen zu können, haben Sie die Möglichkeit, bis zu zwei eindeutige Schlüssel in der Importdatei anzugeben. Diese werden in der Exportdatei wieder zurückgegeben und können für den Reimport in Ihr ERP System genutzt werden. Sie können diese beiden Felder (Schluessel_1 und Schluessel_2) jedoch auch leer lassen.

Die Bezeichnungen der Spaltenüberschriften der Dublettenprüfung werden beim Import innerhalb der XLSX Datei gesucht und beim Import zugeordnet. Bitte geben Sie jeweils immer nur eine Bezeichnung ein, bspw. “key1” und nicht “key1,schluessel_1”.

Die Groß- und Kleinschreibung der Spaltenüberschriften ist nicht relevant für den Import.

Aufbau – XLSX Importdatei

FeldFormatBeispiel
key1String 
key2String 
firstnameString 
lastnameString 
name1String 
name2String 
name3String 
name4String 
streetString 
numberString 
postcodeString 
townString 
departmentString 
countryString 

Aufbau – XLSX Exportdatei

Die XLSX-Exportdatei der Dubletten Prüfung beinhaltet die zurückgegebenen Werte der einzelnen Prüfungen, ebenfalls, sofern nicht anders angegeben, im gleichen Datenformat.

FeldFormatBeispiel
internalidString 
key1String 
key2String 
firstnameString 
lastnameString 
name1String 
name2String 
name3String 
name4String 
streetString 
numberString 
postcodeString 
townString 
departmentString 
countryString 
// cleaned data  
cleaned firstnameString 
cleaned lastnameString 
cleaned name1String 
cleaned name2String 
cleaned name3String 
cleaned name4String 
cleaned streetString 
cleaned numberString 
cleaned postcodeString 
cleaned townString 
cleaned departmentString 
cleaned countryString 
// applied cleaners  
applied cleanersString 
// applied duplicates  
duplicate idsString 
address groupString 

XLSX Versionen

Wir unterstützen der Software Dublettenprüfung alle XLSX Versionen bis einschließlich neuster Version von Office 365. Bitte haben Sie Verständnis dafür, dass wir ältere Versionen (XLS) nicht mehr unterstützen werden.

Unser Testumfang für die Software Dublettenprüfung beinhaltet sehr viele verschiedene Varianten, wie ein Microsoft Excel-Dokument aussehen kann. Dennoch konnten wir nicht alles Funktionen und Möglichkeiten prüfen. Sollten Sie beim Import von XLSX Dateien auf ein Problem stoßen, kontaktieren Sie uns und senden uns bitte ein oder zwei Testdatensätze zu, damit wir Ihnen schnell helfen können.