Einführung in OpenRefine:

Da ich an der Live-Vorlesung schon nach kurzem nicht mehr mitgekommen bin, habe ich stattdessen auf die Aufnahme gewartet. Die aufgenommene Vorlesung konnte ich dann jederzeit stoppen und alle Befehle und Einstellungen in meinem Tempo vornehmen. Dies hat mir sehr geholfen.

OpenRefine ist ein open source Programm für die Bereinigung und Umwandlung von Daten. Es bietet vielfältige Funktionen und kann vor allem auch für Einsteiger genutzt werden, da keine ausgefeilten Programmierkenntnisse nötig sind. Die Oberfläche ist ähnlich aufgebaut wie Excel und ist auf den ersten Blick recht intuitiv nutzbar. Die Skriptsprache von OpenRefine ist “Grell”.Nach dem kurzen theoretischen Abriss zur Software gingen wir über zur Installation von OpenRefine.

Die Installation funktionierte problemlos, inzwischen haben wir ja auch schon einiges installieren müssen. So langsam komme ich mit dem Terminal klar. Weiter ging es mit einer Demonstration, der Basisfunktionen von OpenRefine. Gestartet haben wir mit einer einfachen Bereinigung der Sprachcodes und dann haben wir die Autorennamen mit der «split multi-valued cells» Funktion aufgeteilt, einige bereinigt und dann wieder mit «join multi-valued cells» zusammengeführt. Dies fand ich ziemlich spannend und ich konnte dies parallel mitmachen. Danach wurde noch die «Cluster and edit» Funktion anhand eines Beispiels erläutert. Es hat mich erstaunt, wie gut die Bereinigungsvorschläge vom Programm waren.

Danach durften wir selber mit kleinen «Fingerübungen» einige Bereinigungsfragen beantworten. Diese waren einfach und ich konnte sie problemlos lösen.

Hier habe ich den Publisher MDPI bereinigt: OpenRefine

Reconciliation Vorführung

Dies hatte gut geklappt, ich konnte es parallel ausführen. Es war spannend zu sehen, wie solche Bereinigungen funktionieren. Dieses Beispiel war allerdings schon ein wenig komplex. Ich konnte es zwar selber mitmachen, aber denn Zweck richtig nachzuvollziehen fand ich schwierig.

Weiter ging es mit der Übung «CSV nach MARCXML mit OpenRefine». Ich fand es sehr schwierig, aus der Skriptsprache etwas ablesen zu können. Aus den kurzen Einführungsbeispielen konnte ich mir noch die Split und Join-Funktion merken und habe mir gedacht, dass es im Übungsbeispiel wohl die gleich Funktion hat. Herr Lohmeier hat es uns dann erläutert.

nab a22 uu 4500

Alle Werte die nicht in geschweiften Klammern stehen werden als Text ausgegeben. Mit der «Value.replace» Funktion wird in der vierten Zeile diese Webadresse mit Nichts ersetzt, also sie wird demnach gelöscht. Mit der Funktion «Escape» können Zelleninhalte in verschiedene Datenformate konvertiert werden. Die «Split» Funktion in Zeile 11 hat den Zweck für alle Autoren, die nicht als erstes genannt wurden ein 700a Feld anzulegen. Für den erstgenannte AutorIn soll hingegen ein Feld 100a angelegt werden.

Aufgabe 3: Validieren mit XMLlint

Diese letzte Aufgabe hat gut geklappt. Gegen den Schluss war es zwar ziemlich komplex aber da ich die Vorlesung jederzeit stoppen konnte und die Schritte in meinem eigenen Tempo durchgehen konnte hat es funktioniert.

Insgesamt gefällt mir OpenRefine einiges besser als Excel und ich würde dieses Programm sicher bevorzugen, sollte ich einmal solche Bereinigungen vornehmen müssen. Die Funktionen sind meiner Meinung nach benutzerfreundlicher und intuitiver. Ich finde es auch sehr passend, dass das Programm vor allem von Bibliotheken verwendet wird.

3431 Zeichen