Skip to content
Snippets Groups Projects
Commit 8093bc43 authored by Raphael Das Gupta's avatar Raphael Das Gupta
Browse files

Merge branch 'apache-hop' into 'master'

Apache hop

See merge request !5
parents dcb10d04 2c2b65cb
Branches
No related tags found
1 merge request!5Apache hop
Pipeline #411195 passed
......@@ -60,7 +60,7 @@ Die Einstellungen bei _CSV file input_ sind wie folgt:
Klicken Sie anschliessend auf den Button _Get Fields_. Damit werden neben der Kopfzeile die gegebene Anzahl Datensätze eingelesen, um die Felder und deren Datentypen zu bestimmen. Im Dialog werden diese anschliessend tabellarisch aufgelistet.
Setzen Sie bei den Feldern `CITY` und `STATE` den _Trim type_ auf `both`. Damit werden Leerzeichen zu Beginn und am Ende entfernt. (Ohne diese Einstellung funktioniert die Aufgabe 4 nicht.)
IMPORTANT: Setzen Sie bei den Feldern `CITY` und `STATE` den _Trim type_ auf `both`. Damit werden Leerzeichen zu Beginn und am Ende entfernt. (Ohne diese Einstellung funktioniert die Aufgabe 4 nicht.)
image::images/sales_csv1.png[]
......@@ -72,7 +72,7 @@ Prüfen Sie, ob die Datensätze vollständig und plausibel sind.
.Ziel
- Datensätze aufteilen
Mit dem Block _Filter rows_ können Datensätze aufgrund von Kriterien gefiltert resp. aufgeteilt werden. Erweitern Sie die Pipeline aus Aufgabe 2 so, dass Datensätze ohne gesetzte Postleitzahl (Feld `POSTALCODE`) herausgefiltert werden.
Mit dem Block _Read zips_ wird die Datei `zipssorted.csv` eingelesen. Beachten Sie, dass hierfür der type von `POSTALCODE` auf `String` gesetzt werden muss. Davon abgesehen können Sie gleich wie bei Aufgabe 2 vorgehen.
image::images/sales_pipeline2.png[]
......@@ -97,7 +97,7 @@ Hierzu sind neben einem zusätzlichen Block _CSV file input_ einige weitere Blö
image::images/sales_pipeline3.png[]
Mit dem Block _Read zips_ wird die Datei `zipssorted.csv` eingelesen. Hier sind keine besonderen Einstellungen erforderlich, Sie können gleich wie bei Aufgabe 2 vorgehen.
Mit dem Block _Read zips_ wird die Datei `zipssorted.csv` eingelesen. Beachten Sie dort, dass der type von `POSTALCODE` auf `String` gesetzt ist. Ansonsten können Sie können gleich wie bei Aufgabe 2 vorgehen.
Mit dem Block _Stream lookup_ wird der Lookup ausgeführt. Dabei wird die Postleitzahl aufgrund von `CITY` und `STATE` gesucht. Der Block fügt hierzu bei den Datensätzen eine zusätzliches Feld `ZIP_RESOLVED` hinzu, in dem die gefundene Postleitzahl abgelegt wird. Die Einstellungen des Blocks _Stream lookup_ sind wie folgt:
......@@ -156,6 +156,11 @@ image::images/sales_pipeline5.png[]
image::images/sales_database1.png[]
[NOTE]
====
Beachten Sie, dass unter Username und Password Benutzername und Passwort des zu verwendenden Benutzerkontos im Datenbank-Managementsystem (z.B. ihrer lokalen PostgreSQL-Instanz) gefordert sind.
====
Mit _Test_ können Sie prüfen, ob eine Verbindung zur Datenbank aufgebaut werden kann.
Legen Sie in den Einstellungen unter _Target Table_ mit `SALES_DATA` den Namen der Tabelle fest, in der die Daten abgelegt werden sollen. Klicken Sie anschliessend den Button _SQL_. Falls die Tabelle noch nicht existiert (was der Fall sein sollte), wird der `CREATE TABLE` Befehl aufgelistet, mit dem die Tabelle erstellt werden kann:
......@@ -197,33 +202,3 @@ Entwickeln Sie eine Pipeline, welche die Temperaturen nach °C und °F umrechnet
====
Benennen Sie zuerst die Felder so um, dass sie keine Klammern ( ) im Namen aufweisen.
====
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment