Hadoop und Big Data
Seminarziel
Apache Hadoop ist ein freies, in Java geschriebenes Framework für skalierbare, verteilt arbeitende Software. Der Einsatz von Hadoop ist besonders für Unternehmen interessant, da es vielseitige und weitreichende Anwendungen ermöglicht.
Das Seminar richtet sich an Entwickler und Architekten, die in der täglichen Praxis mit der Verarbeitung grosser Datenmengen für Analysezwecke konfrontiert sind. Aber auch Entscheider mit Programmierkenntnissen können sich auf diese Weise einen fundierten Eindruck über Hadoop verschaffen.
Sie gewinnen einen Überblick über Apache Hadoop und das nicht nur rein oberflächlich, sondern Sie sind durch die Praxisorientierung bereits ideal auf kommende Herausforderungen im Bereich Big Data gerüstet.
Zielgruppe
IT Architekten, Applikations-Entwickler/Verantwortliche und Datenbank-Entwickler/Administratoren
Themen:
- Einführung & Überblick
- MapReduce
- Hadoop-Core 6 Konzepte
- HDFS, YARN (MRv2)
- Pig, Jobs, Tasks
- Hadoop-Ökosystem / Services im Überblick
- Storm, Tez
- Zookeeper, Flume
- Name-Nodes und Data-Nodes
- Hadoop-Scheduler
- Grundlagen Hortonworks
- Installation & Konfiguration
- Filesystemstruktur
- Konfigurationsdateien
- HA-Cluster-Konfiguration (Name- und Datanode)
- Einbindung & Konfiguration: Compression-Libraries
- Tipps & Tricks
- Accumlo/Zookeeper als Services
- Verwaltung von Nodes im Hadoop-Cluster
- Tools: dfsadmin, mradmin
- Benutzer & Benutzerrollen / Rollentrennung (Admin/Operator)
- Betrieb & Wartung
- Ambari als Managementconsole
- Deployment / Undeployment Services
- Erweiterung von Ambari
- Verteilung Services
- Services starten / stoppen
- Redundanz / Ausfall-Simulation
- Szenario1: Festplattenausfall
- Szenario2: Data-Node-Ausfall
- Szenario3: Name-Node-Ausfall
- Logdateien
- Administration Accumlo
- Monitoring Services
- Performance-Monitoring & Optimierung / JVisualVM
- Cluster-Erweiterung im laufenden Betrieb