In diesem Tutorial zeige ich wie man einen Hadoop Single Node Cluster mit der Hortonworks Data Platform in einer Virtualbox installiert. Nach der Installation steht ein voll funktionsfähiger Cluster zum Ausprobieren bereit. Man braucht dazu kein komplett neues System aufsetzen, da alles in der virtuellen Maschine läuft. Die Installation ist ebenso als lokale Entwicklungsumgebung geeignet, um implementierte Map/Reduce Job zu debuggen o.ä. Die Hortonworks Data Platform ist eine 100% Open Source Apache Hadoop Distribution und enthält die folgenden Komponenten:
- Hadoop Distributed File System (HDFS)
- MapReduce
- Apache Pig
- Apache Hive
- Apache HCatalog
- Templeton
- Apache HBase
- Apache ZooKeeper
- Apache Oozie
- Apache Sqoop
- Ganglia
- Nagios
Dieses Tutorial basiert auf diesem Einführungsleitfaden. Während der Installation sollte eine schnelle Internetverbindung zur Verfügung stehen, da ansonsten Probleme mit Puppet timeouts auftreten können. In diesem Fall kann es sinnvoll sein einige RPMs vorher manuell zu installieren. Dieser Thread im Hortonworks Forum ist dazu evtl. hilfreich.
Installation Virtualbox
- Der erste Schritt ist die Installation der Virtualbox Software, welche hier heruntergeladen werden kann. Bitte die entsprechende Datei für das installierte Betriebsystem wählen.
- Virtualbox mit den Standardeinstellungen installieren
- Die ISO-Datei für CentOS 6.3 von einem Mirror der Wahl herunterladen. (z.B. diese ISO).
- ISO-Datei in Virtualbox installieren. Detaillierte Installationsanweisungen finden sich hier .
- Vor dem Start der virtuellen Maschine bitte folgende Einstellungen konfigurieren:
- Hauptspeicher: 4096 MB
- Festplattenspeicher: 16 GB
- IOAPIC aktivieren
- Virtuelle Maschine starten
Folgende Bildschirmfotos sind hierzu hilfreich:
Installation CentOS
- Wenn alles soweit korrekt eingestellt ist, dann wird die Installation von CentOS automatisch gestartet.
- Bitte „Install or upgrade an existing system“ von der Liste auswählen.
- Für den Hostnamen die Standardeinstellung so lassen: „localhost.localdomain“
- Den „Media Test“ überspringen.
- Den Installationstyp „Minimal Desktop“ auswählen.
- Einen User für den Cluster anlegen (z.B. hadoop).
- Nach der erfolgreichen Installation die virtuelle Maschine restarten und als User „root“ einloggen
Vorbereitung der HMC Single Node Cluster Installation
- Das Keyboard Layout auf die bevorzugte Sprache umstellen „System->Administration->Keyboard“.
- Firewall deaktivieren.
- SELinux deaktivieren.
- SELINUX=enforcing auf SELINUX=disabled ändern
- ntpd beim Systemstart automatisch hochfahren
- Die Datei „/etc/hosts“ so anpassen wie in dem folgenden Bildschirmfoto. Es ist sehr wichtig, dass der erste Eintrag „localhost.localdomain“ lautet, da ansonsten das HMC Setup nicht funktionieren wird. Es gibt in diesem Fall ein Problem mit der Hostnamenauflösung.
- „hostname -f“ ins Terminal eingeben. Die Ausgabe sollte „localhost.localdomain“ sein.
- „hostname -s“ ins Terminal eingeben. Die Ausgabe sollte „localhost“ sein.
- Den ssh-Service starten.
- sshd sollte beim Bootvorgang automatisch starten
- Den passwortlosen SSH Login für den Benutzer „root“ auf localhost konfigurieren.
- Die Konfiguration des ssh-Zugriffs ohne Passwort mit folgendem Kommando verifizieren:
- Eine Textdatei „hostdetail.txt“ erstellen, welche alle Server des Clusters beinhaltet. In unserem Beispiel ist es nur der lokale Host:
- Wenn ein GUI-Editor verwendet werden soll, dann wird zunächst folgende Meldung erscheinen. In diesem Fall kann man relativ einfach, z.B. gedit, nachinstallieren. Einfach den Anweisungen folgen.
- Nach der Vorbereitung der Installation empfiehlt es sich einen Snapshot der Virtualbox zu erstellen, um später einfach wieder zu diesem Punkt zurückzukommen, wenn etwas bei der Installation schief läuft.
chkconfig iptables off
chkconfig ip6tables off
vi /etc/selinux/config
chkconfig ntpd on
/sbin/service sshd start
chkconfig sshd on
ssh-keygen
ssh-copy-id localhost
chmod 700 .ssh
chmod 640 authorized_keys
ssh localhost
localhost.localdomain
Installation Hortonworks Data Platform mit HMC
- RPM herunterladen (Auf dieser Seite kann geprüft werden, ob bereits eine neuere Version existiert.)
- Installation „Extra Packages for Enterprise Linux (EPEL)“
- Installation HMC
- Installationsstatus prüfen
- HMC service starten. Die Frage bzgl. der Oracle-Lizenz bestätigen.
- Firewall stoppen
- Nun kann mit dem finalen Installationsschritt fortgefahren werden.
rpm -Uvh http://public-repo-1.hortonworks.com/HDP-1.1.1.16/repos/centos6/hdp-release-1.1.1.16-1.el6.noarch.rpm
yum install epel-release
yum install hmc
rpm -qa | grep hmc
service hmc start
/etc/init.d/iptables stop
Provisionierung des Clusters
- Die Hauptseite des Hortonworks Management Center (HMC) aufrufen. Wenn der Aufruf von außerhalb der virtuellen Maschine stattfindet, dann einfach localhost mit der IP der Virtualbox ersetzen (ifconfig).
- Den Wizard-Anweisungen folgen.
- Bei der Frage nach dem „Disk Mount Point“ bitte einen anderen angeben, als vorgeschlagen. Zum Beispiel „/data“.
- Wenn die Installation erfolgreich war, dann sieht das so aus 🙂
- Bei einem Fehler sind diese Logfiles ggf. sehr hilfreich:
- Dashboard aufrufen, um den Status des Clusters zu überprüfen:
- Für das sichere Herunterfahren zunächst alle Services über das HMC stoppen.
- Nach dem erneuten Start des Systems kann HMC einfach mit folgenden Kommandos wieder hochgefahren werden:
- Für das automatische Starten von HMC beim Bootvorgang ist diese Anleitung ggf. hilfreich (optional).
http://localhost/hmc/html
/var/log/hmc/hmc.log
/var/log/puppet_apply.log
service hmc start
service hmc-agent start
Der Cluster kann nun benutzt werden. Bei Problemen und Fehlern empfehle ich einen Blick in die Dokumentation von Hortonworks zu werfen oder hinterlasst einfach einen Kommentar. Frohe Weihnachten 🙂
Weitere Beiträge
von Dennis Schulte
Dein Job bei codecentric?
Jobs
Agile Developer und Consultant (w/d/m)
Alle Standorte
Gemeinsam bessere Projekte umsetzen.
Wir helfen deinem Unternehmen.
Du stehst vor einer großen IT-Herausforderung? Wir sorgen für eine maßgeschneiderte Unterstützung. Informiere dich jetzt.
Hilf uns, noch besser zu werden.
Wir sind immer auf der Suche nach neuen Talenten. Auch für dich ist die passende Stelle dabei.
Blog-Autor*in
Dennis Schulte
Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.
Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.