IT-Strategien

Big Data auswerten mit Hadoop

28.11.2014 von Redaktion pcmagazin

Die neue Generation des freien Software-Frameworks schreibt Benutzerfreundlichkeit groß und erleichtert Unternehmen deutlich die Verarbeitung und produktive Nutzung von Big Data.

ca. 5:00 Min
Business-it
VG Wort Pixel
Big Data
Big Data
© Michael D Brown / Shutterstock

Von allen IT-Innovationen der jüngsten Zeit hat Hadoop sicher die größten Umwälzungen für Unternehmen mit sich gebracht. Die Lösung verspricht, die stetig wachsende Datenflut zu Gewinnen zu machen. Allein in meiner Branche - Medien und Telekommunikation - ermöglicht Hadoop eine ganze Reihe von Analysen, die in so unterschiedlichen Bereichen zum Einsatz kommen können wie Netzwerkplanung, Kundenservice, EDV-Sicherheit, Betrugserkennung und zielgerichtete Werbung.

Bisher ist es vielen normalen Unternehmen jedoch schwergefallen, dieses Datenpotenzial auch auszuschöpfen. Viele experimentierten zunächst mit einigen der 13 Funktionsmodule von Apache Hadoop, einer Konstellation von Technologien, für deren Beherrschung Hadoop-Nutzer der ersten Stunde - darunter eBay, Facebook und Yahoo - große Teams einsetzen und mehrere Jahre investieren mussten.

Die zweite Generation


Jürgen Urbanski
Der Autor: Jürgen Urbanski, CEO von TechAlpha
© Jürgen Urbanski

Die Hadoop-Technologie der ersten Generation (1.x-) ließ sich weder einfach einführen noch leicht handhaben. Neue Nutzer hatten Schwierigkeiten, die unterschiedlichen Komponenten eines Hadoop-Clusters zu konfigurieren. Scheinbar geringfügige und daher leicht übersehene Details wie Patchversionen erwiesen sich als extrem wichtig. Das Ergebnis war, dass das Angebot häufiger als erwartet den Dienst versagte und viele Probleme erst bei hoher Auslastung zutage traten. Nach wie vor fehlt es in Unternehmen an Kenntnissen, obwohl führende Anbieter wie Hortonworks gute Trainings durchführen.

Viele dieser Lücken werden zum Glück durch die zweite Generation von Hadoop-Tools geschlossen, die Hortonworks HDP 2.0 nennt und die beim jüngsten Hadoop Summit 2014 in Amsterdam lebhaft diskutiert wurden.

Eine der zentralen Erwartungen der Kunden ist, dass das System gut zu handhaben ist. Das trifft vor allem auf die geschäftskritischen Anwendungen zu, mit denen Service-Provider zu tun haben. Mit dem intuitiven Web-Interface Ambari hat Hadoop hier einen großen Schritt nach vorne gemacht. Über Ambari lassen sich Hadoop-Cluster sehr viel einfacher einrichten, verwalten und überwachen.

Ambari ermöglicht eine automatisierte Erstinstallation ebenso wie laufende Upgrades ohne Service-Unterbrechung, gekoppelt mit hoher Verfügbarkeit und der Wiederherstellung im Notfall - alles Faktoren, die für einen effizienten IT-Betrieb unverzichtbar sind.

Allzweckwaffe für Big Data

Darüber hinaus wächst das Ökosystem unabhängiger Softwarehändler, auf das der Vertrieb von Hadoop aufbaut. Dies ist aus zwei Gründen wichtig: Erstens hängt bei der Kaufentscheidung vieles davon ab, wie sich Hadoop in die bestehende IT-Umgebung integrieren lässt, die in den meisten Fällen Business-Intelligence-Lösungen und Data Warehouses traditioneller Anbieter umfasst. Zweitens werden dadurch Bedenken hinsichtlich der mangelnden Kenntnisse im eigenen Team ausgeräumt.

So verfügt etwa die Deutsche Telekom über etwa 600 IT-Mitarbeiter mit SQL-Kenntnissen. Zwar werden viele dieser Leute jetzt noch umfassenderes Wissen über und mit Hadoop erlangen, doch können dank der Integration auf Produktebene, wie sie zum Beispiel Microsoft und Teradata bieten, auch solche Mitarbeiter Anfragen über Hadoop stellen, die (noch) keine Hadoop-Spezialisten sind.

Auch die verbesserte Sicherheit und das optimierte Datenlebenszyklus-Management spielen eine große Rolle für Unternehmen, die eine Allzweckplattform für Big Data aufbauen möchten, mit der unterschiedliche Abteilungen, Anwendungen und Datenrichtlinien bedient werden können. Für die Sicherheit sorgt das Knox-System, das einen einzelnen, sicheren Zugang für den gesamten Apache-Hadoop-Cluster bietet. Falcon steuert das Framework für das Datenlebenszyklus-Management bei - und zwar über eine deklarative Programmiersprache (ähnlich XML), mit der sich Datenbewegungen steuern, Daten-Pipelines koordinieren und Richtlinien für den Lebenszyklus sowie für die Verarbeitung von Datensätzen festlegen lassen.

Datenparkplatz ade

Der vielleicht wichtigste Punkt ist jedoch, dass sich mit der zunehmenden Verbreitung von Hadoop in Unternehmen gezeigt hat, dass das System vielfältige Verarbeitungsmodelle - auch jenseits der Batchverarbeitung - unterstützen muss, um typischen Unternehmen ein breiteres Anwendungsspektrum bieten zu können. Die meisten Unternehmen möchten Daten im verteilten Datensystem von Hadoop (Hadoop Distributed File System, HDFS) speichern und bei gleichbleibendem Service-Level unterschiedliche, gleichzeitige Zugriffsmöglichkeiten haben.

Auch interessant

Trend-Thema

Chancen und Risiken von Big Data

Business Analytics

Sind Sie fit für Big Data?

Zum Umfang von Hadoop 2.0 zählt daher auch das Ressourcenmanagement-Tool Yarn, das verschiedene Anwendungen voneinander trennt und neben der einfachen Stapelverarbeitung noch eine Vielzahl weiterer Anwendungsfälle unterstützt, darunter interaktive Verarbeitung, Online-Verarbeitung, Streaming und Graphenverarbeitung. So kann man ohne Übertreibung sagen, dass sich Hadoop vom preiswerten Datenparkplatz zu einer Plattform entwickelt hat, die schnelle und fundierte Entscheidungen unterstützt.

Ein Beispiel aus der Praxis

Ein gutes Fallbeispiel hierfür ist die für ihre schnurlosen Telefone bekannte Firma Gigaset, ehemals eine Geschäftseinheit des Siemens-Konzerns. Mit der intelligenten Lösung für vernetztes Wohnen "Gigaset Elements" schöpft das Unternehmen die Möglichkeiten moderner Big-Data-Technologien voll aus. Mithilfe von Hadoop erschließt sich Gigaset einen völlig neuen Markt, in dem zukünftig noch weitere Geschäftsmodelle möglich werden dürften.

Elements besteht aus einem Cluster von kleinen Sensoren, die sich schnell und problemlos in jedem Haus anbringen lassen - man befestigt sie einfach an Türen oder Fenstern. Die ebenso robusten wie kinderleicht zu bedienenden Elements-Sensoren überwachen das Heim und senden die Daten über eine Basisstation in die Hadoop-Cloud.

Das mag relativ simpel erscheinen, doch die verschiedenen Warnhinweise, Ereignisse und Pings, die Elements verschickt, summieren sich innerhalb kurzer Zeit auf zehn Millionen Nachrichten - pro Tag. Allein das Traffic-Volumen von Millionen von Türen, die unter dem wachsamen Auge von Elements geöffnet und geschlossen werden, entspricht etwa dem eines Denial-of- Service-Angriffs.

Dieses Meer an Rohdaten ist nur nach statistischer Relevanz sortiert. Wie sie zu interpretieren sind und welche Entscheidungen sie bewirken, ist dem einzelnen Kunden überlassen, der die visualisierten Daten auf seinem Smartphone oder Computer sieht. Kunden können zum Beispiel externe Dienstleister wie Rettungs- oder Sicherheitsdienste alarmieren.

Dieses neue, im wachsenden Internet der Dinge verwurzelte Echtzeit-Informationssystem für Verbraucher ist Lichtjahre entfernt vom traditionellen Endgeräte-Geschäft.

Ausblick

Soweit die Geschichte eines Unternehmens, das mit Hadoop einen Sprung nach vorne macht. Doch wann folgen andere diesem Beispiel? Meine Voraussage ist, dass bis 2015 mehr als die Hälfte der 2.000 weltweit größten Unternehmen Hadoop einsetzen und produktiv nutzen werden. Ich gehe auch davon aus, dass wir in fünf Jahren in vielen Branchen eine deutlich höhere Rentabilität sehen werden. Unternehmen, die voll auf Hadoop setzen, haben dabei die Nase vorn.

Nächste passende Artikel

In unserem Antivirus Test 2020 treten insgesamt 12 AV-Programme an - von Avira bis Kaspersky.

"Big Head"

Neue Ransomware täuscht Windows Update vor
Sackboy für PS5

Jump-&-Run-Spaß für…

Sackboy: A Big Adventure für PS5 im Test
LC-70UI9362 UHD

Verkaufsstart der…

4K Big Aquos: Sharp bringt Fernseher mit 60- und…
image.jpg

Big Data Analytics

Datenauswertung in Produktion und Logistik
cloud computing

Cloud Computing

Big Data - Analysetools aus der Cloud
Fit für Big Data?

Business Analytics

Sind Sie fit für Big Data?
Big Data

Big Data

Big Data im Jahre 2014
Big Data,CeBIT,Datability

Trend-Thema

Chancen und Risiken von Big Data
Überrasch’ mich!
mehrweniger

Mehr zum Thema

Akamai GNet Screenshot

Interaktive Maps und Grafiken

So haben Sie das Internet noch nie gesehen!

Daten sichern

Outlook-Funktionen

Sichern und Archivieren von Outlook-Dateien

Digitale Welt

Digitale Transformation

Sourcing-Strategien in der digitalen Welt

Mit dem Begriff Flatrate verbindet der Durchschnittskunde jedenfalls bei Internetzugängen über das Festnetz einen Festpreis für eine bestimmte Surfgeschwindigkeit. (Zitat: Landgericht Köln)

DSL-Anbieter

Flatrate-Drosselung: Urteile und Rechtslage

Domain Registar Wechsel

Tipps

Domain-Registrar wechseln: Was Sie beachten müssen

Weiter zur Startseite