Eine praxisorientierte Bewertung von Architekturen und Techniken für Big Data
Autori
Viac o knihe
Die Idee zum vorliegenden Buch entstand während der Durchführung von Seminaren, Workshops und Lehrveranstaltungen zum Thema Big Data. Die sowohl im industriellen als auch universitären Umfeld durchgeführten Veranstaltungen verdeutlichten den Bedarf einer praxisorientierten Auseinandersetzung mit den vielfältig angebotenen Architekturansätzen und Techniken. Mit Hilfe dieses Bandes soll die Einarbeitung in das sich ständig verändernde Big Data „Ökosystem“ unterstützt werden. Dabei geht es weniger um eine Favorisierung nur eines Frameworks als vielmehr um die Anregung einer kritischen Auseinandersetzung mit alternativen Systemlösungen. Neben der Verdeutlichung von Einsatzszenarien gilt das besondere Interesse den mannigfaltigen Integrations- und Migrationsanforderungen einer realen Big Data Lösung. Die Möglichkeiten zur Berücksichtigung vielfältiger Datenquellen und Persistenzmechanismen haben maßgeblichen Einfluss auf den Erfolg entsprechender Big Data Ansätze. Der einführende Beitrag beschäftigt sich mit grundlegenden Eigenschaften von Big Data Lösungen und möglichen Systemansätzen. Darauf aufbauend geht ein weiterer Beitrag auf die technischen Details des Apache Hadoop-Kerns und die detaillierte Abbildung des MapReduce-Algorithmus ein. Die Architektur und Einsatzmöglichkeiten von NoSQL-Datenbanksystemen stehen im Mittelpunkt der folgenden Beiträge. Im Einzelnen werden Apache HBase, MongoDB sowie der zur echtzeitorientierten Suche einsetzbare ElasticSearch-Ansatz aufgegriffen. Mit SAP Hana existiert ein alternativer Architekturansatz für das SAP-Umfeld. Neben einer bodenständigen Einordnung und Abgrenzung zu klassischen BI-Ansätzen geht es im Beitrag insbesondere um mögliche Einsatzszenarien und Aspekte der Migration. Der abschließende Beitrag greift im Sinne eines Exkurses die cloudbasierte Bereitstellung einer Hadoop-Installation mit Hilfe der Container- Technologie Docker auf. Dabei wird unter anderem auf die Apache Ambari Lösung eingegangen, welche zur Bereitstellung, Konfiguration und Überwachung eines Hadoop Clusters verwendet werden kann.