NoSQL matters und Berlin Buzzwords: Big Data und NoSQL in der Praxis angekommen

Veranstaltungsberichte  –  5 Kommentare

Big Data und NoSQL gehören derzeit sicherlich zu den meistgenannten IT-Schlagwörtern. Nicht verwunderlich ist es daher, dass beide Themen auch in der Konferenzszene eine wichtige Rolle spielen. Ende Mai und Anfang Juni gab es mit den Veranstaltungen NoSQL matters und Berlin Buzzwords zwei Gelegenheiten, sich über neue Entwicklungen zu informieren.

Die NoSQL-matters-Konferenz, zu der sich mehr als 250 Teilnehmer im MediaPark Köln trafen, fand zum ersten Mal statt. Während Doug Judd, Schöpfer der Hypertable-Datenbank, in seiner Eröffnungskeynote eine Zeitreise durch Vergangenheit, Gegenwart und Zukunft der NoSQL-Datenbanken unternahm, ging es in Luca Garullis Keynote schwerpunktmäßig um zukünftige Einsatzgebiete. Dem CEO der hinter OrientDB stehenden Firma NuvolaBase ging es unter anderem um den Begriff Polyglot Persistence, wonach nicht immer alle Daten in einer einzigen Datenbank(-Technik) abgelegt sein müssen, sondern stattdessen auch ein Mix aus unterschiedlichen Datenbank-Produkten zum Bewältigen der Projektanforderungen beitragen kann.

Neue Entwicklungen: Multi-Model- und NewSQL-Datenbanken

Bezogen auf NoSQL bedeutet das, dass die Frage über den Einsatz welcher NoSQL-Datenbank nicht immer zu genau einer der bekannten vier Gruppen von NoSQL-Datenbanken (Key-Value-Stores, Graphendatenbanken, spalten- und dokumentenorientierte Datenbanken) führen muss. Eine Auswahl mehrerer Datenbanken oder der Einsatz einer der neuen Multi-Model-Datenbanken ist ebenso eine prüfenswerte Option. Als Beispiel für eine solche Multi-Model-Datenbank ist neben OrientDB ArangoDB zu nennen. Bei ihnen haben sich die Hersteller nicht auf ein Speichermodell festgelegt und bieten den Anwendern somit die Möglichkeit, je nach Projektanforderung unterschiedliche Speicherarten zu nutzen.

Eine weitere neue Gattung im NoSQL-Bereich, die gleich mehrere Vorträge behandelten, sind die NewSQL-Datenbanken. Sie wollen die "guten Seiten" relationaler Datenbanken (im Speziellen die Abfragesprache SQL und die ACID-Transaktionsverarbeitung) beibehalten sowie gleichzeitig die Performance und Skalierbarkeit verbessern, um so auch für Einsatzgebiete interessant zu sein, die bisher nur für den Einsatz von NoSQL-Datenbanken sprachen.

Für viele Teilnehmer war der Vortrag "Welcome to Redis 2.6" des bei VMware arbeitenden Redis-Entwicklers Salvatore Sanfilippo ein Höhepunkt. Er war aufgrund der von vielen als lehrbuchmäßig angesehenen Qualität des Redis-Codes als "Hemingway of Code" angekündigt worden. Sanfilippo stellte mit der Lua Scripting Engine und verbesserten Bitoperationen zwei neue Features der zum Zeitpunkt der Konferenz kurz vor der Veröffentlichung stehenden nächsten Version der Key-Value-Datenbank vor.

Zu den meisten Sessions sind die Unterlagen inzwischen online verfügbar. Die zentrale Frage, welche der zahlreichen NoSQL-Datenbanken denn nun die beste sei, war sowohl in den Sessions als auch in den Pausen ein Diskussionsthema. Die häufigste Antwort war nicht überraschend: "Das hängt davon ab." Schließlich gibt es für unterschiedliche Anforderungen auch unterschiedliche Lösungen.

Auf diversen Slides gebrachte Datenbank-Markenübersicht (Bild: Matthew Aslett, The 451 Group)

Sprung nach Berlin

Bereits zum dritten Mal fanden die Berlin Buzzwords zu Themen wie skalierbare Suche, Datenanalyse in der Cloud und NoSQL-Datenbanken statt. Mit circa 700 Teilnehmern gab es nochmals eine deutliche Steigerung gegenüber dem Vorjahr. Das stellte aber gleichzeitig ein praktisches Beispiel für die Grenzen der Skalierbarkeit dar, da es im Veranstaltungszentrum Urania nur einen Raum gibt, der Sitzplätze für eine höhere dreistellige Zahl an Zuhörern bietet. So musste während einiger Sessions mancher Teilnehmer stehen.

Während die frühere Programm-Managerin für Googles Open-Source-Team und jetzige Red-Hat-Angestellte Leslie Hawthorns sich in ihrer Eröffnungskeynote der Community-Bildung und -Pflege annahm, behandelte die technische Keynote von Alex Lloyd das Google-interne Projekt Spanner. Es will die Punkte SQL-Abfrage und Skalierbarkeit auch im OLTP-Bereich (Online Transaction Processing) mit einem einzigen Datenbankprodukt ermöglichen, oder wie es Lloyd formulierte: "We want SQL semantics with NoSQL scale." Lloyd konzentrierte sich auf die Herausforderung, wie man mit Ungenauigkeiten von Zeitstempeln in globalen Rechner-Clustern umgehen und diese somit für eine korrekte Transaktionsreihenfolge in verteilten Datenbanken über Rechenzentrumsgrenzen hinweg einsetzen kann. Beide Keynotes sind inzwischen als Video online verfügbar.

Das Programm der Berlin Buzzwords reichte von Beiträgen zu aktuellen Forschungsthemen über neue Projekte bis hin zu Erfahrungsberichten zu bekannten Tools. Ein Beispiel für ein Forschungsthema war der Vortrag von Basho-Entwickler Sean Cribbs, der anhand einer vor kurzem veröffentlichten Schrift die sogenannten Convergent Replicated Data Types (CRDTs) vorstellte, mit denen sich die aus dem NoSQL-Bereich bekannte "Eventual Consistency" behandeln lässt. Als Beispiel für ein relativ neues Projekt wurde Apache Giraph vorgestellt, ein Framework für eine Graph-basierte Verarbeitung mit Hadoop. Ein Schwerpunkt zum Thema Suche war mit ElasticSearch ein relativ neues Projekt, mit dem nun eine Alternative zu Apache Solr als Suchserver existiert. Beide Projekte setzen auf Apache Lucene auf. Die Unterlagen zu vielen Sessions sind inzwischen auf den Wiki-Seiten der Konferenz verfügbar.

Fazit

Big Data und NoSQL sind nicht nur spannende, sondern auch auf dem Arbeitsmarkt stark nachgefragte Themen. Insbesondere in Berlin wurde das deutlich. Für die Suche nach dem am häufigsten verwendeten Ausdruck auf den Vortragsfolien und den Ausstellungsständen musste man weder Solr noch ElasticSearch einsetzen: Der Satz "We are hiring" war überall zu finden. Vor allem in der Ausstellung hatte man den Eindruck, dass mehr Personal- als Produktverantwortliche anwesend waren, um die zahlreichen und begehrten Big-Data-Entwickler kennen zu lernen.

Dass sowohl Big Data als auch NoSQL mehr als nur ein Hype-Thema sind, verdeutlichten diverse Erfahrungsberichte und kritische Auseinandersetzungen. Vorträge wie "No NoSQL at Google" zeigen, dass Unternehmen auch bereit sind, wieder zu den alteingesessenen Produkten zurückzukehren beziehungsweise dort zu verbleiben. Als Grund dafür wird meist die Popularität der Abfragesprache SQL genannt, die – im Gegensatz zu beispielsweise MapReduce – auch viele Mitarbeiter im IT-Bereich beherrschen, die keine Datenbank-Experten sind. Ein wichtiger Trend bei NoSQL-Datenbanken ist daher derzeit das Zusammenwachsen von SQL- und NoSQL-Produkten und damit eine Umsetzung der seit längerer Zeit geforderten Umbenennung von NoSQL in NotOnlySQL.

Im Big-Data-Bereich wird die Bedeutung von Hadoop weiter wachsen. Dessen Ökosystem nimmt rapide zu, und zunehmend mehr Forschungsaktivitäten beschäftigen sich mit der (Near-)Realtime-Fähigkeit von Hadoop, also der Forderung, dass Hadoop-Auswertungen nicht nur durch Offline-Batch-Läufe auf Backend-Systemen möglich sind, sondern sich durch Performancesteigerungen auch als Bestandteil der Online-Verarbeitung einsetzen lassen.

Beide Konferenzen können für einen Marktüberblick über Produkte und tiefergehende technische Fortbildungen uneingeschränkt empfohlen werden. BigData und NoSQL wachsen sicherlich weiter zusammen. Für die NoSQL matters-Konferenz im nächsten Jahr, die wiederum in Köln stattfinden soll, haben die Veranstalter daher bereits einen eigenen Big-Data-Track angekündigt. (ane)

Rudolf Jansen
arbeitet als freiberuflicher Softwareentwickler und Journalist in Aachen. Seine Tätigkeitsschwerpunkte liegen in den Bereichen Java, C++ und Datenbanken.