Mit der Zeit wird alles größer. Die Anzahl der Photos auf meinem Rechner, der Stapel Arbeit auf meinem Schreibtisch, … Keiner löscht mehr irgendwelche Daten. Wieso denn auch, wenn Speicherplatz recht preisgünstig ist? Und als Unternehmen darf ich das auch nicht mal so eben. Hier sprechen eine Reihe von gesetzlichen Regelungen und Anforderungen dagegen. Ergo, es wird nichts entsorgt oder gelöscht. Man weiß ja nie wozu es später noch gut ist ;-).
Welche Konsequenzen das hat, merke ich (so langsam) in der Cloud. Datenbanken werden immer größer. Und was noch erschwerend hinzu kommt: Diese Daten sollen überall auf der Welt immer schnell verfügbar sein. Also verteile ich diese - auch hier lässt sich die Physik, d.h. Laufzeiten von Signalen etc. durch IT nicht außer Kraft setzen -, wenn sie nicht schon von vorneherein verteilt vorliegen. Geht das überhaupt? Die einfache (Management-)Antwort hierauf ist: Es muss gehen! Irgendwie. ;-)
Dabei sind Daten so flexibel wie, mmmhh … sagen wir, wie eine Ziegelsteinmauer. Sie glauben mir nicht? Dann versuchen sie einmal größere Datenmengen “mal eben” zu anderen Systemen zu transferieren, um diese dort zu be- oder verarbeiten. Sie werden dabei ganz schnell an ihre Grenzen stoßen. Ergo, ich bringe meine Applikationen hin zu den Daten, die sich natürlich irgendwo auf der Welt - besser gesagt in der Cloud - befinden können.
Dabei stellen sich mir ein paar Fragen, auf die ich bis jetzt selbst keine Antwort habe:
- Wie verteile ich meine Applikationen und Anfragen auf die verteilten Datenmengen?
- Wie koordiniere, kombiniere und verknüpfe ich die Ergebnisse „richtig“?
- Wie kann ich komplexe Suchabfragen realisieren?
“Dazu gibt es doch Hadoop!” werden einige von Ihnen einwenden. Stimmt. Aber Hadoop, wie es heute verfügbar ist, ist hier noch nicht weit genug gedacht.
Mein Fazit: Wir brauchen neue Verfahren und Methoden, um mit solch großen Datenmengen umzugehen. Einige haben wir schon. Aber reichen die? Mitnichten. Denn sobald ich nur ein paar der Operationen auf (wirklich) großen und (global) verteilten “Datenbanken” durchführen möchte, z.B. mal eben mit so etwas wie einem “SQL-Statement”, wie ich es aus meinem Unternehmen kenne, dann “quietscht” es schon mächtig. Vorausgesetzt es ist überhaupt möglich. Hier müssen wir neue Wege beschreiten und noch eine Menge Gehirnschmalz rein stecken. Aber was sag’ ich. Das wussten Sie sicher schon. In diesem Sinne. Lassen Sie es uns mal ein wenig größer denken.
Ihr Michael Pauly
P.S.: … und das ich nicht der einzige bin der solche Gedanken hat zeigte sich in einer Reihe von Diskussionen in dem am 27. Januar neu gegründeten Arbeitskreis “Big Data” der Bitkom.












Peter
6. Februar 2012 14:52
Ich denke mal für die angesprochenen Probleme ist die weiterentwicklung von Clouds der richtige Ansatz
Dr. Michael Pauly
8. Februar 2012 10:22
Cloud Computing ist kein “starres” Ziel welches man so einfach erreichen kann. Durch die ganze Dynamik in der Soft- und Hardware und den damit verbundenen Cloud-Angeboten ist die Cloud zurzeit ein “Moving-Target”. Vor diesem Hintergrund ist “Big Data” ein besonders spannendes Thema, welches uns sicher noch einige Zeit begleiten wird. Hier stehen wir erst am Anfang. In diesem Sinne. Lassen Sie uns die Wolke voran treiben.
Ihr Michael Pauly