Sven Löffler
10. August 2015 0
Digitalisierung

Big Data auch im CERN

Ein Petabyte sind über 1.125.899.906.842.600 Byte, dahinter steht also eine 1 gefolgt von 15 Stellen, für viele Menschen kaum vorstellbar. Noch schwieriger wird es, denkt man an das hundertfache, wie es Forscher am Datenzentrum der europäischen Kernforschungsorganisation CERN in Genf tun. Hier, wo im Juli 2012 die Existenz des Higgs-Bosons nachgewiesen werden konnte, ist der Umgang mit solchen Datenmengen Alltag.

Das Bewusstsein für diese Datenmengen und damit Big Data ist erst in den letzten Jahren gewachsen. Doch bei der Europäische Organisation für Kernforschung, kurz CERN wird schon seit über 20 Jahren mit riesigen Datenaufkommen gearbeitet. Diese entstehen durch Experimente an großen Forschungsgeräten wie dem LHC (Large Hadron Collider). Der LHC ist der größte Teilchenbeschleuniger der Welt und erzeugt enorme Datenmengen durch die große erreichbare Anzahl von Teilchenkollisionen pro Sekunde. Sie werden gesammelt und analysiert, d.h. es werden unterschiedliche Auswertungsstufen durchlaufen und mit Simulationen verglichen. Die erfordert unter Umständen auch eine längere Zeit des Speicherns.
Der Teilchenbeschleuniger LHC produziert riesige Datenmengen für Big Data Analysen (Bild: CERN)

Daten, Daten und noch mehr Daten

Von welcher Datenmenge wird dabei konkret gesprochen? Eine Antwort lieferte dazu Prof. Dr. Joachim Mnich, Direktor für Teilchen- und Astroteilchenphysik am Deutschen Elektronen-Synchrotron (DESY). Experimente am LHC erzeugen jährlich etwa 20 Petabyte an Daten.
Dabei sind diese 20 Petabytes „nur“ ausgewählte Analysedaten. Direkt nach jeder Kollision wird entschieden, ob und welche Daten aufgezeichnet und damit Teil der 20 Petabyte sind. Nur eine von drei Millionen Kollisionen werden wirklich genutzt. Dazu kommen Trigger zum Einsatz, also intelligente Auswahlverfahren auf Basis einfacher Kriterien. Zusätzlich werden große Rechenzentren direkt eingebunden und werten mit einer spezieller Software jede einzelne Kollision aus. Auf Basis dieser Auswertung wird festgestellt, welche weiteren Auswertungen möglich sind. Das bedeutet, dass im Vorfeld eine ungleich höhere Datenmenge als die 20 Petabyte erzeugt wird.

Ein Rechenzentrum allein reicht nicht

Für diese Big-Data-Analysen von mehreren hundert Petabyte reicht ein einzelnes Rechenzentrum nicht mehr aus. Das CERN bedient sich daher des Grid-Computings, dabei werden die auszuwertenden Daten weltweit verteilt. Alle am System angebundenen Computer, die zum Zeitpunkt einer Analyse am Netz sind, werden vom Analyseprogramm angesprochen und sind Teil des Grid. In Deutschland werden hierfür die an das Netzwerk des CERNs angeschlossen Rechenzentren genutzt, wie z.B. die der Helmholtz-Gemeinschaft – dem Karlsruher Institut für Technologie, das Deutsche Elektronensynchrotron und das GSI Helmholtz-Zentrum für Schwerionenforschung.

Forschungen Basis für Wirtschaft

Wer den Nutzen der angewandten Big Data Analysen und die dazugehörigen Algorithmen auf das CERN reduziert, der irrt. Schon in den 90er Jahren wurden die Verfahren auf andere Data Warehouses übertragen, welche die Wahrscheinlichkeit von Beziehungen zwischen Ereignissen feststellen. So können z.B. Handelsunternehmen durch die Analyse von Informationen Muster im Kundenverhalten erkennen und daraus Schlussfolgerungen für die Unternehmensstrategieziehen. Zudem sind durch Big Data Analysen genaue Prognosen möglich, um z.B. vorherzusagen, wie ein bestimmtes Medikament bei einem bestimmten Patienten wirkt oder wann wie viel Strom benötigt wird, und vieles mehr. Das bedeutet, die wissenschaftliche Forschungen und deren Ergebnisse zu Big Data haben nicht nur zum Erfolg bei der Suche nach dem Higgs-Boson geführt, sondern sind auf unterschiedlichste Einsatzbereiche im Alltag übertragbar.

Big Data Grüße
Sven Löffler

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

Mit dem Absenden des Kommentars akzeptieren Sie unsere Kommentar-Policy.

a) Leser sind herzlich zum Kommentieren eingeladen.

b) Kommentare sollten den Wert des Weblogs erhöhen.

c) Bitte haben Sie Verständnis dafür, dass wir Kommentare erst nach Prüfung frei schalten.

d) Kommentare, die nichts mit dem Thema des Beitrags zu tun haben, offensichtlich Urheberrechte verletzen, beleidigenden Inhalt oder persönliche Angriffe enthalten, werden gelöscht.

e) Links können gerne eingebunden werden, sollten aber zum Thema des jeweiligen Blog-Postings gehören. Links zu anderen Webseiten oder Blogs, die nichts mit dem jeweiligen Blog-Posting zu tun haben, werden als Spam angesehen und gelöscht.

 
 

Twitter

tsystemsde @tsystemsde
T-Systems DE  @tsystemsde
Start der #HM17 in Hannover: Die @deutschetelekom und #TSystems freuen sich auf Ihren Besuch in Halle 7! https://t.co/hwTpLIMxRJ 
T-Systems DE  @tsystemsde
Die letzten Vorbereitung für den morgigen Start der @hannover_messe laufen - wir freuen uns auf alle Besucher #HM17 https://t.co/AWsrq2wsbm 
T-Systems DE  @tsystemsde
Alle Kollegen/innen des Innovation Centers sind mit ihrem Equipment in Hannover angekommen und freuen sich auf inte… https://t.co/ehaSDWI8js 
T-Systems DE  @tsystemsde
Wir begrüßen SALT auf unserem Stand der @hannover_messe - er wird uns bei den Präsentationen kommende Woche unterst… https://t.co/trsHderyYO 
T-Systems DE  @tsystemsde
Die „Biene“ @roam_bee hat geliefert - der Aufbau des #TSystems Innovation Center auf der @hannover_messe ist fast f… https://t.co/oEehmjPRx8 
T-Systems DE  @tsystemsde
So sieht die fleißige "Biene" @roam_be im Einsatz aus - Transport des eBikes nach Hannover #HM17 https://t.co/yq1BS5wvT4 
T-Systems DE  @tsystemsde
Wieder unterwegs - die Transportüberwachungslösung @roam_be begleitet zwei #TSystems Kollegen, die ein eBike nach H… https://t.co/kVAHCzIYXs