Sven Löffler
10. August 2015 0
Digitalisierung

Big Data auch im CERN

Ein Petabyte sind über 1.125.899.906.842.600 Byte, dahinter steht also eine 1 gefolgt von 15 Stellen, für viele Menschen kaum vorstellbar. Noch schwieriger wird es, denkt man an das hundertfache, wie es Forscher am Datenzentrum der europäischen Kernforschungsorganisation CERN in Genf tun. Hier, wo im Juli 2012 die Existenz des Higgs-Bosons nachgewiesen werden konnte, ist der Umgang mit solchen Datenmengen Alltag.

Das Bewusstsein für diese Datenmengen und damit Big Data ist erst in den letzten Jahren gewachsen. Doch bei der Europäische Organisation für Kernforschung, kurz CERN wird schon seit über 20 Jahren mit riesigen Datenaufkommen gearbeitet. Diese entstehen durch Experimente an großen Forschungsgeräten wie dem LHC (Large Hadron Collider). Der LHC ist der größte Teilchenbeschleuniger der Welt und erzeugt enorme Datenmengen durch die große erreichbare Anzahl von Teilchenkollisionen pro Sekunde. Sie werden gesammelt und analysiert, d.h. es werden unterschiedliche Auswertungsstufen durchlaufen und mit Simulationen verglichen. Die erfordert unter Umständen auch eine längere Zeit des Speicherns.
Der Teilchenbeschleuniger LHC produziert riesige Datenmengen für Big Data Analysen (Bild: CERN)

Daten, Daten und noch mehr Daten

Von welcher Datenmenge wird dabei konkret gesprochen? Eine Antwort lieferte dazu Prof. Dr. Joachim Mnich, Direktor für Teilchen- und Astroteilchenphysik am Deutschen Elektronen-Synchrotron (DESY). Experimente am LHC erzeugen jährlich etwa 20 Petabyte an Daten.
Dabei sind diese 20 Petabytes „nur“ ausgewählte Analysedaten. Direkt nach jeder Kollision wird entschieden, ob und welche Daten aufgezeichnet und damit Teil der 20 Petabyte sind. Nur eine von drei Millionen Kollisionen werden wirklich genutzt. Dazu kommen Trigger zum Einsatz, also intelligente Auswahlverfahren auf Basis einfacher Kriterien. Zusätzlich werden große Rechenzentren direkt eingebunden und werten mit einer spezieller Software jede einzelne Kollision aus. Auf Basis dieser Auswertung wird festgestellt, welche weiteren Auswertungen möglich sind. Das bedeutet, dass im Vorfeld eine ungleich höhere Datenmenge als die 20 Petabyte erzeugt wird.

Ein Rechenzentrum allein reicht nicht

Für diese Big-Data-Analysen von mehreren hundert Petabyte reicht ein einzelnes Rechenzentrum nicht mehr aus. Das CERN bedient sich daher des Grid-Computings, dabei werden die auszuwertenden Daten weltweit verteilt. Alle am System angebundenen Computer, die zum Zeitpunkt einer Analyse am Netz sind, werden vom Analyseprogramm angesprochen und sind Teil des Grid. In Deutschland werden hierfür die an das Netzwerk des CERNs angeschlossen Rechenzentren genutzt, wie z.B. die der Helmholtz-Gemeinschaft – dem Karlsruher Institut für Technologie, das Deutsche Elektronensynchrotron und das GSI Helmholtz-Zentrum für Schwerionenforschung.

Forschungen Basis für Wirtschaft

Wer den Nutzen der angewandten Big Data Analysen und die dazugehörigen Algorithmen auf das CERN reduziert, der irrt. Schon in den 90er Jahren wurden die Verfahren auf andere Data Warehouses übertragen, welche die Wahrscheinlichkeit von Beziehungen zwischen Ereignissen feststellen. So können z.B. Handelsunternehmen durch die Analyse von Informationen Muster im Kundenverhalten erkennen und daraus Schlussfolgerungen für die Unternehmensstrategieziehen. Zudem sind durch Big Data Analysen genaue Prognosen möglich, um z.B. vorherzusagen, wie ein bestimmtes Medikament bei einem bestimmten Patienten wirkt oder wann wie viel Strom benötigt wird, und vieles mehr. Das bedeutet, die wissenschaftliche Forschungen und deren Ergebnisse zu Big Data haben nicht nur zum Erfolg bei der Suche nach dem Higgs-Boson geführt, sondern sind auf unterschiedlichste Einsatzbereiche im Alltag übertragbar.

Big Data Grüße
Sven Löffler

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

Mit dem Absenden des Kommentars akzeptieren Sie unsere Kommentar-Policy.

a) Leser sind herzlich zum Kommentieren eingeladen.

b) Kommentare sollten den Wert des Weblogs erhöhen.

c) Bitte haben Sie Verständnis dafür, dass wir Kommentare erst nach Prüfung frei schalten.

d) Kommentare, die nichts mit dem Thema des Beitrags zu tun haben, offensichtlich Urheberrechte verletzen, beleidigenden Inhalt oder persönliche Angriffe enthalten, werden gelöscht.

e) Links können gerne eingebunden werden, sollten aber zum Thema des jeweiligen Blog-Postings gehören. Links zu anderen Webseiten oder Blogs, die nichts mit dem jeweiligen Blog-Posting zu tun haben, werden als Spam angesehen und gelöscht.

 
 

Twitter

tsystemsde @tsystemsde
T-Systems DE  @tsystemsde
Das Forschungsprojekt #SYNCHROLOG will alle an einer #SupplyChain Beteiligten enger zusammenbinden – T-Systems ist… https://t.co/ocTRduCe8I 
T-Systems DE  @tsystemsde
Wie soll der #DynamicWorkplace in Zeiten der #Digitalisierung beschaffen sein? Diese Frage beschäftigt #TSystems Bl… https://t.co/WJ8FcrVc0P 
T-Systems DE  @tsystemsde
RT @deutschetelekom:Die #Telekom zeigt beim #SmartCity World Congress, wie Städte & Bürger von #IoT Lösungen profitieren. Eindrücke gib… https://t.co/4O42jSngdv 
T-Systems DE  @tsystemsde
#DataScientists & #Cloud-Architekten aufgepasst: Die #TSystems Digital Divison sucht Experten wie Sie. Wir gestalte… https://t.co/GX24PG63vs 
T-Systems DE  @tsystemsde
Die wichtigsten Änderungen der November-Release der Open #TelekomCloud im Überblick: https://t.co/DfFbQQzkgB https://t.co/t57dmBhTmL 
T-Systems DE  @tsystemsde
Bin ich rechtlich auf der sicheren Seite, wenn sich das RZ meines #Cloud-Anbieters innerhalb der EU befindet? Antwo… https://t.co/JquWgIPqC9 
T-Systems DE  @tsystemsde
Entwicklungszentrum fürs Internet der Dinge: Die @DeutscheTelekom und @FraunhoferIML gründen die „Telekom Open IoT… https://t.co/TPaDbV6Giy 
T-Systems DE  @tsystemsde
RT @Telekom_group:At #SmartCity World Congress, #Telekom showed how cities & people benefit from smart technologies. Catch impression… https://t.co/ae6OD7iaZM