Sven Löffler
16. August 2017 0
Digitalisierung

Cloudera Data Science Workbench

Cloudera veröffentlicht die Data Science Workbench, um Data Science und Machine-Learning-Aufgaben im Unternehmen zu beschleunigen. Die Workbench ist ein Self-Service Tool für Data Scientists und unterstützt mit den derzeit leistungsstärksten Technologien beim Erstellen, Skalieren und Einsetzen von Machine Learning und Advanced-Analystics-Lösungen.
Die Cloudera Data Science Workbench (CDSW), deren Beta-Version zur Hadoop World 2017 in San Jose angekündigt wurde, kann über einen Webbrowser abgerufen werden und ermöglicht Data Scientists ihre bevorzugten Open-Source-Bibliotheken und Sprachen in sicheren Umgebungen zu nutzen – darunter R, Python und Scala. Mehrere Deeplearning Frameworks wie BigDL lassen sich in die Workbench integrieren. Dies hilft Data Scientists, Deeplearning-Bibliotheken auf CPUs besser zu nutzen, ohne in zusätzliche Hardware zu investieren.

Vorteile der Cloudera Data Science Workbench

Mit CDSW können Data Scientists:

  • R, Python oder Scala auf dem Cluster über einem Webbrowser nutzen
  • Bibliotheken und Frameworks in isolierten Projektumgebungen installieren
  • direkt auf Daten in sicheren Clustern mit Spark und Impala zugreifen
  • Einblicke mit dem Team teilen und somit reproduzierbare, kollaborative Forschung fördern
  • Automatisierung und Überwachung von Datenpipelines durch eingebautes Job-scheduling ermöglichen
  • IT-Profis können hingegen:

  • Datenwissenschaftler ermöglichen zu arbeiten, wie und wann sie wollen
  • von der Out-of-the-Box-Unterstützung für die volle Plattform-Sicherheit, besonders durch Kerberos, profitieren
  • CDSW in der Cloud oder On-premise ausführen

  • Architektur der Cloudera Data Science Workbench

    Diese Vorteile werden durch die zugrundeliegende Architektur der CDSW erreicht. Die Workbench läuft auf einem oder mehreren dedizierten Gateway-Hosts auf einem CDH-Cluster. Der Cloudera Management Agent sorgt dafür, dass die Cloudera Data Science Workbench die Bibliotheken und die notwendigen Konfigurationen für den sicheren Zugriff auf den CDH-Cluster hat. Durch die Verwendung von Docker-Containern können Data Scientists mit ihren bevorzugten Tools und Bibliotheken isolierte Benutzer-Workloads ausführen. Isolierte CPUs und Speicher sorgen auch für eine zuverlässige und skalierbare Ausführung in einer Multi-Tenant-Umgebung. Jeder Docker-Container bietet ein virtualisiertes Gateway, um sicher auf Cloudera-Hadoop-Dienste wie HDFS, Spark 2, Hive und Impala zuzugreifen. Die CDSW ist in Master- und Worker-Knoten unterteilt. Jede Installation startet mit einem Master-Knoten, der alle kritischen persistenten und zustandsbehafteten Daten überwacht. Worker-Knoten können entfernt oder hinzugefügt werden, um die Gesamtkapazität zu erhöhen. Um alle diese Container über mehrere Knoten transparent zu verwalten, verwendet das CDSW Kubernetes, ein Container-Orchestrierungssystem.

    T-Systems Data Science Workstation

    Die CDSW wird in Kombination mit der Cloudera-Hadoop-Distribution auf der Open Telekom Cloud, Microsoft Azure und T-Systems Bare Metal Offering erhältlich sein.
    Neben dem CDSW bietet T-Systems eine Data Science Workstation an. Im Gegensatz zu der CDSW, die für Produktionsumgebungen gemacht ist, deckt die Data Science Workstation alle Funktionalitäten ab, die bei der Entwicklung und dem Testen von Big Data Usecases oder Proof of Concepts benötigt werden. Die Workstation ist für kleine Datenmengen gedacht und kann eigenständig oder in Kombination mit anderen PaaS Services aus dem T-Systems AppAgile Container Repository eingesetzt werden. Es ist auch möglich, die Workstation auf T-Systems vCloud, Open Telekom Cloud, Microsoft Azure und zukünftig auf Bare Metal einzusetzen.
    Die Workstation umfasst alle relevanten Technologien und Tools aus dem Hadoop Ökosystem wie HDFS, Map Reduce 2, Hue, Hive und Spark mit Unterstützung für Python, R und Scala. Diese Tools sind mit den neuesten Versionen aus dem Apache-Projekt verfügbar, was ein großer Vorteil gegenüber den Hadoop-Distributionen ist.
    Mit dem CDSW und der Data Science Workstation ist T-Systems in der Lage, Kunden zu bedienen, die mit der Erforschung von Big Data und Analytics beginnen, sowie Kunden, die eine Umgebung benötigen, die sich produktiv einsetzen lässt.

    Happy Data
    Sven Löffler

    Schreibe einen Kommentar

    Deine E-Mail-Adresse wird nicht veröffentlicht.

    Mit dem Absenden des Kommentars akzeptieren Sie unsere Kommentar-Policy.

    a) Leser sind herzlich zum Kommentieren eingeladen.

    b) Kommentare sollten den Wert des Weblogs erhöhen.

    c) Bitte haben Sie Verständnis dafür, dass wir Kommentare erst nach Prüfung frei schalten.

    d) Kommentare, die nichts mit dem Thema des Beitrags zu tun haben, offensichtlich Urheberrechte verletzen, beleidigenden Inhalt oder persönliche Angriffe enthalten, werden gelöscht.

    e) Links können gerne eingebunden werden, sollten aber zum Thema des jeweiligen Blog-Postings gehören. Links zu anderen Webseiten oder Blogs, die nichts mit dem jeweiligen Blog-Posting zu tun haben, werden als Spam angesehen und gelöscht.

     
     

    Twitter

    tsystemsde @tsystemsde
    T-Systems DE  @tsystemsde
    Das Forschungsprojekt #SYNCHROLOG will alle an einer #SupplyChain Beteiligten enger zusammenbinden – T-Systems ist… https://t.co/ocTRduCe8I 
    T-Systems DE  @tsystemsde
    Wie soll der #DynamicWorkplace in Zeiten der #Digitalisierung beschaffen sein? Diese Frage beschäftigt #TSystems Bl… https://t.co/WJ8FcrVc0P 
    T-Systems DE  @tsystemsde
    RT @deutschetelekom:Die #Telekom zeigt beim #SmartCity World Congress, wie Städte & Bürger von #IoT Lösungen profitieren. Eindrücke gib… https://t.co/4O42jSngdv 
    T-Systems DE  @tsystemsde
    #DataScientists & #Cloud-Architekten aufgepasst: Die #TSystems Digital Divison sucht Experten wie Sie. Wir gestalte… https://t.co/GX24PG63vs 
    T-Systems DE  @tsystemsde
    Die wichtigsten Änderungen der November-Release der Open #TelekomCloud im Überblick: https://t.co/DfFbQQzkgB https://t.co/t57dmBhTmL 
    T-Systems DE  @tsystemsde
    Bin ich rechtlich auf der sicheren Seite, wenn sich das RZ meines #Cloud-Anbieters innerhalb der EU befindet? Antwo… https://t.co/JquWgIPqC9 
    T-Systems DE  @tsystemsde
    Entwicklungszentrum fürs Internet der Dinge: Die @DeutscheTelekom und @FraunhoferIML gründen die „Telekom Open IoT… https://t.co/TPaDbV6Giy 
    T-Systems DE  @tsystemsde
    RT @Telekom_group:At #SmartCity World Congress, #Telekom showed how cities & people benefit from smart technologies. Catch impression… https://t.co/ae6OD7iaZM