Sven Löffler
16. August 2017 0
Digitalisierung

Cloudera Data Science Workbench

Cloudera veröffentlicht die Data Science Workbench, um Data Science und Machine-Learning-Aufgaben im Unternehmen zu beschleunigen. Die Workbench ist ein Self-Service Tool für Data Scientists und unterstützt mit den derzeit leistungsstärksten Technologien beim Erstellen, Skalieren und Einsetzen von Machine Learning und Advanced-Analystics-Lösungen.
Die Cloudera Data Science Workbench (CDSW), deren Beta-Version zur Hadoop World 2017 in San Jose angekündigt wurde, kann über einen Webbrowser abgerufen werden und ermöglicht Data Scientists ihre bevorzugten Open-Source-Bibliotheken und Sprachen in sicheren Umgebungen zu nutzen – darunter R, Python und Scala. Mehrere Deeplearning Frameworks wie BigDL lassen sich in die Workbench integrieren. Dies hilft Data Scientists, Deeplearning-Bibliotheken auf CPUs besser zu nutzen, ohne in zusätzliche Hardware zu investieren.

Vorteile der Cloudera Data Science Workbench

Mit CDSW können Data Scientists:

  • R, Python oder Scala auf dem Cluster über einem Webbrowser nutzen
  • Bibliotheken und Frameworks in isolierten Projektumgebungen installieren
  • direkt auf Daten in sicheren Clustern mit Spark und Impala zugreifen
  • Einblicke mit dem Team teilen und somit reproduzierbare, kollaborative Forschung fördern
  • Automatisierung und Überwachung von Datenpipelines durch eingebautes Job-scheduling ermöglichen
  • IT-Profis können hingegen:

  • Datenwissenschaftler ermöglichen zu arbeiten, wie und wann sie wollen
  • von der Out-of-the-Box-Unterstützung für die volle Plattform-Sicherheit, besonders durch Kerberos, profitieren
  • CDSW in der Cloud oder On-premise ausführen

  • Architektur der Cloudera Data Science Workbench

    Diese Vorteile werden durch die zugrundeliegende Architektur der CDSW erreicht. Die Workbench läuft auf einem oder mehreren dedizierten Gateway-Hosts auf einem CDH-Cluster. Der Cloudera Management Agent sorgt dafür, dass die Cloudera Data Science Workbench die Bibliotheken und die notwendigen Konfigurationen für den sicheren Zugriff auf den CDH-Cluster hat. Durch die Verwendung von Docker-Containern können Data Scientists mit ihren bevorzugten Tools und Bibliotheken isolierte Benutzer-Workloads ausführen. Isolierte CPUs und Speicher sorgen auch für eine zuverlässige und skalierbare Ausführung in einer Multi-Tenant-Umgebung. Jeder Docker-Container bietet ein virtualisiertes Gateway, um sicher auf Cloudera-Hadoop-Dienste wie HDFS, Spark 2, Hive und Impala zuzugreifen. Die CDSW ist in Master- und Worker-Knoten unterteilt. Jede Installation startet mit einem Master-Knoten, der alle kritischen persistenten und zustandsbehafteten Daten überwacht. Worker-Knoten können entfernt oder hinzugefügt werden, um die Gesamtkapazität zu erhöhen. Um alle diese Container über mehrere Knoten transparent zu verwalten, verwendet das CDSW Kubernetes, ein Container-Orchestrierungssystem.

    T-Systems Data Science Workstation

    Die CDSW wird in Kombination mit der Cloudera-Hadoop-Distribution auf der Open Telekom Cloud, Microsoft Azure und T-Systems Bare Metal Offering erhältlich sein.
    Neben dem CDSW bietet T-Systems eine Data Science Workstation an. Im Gegensatz zu der CDSW, die für Produktionsumgebungen gemacht ist, deckt die Data Science Workstation alle Funktionalitäten ab, die bei der Entwicklung und dem Testen von Big Data Usecases oder Proof of Concepts benötigt werden. Die Workstation ist für kleine Datenmengen gedacht und kann eigenständig oder in Kombination mit anderen PaaS Services aus dem T-Systems AppAgile Container Repository eingesetzt werden. Es ist auch möglich, die Workstation auf T-Systems vCloud, Open Telekom Cloud, Microsoft Azure und zukünftig auf Bare Metal einzusetzen.
    Die Workstation umfasst alle relevanten Technologien und Tools aus dem Hadoop Ökosystem wie HDFS, Map Reduce 2, Hue, Hive und Spark mit Unterstützung für Python, R und Scala. Diese Tools sind mit den neuesten Versionen aus dem Apache-Projekt verfügbar, was ein großer Vorteil gegenüber den Hadoop-Distributionen ist.
    Mit dem CDSW und der Data Science Workstation ist T-Systems in der Lage, Kunden zu bedienen, die mit der Erforschung von Big Data und Analytics beginnen, sowie Kunden, die eine Umgebung benötigen, die sich produktiv einsetzen lässt.

    Happy Data
    Sven Löffler

    Schreibe einen Kommentar

    Deine E-Mail-Adresse wird nicht veröffentlicht.

    Mit dem Absenden des Kommentars akzeptieren Sie unsere Kommentar-Policy.

    a) Leser sind herzlich zum Kommentieren eingeladen.

    b) Kommentare sollten den Wert des Weblogs erhöhen.

    c) Bitte haben Sie Verständnis dafür, dass wir Kommentare erst nach Prüfung frei schalten.

    d) Kommentare, die nichts mit dem Thema des Beitrags zu tun haben, offensichtlich Urheberrechte verletzen, beleidigenden Inhalt oder persönliche Angriffe enthalten, werden gelöscht.

    e) Links können gerne eingebunden werden, sollten aber zum Thema des jeweiligen Blog-Postings gehören. Links zu anderen Webseiten oder Blogs, die nichts mit dem jeweiligen Blog-Posting zu tun haben, werden als Spam angesehen und gelöscht.

     
     

    Twitter

    tsystemsde @tsystemsde
    T-Systems DE  @tsystemsde
    "30 Mio Gerichte werden täglich in DE verarbeitet", erklärt #TSystems SVP @ihofacker beim #Foodlogistics Workshop d… https://t.co/CQ4HczHYy0 
    T-Systems DE  @tsystemsde
    Gründer von Boom Chicago @peprosenfeld und #TSystems SVP Oliver Bahns diskutieren die #IoT Workshop-Kriterien… https://t.co/cS7jW3UJFE 
    T-Systems DE  @tsystemsde
    Chancen nutzen durch Redesign von Sprach- und Datennetzen: #TSystems Expertenseminar All-IP am 10.10. in München:… https://t.co/phBYbTwRBr 
    T-Systems DE  @tsystemsde
    @ThomasInTech - In die Marketingagenda von Unternehmen - das ist den 140 Zeichen zum Opfer gefallen... 
    T-Systems DE  @tsystemsde
    "In wenigen Jahren wird jeder Erstkontakt mit Unternehmen über #Chatbots stattfinden", meint #TSystems CMO @svnkrgr https://t.co/dv8H1w29uI 
    T-Systems DE  @tsystemsde
    "Jetzt ist die Zeit, Content-Marketing wirklich zu integrieren", sagt #TSystems CMO @svnkrgr auf der @nextconf https://t.co/f0Jo6tUikY 
    T-Systems DE  @tsystemsde
    Drei Viertel der Cyber-Attacken zielen auf Identitätsdiebstahl @commagazin: https://t.co/I2Ddv3PUTk #Security