Gerne erinnere ich mich noch an die Zeit, als ich mit dem Begriff Memory zunächst nur ein einfaches Kartenspiel assoziert habe. Diese frühe Form des "Gehirnjoggings" hat mich übrigens nie besonders lange begeistert. Ähnlich begrenzt wie meine Geduld damals sind heute viele Hardware-Systeme in Bezug auf die wachsenden Anforderungen. Zwar wächst heute die durchschnittliche Hauptspeicherausstattung eines Rechners rasant bedingt durch fallende Preise für Speicherchip-Technologien. Aber die Anforderungen wachsen eben auch - mitunter sogar schneller.
Mittlerweile begegnet mir der daher Begriff Memory im Alltag eher im Kontext "In Memory Analytics". Also Anwendung von Analytics und statistischen Methoden auf großen Datenmengen, die mitunter nicht mehr in den Hauptspeicher eines einzelnen Rechners passen, sondern die gesamten Hauptspeicher-Ressourcen eines verteilten Systems nutzen müssen. Durch Themen wie Hadoop und SAP HANA ist in den letzten Jahren so viel Bewegung in die Diskussion gekommen, dass man heute beginnt, die Vorteile solcher Systeme auch für analytisch-statistische Fragestellungen zu nutzen.
SAS adressiert diesen Trend durch die Einführung neuer Technologien und Produkte wie Visual Analytics und High Performance Analytics Server. Die Familie der In-Memory-Technologien von SAS bekommt aber bereits bald wieder Zuwachs - mit den Produkten "In-Memory-Statistics for Hadoop" und Visual Statistics. Beide Produkte setzen auf der bewährten LASR-Server-Technologie auf und ermöglichen das Trainieren statistischer Modelle auf größeren Datenmengen im Hauptspeicher. Während In-Memory-Statistics for Hadoop eher die Anforderungen eines SAS Programmierers bedient, wird sich Visual Statistics an der grafischen Browser-basierten Benutzeroberfläche von Visual Analytics orientieren.
In Abgrenzung zum High Performance Analytics Server, der auch In-Memory-Technologie nutzt, werden müssen die Daten dabei nur einmal persistent in den Hauptspeicher hochgeladen. Dann stehen sie direkt für den gleichzeitigen Zugriff durch mehrere Anwender zur Verfügung.
Egal welches der Produkte man betrachtet, es stellt sich natürlich die Frage: Welchen Nutzen bringt mir das? Welche Vorteile habe ich beispielsweise davon, ein lineares Regressionsmodell nun vielleicht nicht mehr nur auf 1 Million Beobachtungen zu trainieren, sondern vielleicht sogar auf 100 Millionen Beobachtungen?
Vielleicht habe ich schon einen Nutzen, wenn ich das Regressionsmodell für die 1 Mio Beobachtungen im Vergleich zum bisherigen Vorgehen deutlich schneller rechnen kann. Pro Zeitintervall kann ich dann vielleicht mehr Modelle rechnen - oder intensivere Suche nach Modellkandidaten betreiben. Das kleine Beispiel zeigt schon: Sicher wird nicht auf alle Fragestellungen die Antwort "In-Memory-Technologie" lauten - trotzdem lohnt es sich, sich damit auseinanderzusetzen.
Verwirrt über soviel "Memory"? Unklar, worin der Nutzen im Analyse-Alltag liegen könnte? Neugierig geworden, mehr darüber zu erfahren?
Dann besuchen Sie SAS auf der diesjährigen KSFE in Göttingen am 27. und 28.3, treffen Sie andere SAS Anwender, hören Sie spannende Vorträge und diskutieren Sie mit über neue Themen.
Ich freu mich auf Sie.
An die anderen KSFE-Referenten: Gerne lade ich Sie ein, Ihre Themen und Vorträge hier als Kommentar auf diesen Beitrag vorzustellen - gerne mit Link auf die weiterführenden Beiträge auf Ihrer Website oder in Ihrem Blog.