SAS, data scientists og big data – en cocktail af potens

0

Data scientist – det gad jeg godt være! Der er så meget cool factor over den rolle, og jeg misunder alle jer superanalytikere – også kaldet data scientists – med flair for at finde forretningsguldet i umulige data i exabyte-størrelse.

I disse tider er data scientists en mangelvare. Sidste år måtte SAS UK lave en konkurrence for at lokke data scientists frem i lyset, og i Danmark er flere og flere virksomheder på jagt efter eksperter, som kan bore sig ned i de massive mængder af data og trylle forretningssvarene frem med potente analyser. Hvis jeg var studerende, ville jeg vælge at uddanne mig i big data science, hvor man opbygger faglige kompetencer på tværs af hele big data-værdikæden (dataopsamling, datalagring, dataanalyse, visualisering og datasikkerhed).

Lyder denne dataværdikæde velkendt? Hvis du har arbejdet med SAS de seneste 15 år, vil du vide, at dataværdikæden er en uløselig del af SAS-dna’et. Med big datas fremkomst er dataværdikæden stadig aktuel, og SAS har sat sig tungt på løsningerne. SAS® In-Memory Statistics er det nye sort, hvor data scientists og andre har det herligt, når de fingernemt behersker det lynhurtige in-memory analytiske programmeringssprog.

Cec_4

Er du blevet nysgerrig mht. SAS In-Memory Statistics?  Dette factsheet opsummerer mulighederne.

Med SAS In-Memory Statistics for Hadoop er grænserne for datamængderne udvisket, da billigt hardware forbundet i klaser gør det muligt at gemme på data, så langt tilbage i tiden man lyster – og i formater, som rummer både det umiddelbare meningsfulde og det ustrukturerede anarkistiske.

Jeg er ret vild med Hadoop. Tænk, at man ikke længere skal spekulere over at skulle sample sine data eller bygge sandboxes. Tænk, at man ikke længere skal bruge dyrebar tid på at skrue lange programmer sammen til at sammenkoge data eller vente på, at de skal op i en database. Med SAS on Hadoop er hele den analytiske livscyklus håndteret under ét, og du kan nå frem til den bedste analysemodel med mange flere iterationer på kortere tid, fordi teknologien ikke længere begrænser dig data- og performancemæssigt.

Allerede i 2013 belyste Forbes, at data scientists er en mangelvare, og at virksomheder vil opleve et kompetencegab på størrelse med et højhus. Overvejer din virksomhed at indføre et analytisk SAS-miljø oven på Hadoop, bør opbygning af medarbejderkompetencer være en del af strategien. Glæd dig, for hvis du allerede er SAS-programmør, kan du genanvende og udbygge dine nuværende SAS-programmeringskompetencer, når du behandler data i Hadoop, og du slipper for bruge mange timer af din dyrebare tid på at lære Pig, Hive og MapReduce. Hvis du er ETL-udvikler, og din virksomhed stiller krav om data governance og kvalitet, kan du med fordel uddanne dig inden for SAS Data Management for Hadoop. Er du derimod analytiker, så tag et kig på SAS Analytics on Hadoop, Models deployment and Execution samt SAS Data Exploration and Visualization. Hvis du er data scientist, vil alle SAS on Hadoop-områderne pirre din indre analytiker-/tekniker-/dataspecialisttrang.

Jeg er startet på SAS on Hadoop-rejsen, vil du med?

Cecily

 

 

 

Share

About Author

Cecily Hoffritz

Principal Technical Consultant

Cecily Hoffritz is a Principal Adviser at SAS Institute working with education, best practice and innovation. Her main area of expertise is SAS Data Management focusing on data federation and visualization, hadoop, data integration, data quality and data governance. More recently, Cecily, is also supporting the SAS initiative on EU General Data Protection Regulation. During her 22+ years working at SAS Institute, Cecily has major insights on SAS customers and SAS applications.

Leave A Reply

Back to Top