Lær SAS hjemme fra sofaen

SAS for studerende holder en webinarrække henover foråret, hvor du kan få en indføring i SAS-programmering, databehandling, statistiske analyser og grafik i SAS.
Første webinar er allerede løbet af stablen, men du kan stadig nå at være med - vi optog nemlig webinaret, som gav en introduktion til SAS-programmering i SAS Studio. Du kan se webinaret her, så du kan nå at være med næste gang, hvor vi kommer dybere ned i databehandling med SAS.

Resten af programrækken ser således ud og alle er velkomne til at deltage:

  • Databehandling med SAS (2 timer)
    Instruktør: Steen Hyldgaard
    03.03.15 kl. 09.00

Tilmeld dig webinaret

Read More »

Post a Comment

Opsætning af SAS University Edition i WMware

I marts 2014 udkom SAS University Edition. Det er en frit tilgængelig software, der er tiltænkt universitetsstuderende, som ønsker at opnå stærke analytiske færdigheder. Softwaren giver studerende en rigtig god platform for alskens udfordringer i jobrollen som kvantitativ analytiker/data scientist.

Da softwaren kører i en virtuel maskine, er der et par ting, der skal sættes op, for at du gnidningsfrit kan få adgang til de data og programmer, der ligger på din computer. Her er et par guidelines til opsætning af softwaren:

  1. Få adgang til dine mapper i SAS UE via følgende tre trin:
    • Tryk Ctrl-D i WMware Player --> Options --> Shared Folders --> tryk “always enabled” --> Add --> host-path “browse” --> vælg den mappe, som du ønsker at bruge til at læse data og gemme programmer på (hvis du opretter en mappe på C:\-drevet kan stien se således ud: C:\SASUniversityEdition
    • Start den virtuelle maskine op og åbn den http-sti, der angives i den virtuelle maskine, i din foretrukne browser. Når SAS UE er startet op, vil den nye delte mappe kunne findes under ”Folders” og ”Folder Shortcuts”/ ”MyFolders”. Det kan være nødvendigt at lukke browseren helt og åbne den igen.
    • For at læse datafilerne skrives et libname, der refererer til datamappen på din lokale computer: Åbn program (F4) og skriv følgende: Libname ind ’/folders/myshortcuts/SASUniversityEdition/PRG12015/data’; (Stien findes ved at højreklikke på et datasæt i din mappe og trykke ”properties” og finde stien i ”to location”).

Martin_1.2 Read More »

Post a Comment

Det gode SAS-program #19: Benyt views og få hurtigere svartid

Vi benytter ofte proc og datastep i SAS-programmer til at danne midlertidige work-tabeller.

Her anbefaler  vi:

Dan views i stedet for fysiske work-tabeller, når tabellen kun skal læses 1 gang  

Et SAS view er en logisk SAS-tabel. Data gemmes ikke på disk, men i stedet gemmes det kompilerede SAS-program, som næsten ikke fylder noget uanset datamængden. Vi reducerer altså skrivning til og læsning fra disk, og programmet vil køre hurtigere.

Eksempel 1

SASHELP.HEART indeholder højde og vægt for en række patienter. Da det er amerikanske data, benyttes tommer og pund. Vi ønsker at beregne BMI-tallet for disse patienter og samtidig omforme data til dansk målestandard (cm og kg). Derfor er vi nødt til først at danne en ny work-tabel, hvorefter vi kan lave den ønskede graf over BMI-tallet for alle disse patienter.

Dgs#19.1

Read More »

Post a Comment

SAS, data scientists og big data – en cocktail af potens

Data scientist – det gad jeg godt være! Der er så meget cool factor over den rolle, og jeg misunder alle jer superanalytikere – også kaldet data scientists – med flair for at finde forretningsguldet i umulige data i exabyte-størrelse.

I disse tider er data scientists en mangelvare. Sidste år måtte SAS UK lave en konkurrence for at lokke data scientists frem i lyset, og i Danmark er flere og flere virksomheder på jagt efter eksperter, som kan bore sig ned i de massive mængder af data og trylle forretningssvarene frem med potente analyser. Hvis jeg var studerende, ville jeg vælge at uddanne mig i big data science, hvor man opbygger faglige kompetencer på tværs af hele big data-værdikæden (dataopsamling, datalagring, dataanalyse, visualisering og datasikkerhed).

Lyder denne dataværdikæde velkendt? Hvis du har arbejdet med SAS de seneste 15 år, vil du vide, at dataværdikæden er en uløselig del af SAS-dna’et. Med big datas fremkomst er dataværdikæden stadig aktuel, og SAS har sat sig tungt på løsningerne. SAS® In-Memory Statistics er det nye sort, hvor data scientists og andre har det herligt, når de fingernemt behersker det lynhurtige in-memory analytiske programmeringssprog.

Read More »

Post a Comment

Det gode SAS-program #18: Benyt index på større tabeller

Vi arbejder ofte med store og bredde tabeller i SAS. Du kan få bedre performance på læsning af dine SAS- tabeller ved at bruge index, når:

  • SAS-tabellen har mange rækker og måske også mange kolonner
  • I kun skal læse en delmængde af data - f.eks. mindre end 10% af rækkerne - og dette sker flere gange
  • I kan udtrykke begrænsningen af rækker med et WHERE statement

Generelt bliver index brugt alt for lidt. Måske fordi man bare ikke kender muligheden, eller fordi man tror, det er svært. Men det er meget enkelt. Her er et lille læringseksempel. Vi danner en tabel med 5 millioner rækker med tilfældige fornavne og efternavne ud af de 10 mulige.

Dgs#18.1

Read More »

Post a Comment

Det gode SAS-program #17: Begræns antallet af rækker med WHERE og IF statement i datasteppet

Når du danner nye tabeller med datasteppet, har du ofte behov for at begrænse antallet af rækker i tabellen. Du kan bruge WHERE og IF statements, som kan give samme resultat, men de fungerer helt forskelligt.

Vi anbefaler:

  1. Brug et og kun et WHERE statement til at udvælge de rækker, som skal indlæses.
  2. Brug et eller flere IF statements til at udvælge rækker, som skal skrives til den nye tabel i et data- step.

Meget kort kan man sige, at WHERE er til at udvælge data ved indlæsning, og IF er til at bearbejde data i datasteppet samt beslutte, hvilke rækker der skal i den nye tabel. Her kan du se tre eksempler på brug af WHERE statement og WHERE option i datasteppet, som alle giver helt samme resultat.

Read More »

Post a Comment

SAS Community Denmark

I oktober lancerede vi et nyt forum til alle, der benytter SAS-software i Danmark. Fokus er på viden og relationer samt på konferencer og netværk. På www.SASCommunity.dk finder du information, erfaringsudveksling og spørgsmål om brugen af SAS samt tips og tricks til danske SAS-brugere på ét sted.

Vi har gennem de sidste 10 år opbygget 10 forskellige netværksgrupper for danske SAS-brugere med tilhørende websites og grupper på LinkedIn. Mange af jer er medlem af flere af disse grupper, men den model holder ikke fremadrettet, hvorfor vi nu har samlet alle de generelle netværk på ét sted:  SAS Community Denmark.

De første netværksgrupper på SAS Community Denmark: SAS Community Denmark

  • Den årlige SAS Forum-konference for alle danske SAS-brugere
  • Klog på SAS-seminarer med fokus på SAS-programmering
  • Analytics Network
  • SAS Platform Network
  • SAS Visual Analytics Network

 

Read More »

Post a Comment

SAS® is Back on Mac!

Jeg var på CBS forleden, hvor jeg underviste et hold meget kvikke og søde studerende i SAS-programmering. Det hele foregik i program-editor i SAS® Enterprise Guide® på CBS’ egne computere med Windows-styresystem. Jeg bemærkede dog, at flere af de studerende havde medbragt eget isenkram – Macs af diverse slags. De spurgte, om SAS kunne køre på Mac. De ville øve SAS derhjemme. Hvis de havde spurgt mig for over et halvt år siden, havde jeg fået nervøse røde pletter. Med glædestrålende mine kunne jeg fortælle, at SAS is Back on Mac!

SAS University Edition er til Mac, Windows og Linux. Den er til dig, mig – ja, os allesammen, som vil bruge den til SAS-læring privat. Jeg ved, hvor nemt det er at få hentet ned til egen pc. Jeg havde gjort det aftenen inden, og det tog mig under en halv time inklusive opsætning. En af de studerende hentede den ned til sin Mac i løbet af undervisningen, og en medstuderende forklarede, hvordan man kunne pege på SAS’ øvelsesdata på Mac’en. SAS on Mac is really back!

University Edition Read More »

Post a Comment

Klog på Hadoop

Måske har du bemærket artikler om den lille søde elefant. Måske har du hørt om Hadoop. Har du beskæftiget dig med SAS-programmering, analytics, data warehousing eller business intelligence, så bør du interessere dig for Hadoop. Du må med andre ord blive klog på Hadoop.

hadoop_1En meget komprimeret definition findes på Wikipedia: ”Apache Hadoop is an open-source software framework for distributed storage and distributed processing of Big Data on clusters of commodity hardware.

Men lad os først se på udviklingen i de sidste 20 år, hvor vi har benyttet data warehouse-teknikker til at:

  • Indsamle data fra mange forskellige operationelle datakilder
  • Validere data for fejl og inkonsistent information
  • Omforme data til en struktureret form
  • Skabe ny information til brug for ledelsesinformation og beslutningstagere Read More »
Post a Comment

Det gode SAS-program #16: Reducer antallet af kolonner

Når du danner nye tabeller med Data Steppet eller PROC SQL er det vigtigt, at du kun indlæser de kolonner du skal benytte, og kun gemmer de kolonner, der er nødvendige.

Vi anbefaler:

  1. Skriv kolonnenavne i SELECT statement, når du benytter PROC SQL
  2. Skriv kolonnenavne i KEEP option (læse fra tabel) og KEEP statement (skrive til tabel) i Data Steppet

Der er tre årsager til hvorfor det er vigtigt at begrænse antallet af kolonner, når du læser/danner tabeller.

  1. Det kan være vanskeligt at overskue en opgave, hvis der er en masse ekstra kolonner i tabellen.
  2. Hvis du arbejder med større datamængder, så kører dit SAS program hurtigere jo færre kolonner du benytter.
  3. Ved at skrive kolonnenavne dokumenterer du hvilke kolonner, der benyttes.

Nedenfor benytter vi PROC SQL til at danne en ny tabel. Den hurtige løsning er bare at bruge SELECT *, som medtager alle kolonner i den nye tabel. I dette tilfælde vil det give en ny tabel med 15 kolonner.

Den bedste løsning er at skrive navnet på de kolonner, du skal benytte, som i eksempel 2 nedenfor. Tabellens bredde bliver nu reduceret til ca. ¼ og dermed bruges der mindre tid på at flytte data fra disk til memory – programmet vil køre hurtigere. 

#16.1 Read More »

Post a Comment