Data-driven is a buzzword again. It feels new and shiny but has been around for years. Yet, people still ask what it means to be data-driven. If you wonder why it’s important to be data-driven, you might ask your bookie. Yes, I said your bookie. In thinking about when I
Uncategorized
Maybe if we think and wish and hope and pray It might come true. Oh, wouldn't it be nice? The Beach Boys Months ago, I wrote about how to use the EFFECT statement in SAS to perform regression with restricted cubic splines. This is the modern way to use splines
This is the second post in my series about a computer vision project I worked on at SAS. In my previous post, I talked about my initial research and excitement for the project. In this post, I’ll talk about how I refined my goals and got started with the project
With the US census coming in 2020, I've decided to sharpen my skills at graphing census data. And today I'm working on creating a population pyramid chart to analyze the age and gender distribution. Follow along if you'd like to see how to create such a chart ... or jump
불과 몇 년 전 까지만 해도 ‘데이터 사이언티스트’라는 단어는 많은 사람들에게 꽤나 생소한 단어였을 것입니다. 하지만 4차 산업혁명이 이미 산업 전반에 깊숙이 자리한 오늘날, 빅데이터 분석이 핵심 역량으로 부상하며 데이터 과학자(data scientist)의 인지도 역시 굉장히 높아졌습니다. 단순히 인지도뿐만이 아닙니다. 세계 최대 취업 정보 사이트 글래스도어(Glassdoor)가 발표한 2019년 ‘미국 최고 직업
Each week in February, your Work/Life team has invited therapists and dating professionals in the community to respond to questions about relationships. For our second blog in this series, we asked our experts... How do you prepare your children to have authentic romantic relationships? Kate Freiman-Fox, Ph.D. Matchmaking, Date and
SAS has worked with our exam delivery partners to integrate a live lab into an exam, which can be delivered anywhere, anytime, on-demand.
When you use maximum likelihood estimation (MLE) to find the parameter estimates in a generalized linear regression model, the Hessian matrix at the optimal solution is very important. The Hessian matrix indicates the local shape of the log-likelihood surface near the optimal value. You can use the Hessian to estimate
This Is the third and final installment of a series of posts discussing promising use cases in retail and the benefits of adopting IoT technologies in 2019. What will be the ground-breaking new application of IoT and analytics that drives an epiphany and spurs widespread adoption? In previous posts, I discussed
This episode covers one of the greatest challenges in Dutch data science: how to distribute €43 billion (no, that’s not a typo) among all Dutch health care insurers in a fair, equal and transparent way. To learn more, I visited the biggest health insurer of the country, Zilveren Kruis, and
During each minute you spend reading this article, 18 people will die of cancer. With each tick of the clock, your odds of becoming one of them increases: age is one of the primary risk factors for cancer. Take Nancy. She is a normal, active, healthy woman. Inside her body
Expect to lose time if you don't include a data steward in your project until you're reviewing the data model.
Have you ever run a regression model in SAS but later realize that you forgot to specify an important option or run some statistical test? Or maybe you intended to generate a graph that visualizes the model, but you forgot? Years ago, your only option was to modify your program
Regular expressions are a powerful method for finding specific patterns in text. The syntax of regular expressions is intimidating, but once you've solved a few pattern-recognition problems with regex, you'll never go back to your old methods.
Plotting just your data often helps you gain insight into how it has changed over time. But what if you want to know why it changed? Although correlation does not always imply causation, it is often useful to graph multiple things together, that might logically be related. For example, recessions
第1回に引き続き、データサイエンティストを目指す学生向けのセミナー「データサイエンティストのキャリアと活躍のかたち」の第2回が1/31(木)に開催されました。当日の様子について紹介します。 このセミナーはデータサイエンティストのキャリアと活躍の場や、ビジネスではアナリティクスがどのように活用されているかについて、スピーカーがこれまでの経験をもとに紹介するものです。 経営幹部候補としてのデータサイエンティスト はじめに、データサイエンティストのキャリアについて、コニカミノルタジャパン株式会社・松木さんの講演です。コニカミノルタジャパンでは、2016年にデータサイエンス推進室を設置し、コピー機の買替・故障・受注の予測などにデータ分析を活用しているそうです。 まず、成果を出せるデータサイエンティストのキャリア形成についての話です。この話題の中では「データサイエンティストとは経営幹部候補、すなわち分析・数理モデルで経営課題を解決できる人材である」という一文がとても印象的でした。松木さんは、ただ分析作業ができる・数理モデルを作成できるだけではなく、それらの優れた技術をツールとして経営課題の解決ができる人材というのがデータサイエンティストのあるべき姿と考えると言っていました。 次に、データサイエンティストに求められるスキルについてです。そのスキルとは主に、分析スキル・ITスキル・ビジネススキルに分けられますが、その中でもビジネススキルは他の2つに比べて教育が困難であり、知識と経験が必要です。そこで実際にコニカミノルタジャパンでは、分析・ITスキルをもつデータサイエンティストと、ビジネススキルを持つ他部署メンバーとが共同して分析を行う仕組み(=タスクフォースユニット)でデータサイエンティストのビジネススキルを補うことを行っているそうです。 こうして、組織単位で分析を進めるにあたって欠かせないのがコミュニケーション能力です。ここで言うコミュニケーション能力とは、単純に人と仲良くなれるという意味よりも、「相手を理解するための、幅広い知識を習得する」「相手が理解できるようにデータサイエンスの見える化をする」ことを指します。現場や他部署メンバーの考えを理解するためのビジネスにおける幅広い知識、データサイエンスの知見がない人でも一目でわかる環境の構築が必要であるとのことでした。 講演の最後には、「データサイエンティストは多種多様な専門性が必要である」というメッセージをいただきました。これまでの話にもあったように、数理モデルの開発といった場面は仕事の一部で、ビジネススキルやコミュニケーション能力を活用することでいかに他の社員に、現場に「みせる」かが重要であるということを学生に伝えていただきました。 ビジネスで活用されるアナリティクス “顧客理解” 次に、ビジネスで活用されるアナリティクスについて、SAS Japanの庄子による講演です。 「通信販売サイトから自分だけのクーポンが送られてきた」、「動画配信サービスに自分好みの動画がおすすめされる」、「携帯電話の学割があれほどまで安い」などといった例を挙げ、私たちが日常生活においてデータ分析の恩恵をどれだけ受けていると思うか?という質問を導入として講義は始まりました。また、消費者のうち64%は支払う金額よりもそのもの自体の質を重視するにもかかわらず、それを完璧に捉えることが出来ている企業はわずか6%であるという話もあり、顧客理解の重要性を直観的に感じることが出来ました。 顧客理解について、前半ではそのコンセプトの紹介です。 顧客理解とは何を理解するのか?代表的な3つの項目があります。 「顧客の優良度・リスク」:どの顧客が特に大事か、損をもたらす可能性が高いか 「顧客の嗜好」:個々に異なる顧客の好みに対して何を薦めるべきか 「顧客の行動」:顧客の生活パターンや生活圏等を考慮する この3項目について、携帯キャリアの顧客理解に関する施策を顧客の加入から解約の流れに沿って例示していました。 後半は具体的に3つの項目についてどのような分析を行っているかについて、前半にもあった携帯キャリアの顧客理解に関連する具体的な施策に3項目をそれぞれ当てはめて紹介していました。ここではその一部を簡潔に紹介します。 「顧客の優良度」:生涯価値(Life Time Value)の算出(どれくらい先まで契約の継続をしそうか、機種変更はいつ頃しそうか) 「顧客の嗜好」:テキストを用いた趣味嗜好判定 「顧客の行動」:位置情報による生活圏の特定 最後には、「企業のデータ活用はまだまだ発展途上でみなさんの活躍が企業や世の中を大きく変える」という前向きなメッセージと、情報倫理のプライバシー懸念について「倫理観が大事”Don’t Be Evil”(by Google)」という助言の両方を学生に向けたメッセージとして伝えていました。 SAS student Data for Good communityの紹介 セミナーの最後には、学生のデータサイエンティストに向けた学びとしてSAS student Data for Good communityについて紹介しました。 「Data for Good」とは多岐にわたる社会的なテーマから課題を提示し、データを活用して解決しようとするものです。これまでにブログで紹介した世界の絶滅危惧種や通勤ラッシュ時の鉄道混雑緩和をData
Each day, more than 130 Americans die from opioid overdoses. Combating the opioid epidemic begins with understanding it, and that begins with data. SAS recently partnered with graduate students from Carnegie Mellon University (CMU) 's Heinz College of Information Systems and Public Policy to understand how data mining and machine
Im vorangegangenen Blog habe ich die „vier Säulen des Vertrauens“ für automatisierte Entscheidungen vorgestellt. Dieser hat gezeigt: Erklärbarkeit und Transparenz beziehen sich auf den gesamten analytischen Prozess. Wie sieht es aber mit der „Blackbox“ der maschinellen Lernalgorithmen aus? Auch dort muss Transparenz durch eine analytische Plattform gewährleistet sein. Die gute
Feature generation (also known as feature creation) is the process of creating new features to use for training machine learning models. This article focuses on regression models. The new features (which statisticians call variables) are typically nonlinear transformations of existing variables or combinations of two or more existing variables. This
SAS Press author Matt Windham shows you how to use the SAS procedure PROC HTTP to grab raw data from a website.
In the previous Graphically Speaking blog for PROC SGMAP, you used PROC GPROJECT so map regions would match OpenStreetMap and Esri background images. This time, the same British Columbia shapefile is used with: PROC GREMOVE to remove unwanted boundary lines PROC GREDUCE to reduce map data PROC GPROJECT to zoom
Recently, I was given an amazing opportunity to work on a project in biomedical image analytics in collaboration with a large university medical center. The goal of the project was to develop a computer vision system that identifies tumors in CT scans of livers. I have always loved applying technology
One of the key health trends we’ll continue to follow in 2019 is the flood of medical and personal data that, if managed and analyzed properly, could help health care organizations provide better care, life sciences companies deliver better therapies and individuals make smarter lifestyle choices. Sounds great, but there
Im vorangegangenen Blogbeitrag bin ich darauf eingegangen, welchen geschäftlichen Nutzen die IFRS-9-Umsetzung für Banken haben kann – abgesehen davon, die Aufsichtsbehörden zufriedenzustellen. Die gleiche Frage stellt sich Versicherern vor dem Hintergrund von IFRS 17. Bis vor Kurzem war die Bilanzierung von Versicherungsverträgen denkbar einfach. Die meisten Accounting-Standards erfordern keine speziellen
I previously discussed how you can use validation data to choose between a set of competing regression models. In that article, I manually evaluated seven models for a continuous response on the training data and manually chose the model that gave the best predictions for the validation data. Fortunately, SAS
Todd Wright says questions from the C-suite morph as the complex data and analytics landscape evolves.
You might have noticed I've been trying out SAS ODS Graphics lately, whereas in the past I mainly used SAS/Graph for my samples. In this blog post I step you through my latest fancy SGplot graph - hopefully you'll learn some tips & techniques, as you follow along. (I don't
2019년에도 인공지능(AI)은 여전히 모든 기관 및 조직들에게 큰 화두일 것으로 보입니다. 인공지능 기술을 통해 기관은 대량의 데이터를 빠르게 분석하고 반복적인 업무 프로세스를 자동화하며, 투명성을 높임으로써 전반적인 운영 효율을 개선할 수 있습니다. 이러한 혁신은 이제 더 이상 첨단 IT 기업들만의 성공 사례가 아닙니다. 새해를 맞이하여 공공 기관이 효과적으로 AI 전략을 구현하기
Im ersten Teil meines Blogs habe ich argumentiert, dass die Beschäftigung mit künstlicher Intelligenz (KI) und Ethik keine rein philosophische oder gesellschaftspolitische Fragestellung ist. Eines ist klar: Die Ethik-Debatten werden in diesem Jahr weitergehen und sich stärker an den realistischen Möglichkeiten und Risiken von KI orientieren. Unternehmen und Organisationen, die