Impulse und Orientierung in Zeiten der Digitalisierung: über 300 Teilnehmer vor Ort, mehr als 250 Zuschauer im Livestream. Wer noch einen Beweis dafür brauchte, dass digitale Transformation und die Rolle, die Analytics dabei spielen kann, Unternehmen und Menschen in hohem Maße beschäftigen, der fand ihn am 22. November 2016 eindrucksvoll
Yearly Archives: 2016
Data quality initiatives challenge organizations because the discipline encompasses so many issues, approaches and tools. Across the board, there are four main activity areas – or pillars – that underlie any successful data quality initiative. Let’s look at what each pillar means, then consider the benefits SAS Data Management brings
A recent issue of Astronomy magazine mentioned Kepler's third law of planetary motion, which states "the square of a planet's orbital period is proportional to the cube of its average distance from the Sun" (Astronomy, Dec 2016, p. 17). The article included a graph (shown at the right) that shows
Editor's note: This series of blogs addresses the questions we are most frequently asked at SAS Press! Ever thought about writing your own SAS or JMP book? Here are a few reasons why writing a SAS Press book can be a fantastic career move! 1. Your book establishes you as
JSON is the new XML. The number of SAS users who need to access JSON data has skyrocketed, thanks mainly to the proliferation of REST-based APIs and web services. Because JSON is structured data in text format, we've been able to offer simple parsing techniques that use DATA step and
Data integration helps a successful business make things simple and quick for customers, and keeps them coming back. While a company will have data silos, data held within one area is made available to others in order to help the customer. In most local, county and state governments that is
Traditional data management includes all the disciplines required to manage data resources. More specifically, data management usually includes: Architectures that encompass data, process and infrastructure. Policies and governance surrounding data privacy, data quality and data usage. Procedures that manage a data life cycle from creation of the data to sunset
2014 およそ2014年からSAS on Hadoopソリューションを本格展開してきました。時代背景的には、2014頃は依然として、業態の特性からデータが巨大になりがちで、かつそのデータを活用することそのものが競争優位の源泉となる事業を展開する企業にHadoopの活用が限られていたと思います。その頃は、すでにHadoopをお持ちのお客様に対して、SASのインメモリ・アナリティクス・エンジンをご提供するというケースが大半でした。 その後、急速にHadoopのコモディティ化が進んだと感じます。 2015 2015頃になると、前述の業態以外においてもビッグデータ・アナリティクスの成熟度が上がりました。データ取得技術の発展も伴い、これまで活用していなかった種類や量のデータを競争優位性のために活用を志向するようになり、蓄積および処理手段としてのHadoopの選択が加速します。この頃になると、数年前には必ずあったHadoopそのものの検証ステップを踏まない企業が増えてきます。データ量、処理規模、拡張性、コスト効率を考えたときに妥当なテクノロジーがHadoopという結論になります。ビッグデータはデータのサイズだけの話ではありませんが、筆者の足で稼いだ統計によると、当時大体10TBくらいが、従来のテクノロジーのまま行くか、Hadoopを採用するかの分岐点として企業・組織は算段していたようです。この時期になると、従来のテクノロジーの代替手段としてのHadoopの適用パターンが見えてきました。 新しいデータのための環境 従来捨てていた、あるいは新たに取得可能になった新しいデータをとりあえず蓄積して、何か新しいことを始めるためのある程度独立した環境として、コスト効率を考慮してHadoopを採用するパターン 既存のデータウェアハウスへ価値を付加(上の発展形であることが多い) 新たなデータを使用してHadoop上で加工し、アナリティクス・ベーステーブルにカラムを追加し、アナリティクスの精度を向上 ETL処理負荷やデータ格納場所のHadoopへのオフロード BI & アナリティクスの専用基盤 SQLベースのアプリケーションだけをRDBMSに残し、その他の機械学習、ビジュアライゼーションなどSQLが不向きな処理をすべてHadoop上で実施 多くは、インメモリアナリティクスエンジンと併用 データレイク (筆者の意見としては)いざ新しいデータを使用しようと思ったときのスピード重視で、直近使用しないデータも含めて、全てのデータを蓄積しておく。よくあるのが、新しいデータを使用しようと思ったときには、まだデータが蓄積されておらず、利用開始までタイムラグが生じてしまうケース。その時間的損失すなわち利益の喪失を重要視し、そのような方針にしている企業が実際に当時から存在します。 2016 海外の事例等では数年前から見られましたが、2016になると、日本でも以下の傾向が見られます 既存Hadoopをそのコンセプトどおりスケールアウトしていくケース グローバル・データ・プラットフォームとして、複数のHadoopクラスターを階層的に運用するケース AI、機械学習ブームにより機械学習のためのデータの蓄積環境として IoTの流れにより、ストリーミング処理(SASでいうと、SAS Event Streaming Processingという製品です)と組み合わせて まさに、Hadoopがデータプラットフォームとなる時代がやって来たと思います。その証拠に、SAS on Hadoopソリューションは、日本においても、金融、小売、通信、サービス、製造、製薬といったほぼ全ての業種において活用されています。 Hadoopの目的は、従来型のBI・レポーティングではなく、アナリティクス このような流れの中で、Hadoopの採用には一つの確固たる特徴が浮かび上がっています。もちろん弊社が単にITシステムの導入をゴールとするのではなく、ビジネス価値創出を提供価値のゴールにしているというバイアスはあるのですが。。。 Hadoopの導入目的は、ビジネス価値を創出するアナリティクスのためであることがほとんどである したがって、Hadoopに格納されるデータには主にエンドユーザーがアナリティクス観点の目的志向でアクセスするケースがほとんどである つまり、ある程度の規模のITシステムではあっても、Hadoopに格納されるデータはアナリティクスの目的ドリブンでしかアクセスされません。主たるユーザーは、分析者やデータ・サイエンティストです。彼らが、「使いたい」と思った瞬間にアクセスできる必要があるのです。このようなユーザーサイドのリクエストは、従来のBIすなわちレポーティングのような固定化された要件定義をするような依頼ではないため、その都度従来のようにIT部門と要件をすり合わせて、IT部門にお願いするという方法では成り立ちません。その数日、数週間というリードタイムが意思決定を遅らせ、企業の業績に悪影響をもたらすからです。あるいはIT部門の担当者を疲弊させてしまいます。つまり、アナリティクスにおいては、分析者・データサイエンティストが自分自身で、Hadoop上のデータにアクセスし、必要な品質で、必要な形式で、必要なスピードで取得するために自由にデータ加工できる必要があるのです。 このあたりの話については、下記でも紹介していますので、是非ご覧ください。 【ITmedia連載】IT部門のためのアナリティクス入門 第2回 やっと分かった ビッグデータアナリティクスでHadoopを使う理由 第3回 データ分析で成功するためのデータマネジメントとIT部門の新たな役割 【関連ブログ】 アナリティクスの効果を最大化するデータマネジメント勘所 これが、Hadoopにおいて、セルフサービス・データマネージメント(データ準備)ツールが不可欠な理由です。SASはアナリティクスのソフトウェアベンダーとして、このHadoop上でITスキルの高くない分析者・データサイエンティストでも自分自身で自由にデータを取得できるツールを開発し提供しています。それが、SAS Data Loader for Hadoopです。 SAS Data Loader
Nearly every organization has to deal with big data, and that often means dealing with big data problems. For some organizations, especially government agencies, addressing these problems provides more than a competitive advantage, it helps them ensure public confidence in their work or meet standards mandated by law. In this
One of the key benefits of creating graphs using GTL or SG Procedures is their support of plot layering to create complex graphs and layouts. Most simple graphs can be created by a single plot statement like a Bar Chart. Complex graphs can be created by layering appropriate plot statements to
My last post described my top general business analytics books, those that would appeal to business leaders and analysts alike. This post is a bit more specific, and covers books that will help you to learn for yourself. It is therefore mainly aimed at analysts — but I still hope
When I was a kid, I always looked forward to Casey Kasem's American Top 40 song countdown at the end of the year. Did I listen to check whether my favorite songs had made the list, or to critique how well the people making the list had done in picking the 'right'
In my earlier post about WHERE and IF statements, I announced that the DATA step debugger has finally arrived in SAS Enterprise Guide. (I admit that I might have buried the lead in that post.) Let's use this post to talk about the new debugger and how it works. First,
Data virtualization is an agile way to provide virtual views of data from multiple sources without moving the data. Think of data virtualization as an another arrow in your quiver in terms of how you approach combining data from different sources to augment your existing Extract, Transform and Load ETL batch
A lo largo de más de 40 años apoyando el crecimiento de su negocio, con nuestras soluciones de Analítica Empresarial, hemos forjado un fuerte compromiso con nuestros socios de negocio: ser un socio confiable y no sólo un proveedor. Siendo líderes en el mercado en soluciones Analíticas, tenemos claro que
En todos lados se habla de lo mismo: transformación digital. Es generalizada la necesidad de hacer las cosas diferentes, ya sea por medio de una nueva apuesta o reinventando la forma en la que hoy se hacen las cosas. Tener acceso a soluciones en todas partes gracias a la Nube
Balance. This is the challenge facing any organisation wishing to exploit their customer data in the digital age. On one side we have the potential for a massive explosion of customer data. We can collect real-time social media data, machine data, behavioural data and of course our traditional master and
Mal ehrlich, wenn ich Sie fragen würde, worüber die Kandidaten im diesjährigen US-Wahlkampf in ihren Aufeinandertreffen debattiert haben – welche Kernthemen würden Sie mir spontan (abseits von Skandalen und Affären) nennen? Und könnten Sie diese Kernthemen den einzelnen Kandidaten zuordnen? Als ich mir diese Frage stellte, war die Antwort –
My preference, of course, would be for everyone to get all the nutrients their body needs for optimal health from the food they eat. In this day and age, however, that is getting harder and harder to do for many reasons…
Do you want to create customized SAS graphs by using PROC SGPLOT and the other ODS graphics procedures? An essential skill that you need to learn is how to merge, join, append, and concatenate SAS data sets that come from different sources. The SAS statistical graphics procedures (SG procedures) enable
In honor of today’s #GivingTuesday, which "harnesses the potential of social media and the generosity of people around the world to bring about real change in their communities,” I’ve been thinking about what constitutes “real change” and the role analytics can play on the many social issues our planet faces.
“Omg, Mom, people are going to think you actually look like that!” My 16 y/o recently got a Facebook account (apparently passé for teens in US but not in Europe and as her circle expands…). So, now she has a front row seat to my (apparently embarrassing) selfies. It’s
est plus près de la maison, está más cerca de casa, está mais perto de casa, dichter bij huis, is closer to home, eh! In analytics and statistics, we often talk about sample sizes. The size of the data sets that you analyze are a measure of the amount of
Has anyone ever broken up with you, and left you thinking "Wow, I didn't see that coming!" In hindsight, maybe you could have seen it coming. At least from a statistical perspective. Let's dive into this topic with some lighthearted discussion, and plot some Facebook data... When it comes to
One aspect of high-quality information is consistency. We often think about consistency in terms of consistent values. A large portion of the effort expended on “data quality dimensions” essentially focuses on data value consistency. For example, when we describe accuracy, what we often mean is consistency with a defined source
In the classic textbook by Johnson and Wichern (Applied Multivariate Statistical Analysis, Third Edition, 1992, p. 164), it says: All measures of goodness-of-fit suffer the same serious drawback. When the sample size is small, only the most aberrant behaviors will be identified as lack of fit. On the other hand,
This is the 2nd installment of the "Getting Started" series, and the audience is the user who is new to the SG Procedures. It is quite possible that an experienced users may also find some useful nuggets here. One of the most popular and useful graph types is the Bar
In the DATA step, the WHERE statement and the IF statement (a.k.a. the "subsetting IF") have similar functions. In many scenarios, they produce identical results. But new SAS programmers are taught early on that these two statements work very differently, and in important ways. To understand the differences, it helps
“Chiamo Fosbury tutti quei momenti in cui un processo raffinato di perfezionamento di una tecnica, di un gusto, di un’espressione, di un'intelligenza, di un modo di intendere il mondo, si spezza all’improvviso per l’avvento di un talento e di altre sotterranee forze all’opera che, contro ogni logica e sfruttando un passo
Using the DATASETS procedure, we can easily modify SAS variable attributes such as name, format, informat and label: proc datasets library=libref; modify table_name; format var_name date9.; informat var_name mmddyy10.; label var_name = 'New label'; rename var_name = var_new_name; quit; We cannot, however, modify fixed variable attributes such as variable type