Blend, cleanse and prepare data for analytics, reporting or data modernization efforts

Jim Harris examines coronavirus terms that are crucial to data-driven decisions in the pandemic.
Blend, cleanse and prepare data for analytics, reporting or data modernization efforts
Jim Harris examines coronavirus terms that are crucial to data-driven decisions in the pandemic.
A prima vista, potrebbe sembrare che data science e psicologia abbiano ben poco in comune. Tuttavia, di recente ho iniziato ad appassionarmi di psicologia e penso che tra le due ci siano molte più somiglianze di quanto si possa pensare. 1. Sia Data Science che psicologia ci aiutano a rispondere
A evolução do analytics e da ciência de dados gera constantes atualizações e transformações nas plataformas de análises. Este artigo tem o propósito de apresentar como o SAS tem acompanhado essa evolução. Ambiente Integrado: uma única plataforma, diversas tarefas O SAS oferece recursos que permitem acessar, explorar, transformar, analisar e
前回のブログでは、Microsoft AzureストレージサービスのブロックBlobストレージについて軽く紹介し、SASからBlobストレージ中の特定の一つのファイルにアクセスする方法を紹介しました。 第1回リンク:https://blogs.sas.com/content/sasjapan/2020/10/01/sas-azure-blob-1/ しかし、実際のビジネスシーンでは、特定の一つのファイルにだけアクセスする運用はやはり割合的には少ないと考えています。 そこで、今回のブログでは、より効率的に、複数データに同時にアクセスできる方法を紹介します。そしてこれは、Microsoft AzureのBlobストレージをファイルシステムとしてSASサーバにマウントし、SASサーバから便利にアクセスする方法です。 前回と同じように、下記の方法を使うためには、前提条件として、SAS ViyaサーバとBlobストレージがあるAzure間でネットワーク通信ができる必要がありますので、ネットワークセキュリティ条件を確認してから、下記の方法をお試しください。 方法②: BlobストレージをファイルシステムとしてSASサーバにマウントし、SASサーバからアクセスする方法。 Microsoft Azure側: 1.まず、Azureポータルに入り、「ストレージアカウント」をクリックします。(図2-1) 図2-1 2.その配下で、使用されている対象Blob用のストレージアカウントをクリックします。(図2-2) 図2-2 3.そして、表示された左ペインの中で、「アクセスキー」というメニューをクリックします。(図2-3) 図2-3 4.該当ページでは、このストレージアカウントにアクセスするためのキーの情報が含まれているので、その中の、「ストレージアカウント名」と「キー」をメモしてください。あとで接続設定情報を作る時に使用します。(図2-4) 図2-4 5.一層上に戻り、同じくストレージアカウントの左ペインで、Blobサービスの中の「コンテナー」をクリックします。(図2-5)アクセス先のコンテナー名前(例:folderfirst)をメモしてください。あとで接続設定情報を作る時に使用します。 図2-5 以上で、Azure側の準備作業が終わります。次は、SASサーバ側の準備作業を進めていきます。 SAS Viyaサーバ側: 今回、Blobストレージをファイルシステムとしてマウントするには、Blobfuseという仮想ファイルシステムドライバー機能を使います。そのため、事前にSAS ViyaがインストールされているLinuxサーバ側に、そのツールをインストールする必要があります。 このブログで使用しているSAS ViyaサーバはRHEL/CentOS 7.x系のLinuxサーバであるため、Blobfuseのインストールを含めた手順は下記となります。 6.使用するSASユーザで、SASサーバ側にMicrosoftパッケージリポジトリをインストールします。 sudo rpm -Uvh https://packages.microsoft.com/config/rhel/7/packages-microsoft-prod.rpm 7.BlobfuseをSASサーバ側にインストールします。 sudo yum install blobfuse 8.Azureでは、低いレイテンシーとパフォーマンスのため、SSDが提供され、今回はそれを使って、ディレクトリーを作成します。(SSD使わないことも可能ですので、その場合、別ディレクトリーで作成して頂いてかまいません。) sudo mkdir /mnt/resource/blobfusetmp -p sudo chown #YourUserName#:sas /mnt/resource/blobfusetmp
近年、クラウドベンダーが提供するサービスが充実し、より多くのクラウドサービスが誕生してきました。しかし、一つのニーズに対して、複数のサービスを選択できるようになってきているものの、どのサービスが最適なのかを判断することは逆に難しくなってきていると考えられます。最近、SASを活用しているお客様から、「Microsoft社のAzureを使っていますが、これからクラウドにデータを移行して、安くて使い勝手なストレージサービスは何かありませんか」と聞かれたこともありました。 このブログシリーズでは、クラウド上のストレージサービスの一種であるMicrosoft Azure CloudのBlobストレージサービスの概要を紹介した上で、SAS ViyaからそのBlock Blobストレージに格納されているデータへアクセスする方法をご紹介させていただきます。 このブログシリーズは合計2回です。今回のブログでは、まず特定の一つファイルへのアクセス方法をご紹介します。次回のブログでは、より汎用的なアクセス方法、つまり、Blobストレージを一つのファイルシステムとして、SASサーバと連携し、一度に複数のデータにアクセスする方法をご紹介します。ぜひ最後まで、お付き合いいただければと思います。 第1回:https://blogs.sas.com/content/sasjapan/2020/10/01/sas-azure-blob-1/ 第2回:https://blogs.sas.com/content/sasjapan/2020/10/05/sas-azure-blob-2/ Blobストレージとは何か? まず、Blobストレージとは何かを紹介する前に、Blobって何でしょうか、から始めます。聞きなれない方もいらっしゃるかと思いますので。実際、BlobはBinary Large OBjectの略称です。本来はデータベースで用いられているデータタイプの種類で、メディアファイルや、圧縮ファイル、実行ファイルなどのデータを格納する時に使用されているものです。 では、Blobストレージとは何か?Microsoft社の紹介では、こう書かれています。 「Blob Storage は、テキスト・データやバイナリ・データなどの大量の非構造化データを格納するために最適化されています。非構造化データとは、特定のデータ・モデルや定義に従っていないデータであり、テキスト・データやバイナリ・データなどがあります。」 少し言い換えますと、Blobストレージは、ログファイルから、画像ファイルやビデオ・オーディオファイルまで格納できます。もちろん、通常目的でのデータ利用にも対応しているため、データの格納場所として使っても問題ありません。(Microsoft Azureの資料によりますと、4.75 TiBまで可能です。) なぜBlobストレージなのか 前文で少し申し上げたSASのお客様から頂いた質問の中で、「安くて使い勝手の良いストレージサービスは」と聞かれた事に関して、安いというポイントに関しては、下記の図をご覧ください。 ソース:https://azure.microsoft.com/ja-jp/pricing/details/storage/(2020/09/09アクセス時点) ご覧のように、ブロックBlobのストレージサービスは、安価で、かつ非構造化データに対応し、一般目的でのデータストレージとして、非常に向いています。 もちろん、ビジネスケースによっては、様々考慮すべき点(既存環境にHadoop環境があるかどうか、スループット、ビッグデータ等々)もありますが、今回は、主にこのブロックBlobストレージを例として紹介します。 SAS ViyaからBlobストレージにアクセスする方法 ここからは、SAS ViyaからBlobストレージにアクセスする方法をご紹介します。下記の方法を使うために、前提条件として、SAS ViyaサーバとBlobストレージがあるAzure間でネットワーク通信ができる必要がありますので、ネットワークセキュリティ条件を確認してから、下記の方法をお試しください。 方法①: SASのPROC HTTPプロシージャを使って、Blobストレージ内の特定の一つのデータにアクセスする方法。 Microsoft Azure側: 1.まず、Azureポータルに入り、「すべてのリソース」をクリックします。(図1-1) 図1-1 2.その配下で、利用されているストレージアカウントをクリックします。(図1-2) 図1-2 3.次に、表示された左側のメニューの中で、「Blob Service」配下のコンテナーをクリックします。(図1-3) 図1-3 *豆知識: ここで、いきなりコンテナーが出てくることに関して、混乱している方もいらっしゃるかもしれないので、少し解説します。こちらのコンテナーとは、Dockerコンテナーの意味ではありません。Blobストレージサービス配下のデータ格納用のサブ階層のことであり、フォルダーのようなものとイメージしてください。(図1-4) 図1-4 4.上記図1-3のように、その中に一つ「folderfirst」というコンテナーが存在しており、それをクリックすると、中に保管されているデータが見えるようになります。(図1-5) 図1-5 5.ここからが重要なポイントです。特定のデータ、例えば、「sas7bdat」データにSAS Viyaからアクセスしたい場合は、該当ファイルの名前をクリックして、下記のようなプロパティ情報を表示させます。(図1-6) 図1-6
SAS' Leonid Batkhan reviews SAS functionality related to the character strings quoting/unquoting, then dives deep into unquoting SAS character variables.
In the third post of his series, Jim Harris looks at types, terms and timing of coronavirus tests.
¿Por qué es hoy el mejor momento para migrar a la nube? Porque su conveniencia, ubicuidad y flexibilidad permiten que una organización siga operando sin interrupción en situaciones normales y extraordinarias, ya sea una crisis económica, política, natural o sanitaria como la actual. Pero también porque la nube ha alcanzado
Los días de compras diferenciadas -como los días sin IVA llevados a cabo en varios países latinoamericanos y los que aún hay programados por ejemplo en Colombia para septiembre- deben dejarnos experiencias y aprendizajes. Es cierto que hay que seguir reforzando los controles de bioseguridad y que cuidar la salud
Meet Alfred Mukudu in this third post of the Humans of SAS Services series.
Meet Mario Weitenbacher in this second post of the Humans of SAS Services series.
Could you pass a test on coronavirus testing terms? Jim Harris can help.
SAS' Leonid Batkhan reveals how to change lengths for all character variables in a data set and all data sets in a data library to facilitate data migration to Unicode encoding environment.
Dashboards and metrics support data-driven decisions – if you understand the terms.
SAS' Leonid Batkhan shows you how to split a large data set into many by a subsetting by a number of observations to produce smaller, better manageable data sets.
SAS experts point to five trends that are shaping the future for digital tax administration.
No último dia (16) de junho, aconteceu a primeira edição do Virtual SAS Global Forum, principal evento global para a comunidade analítica. Na ocasião, um dos principais destaque foi um bate-papo entre Simon Sinek, otimista e escritor de best-sellers, e Oliver Schabenberger, vice-presidente executivo, COO e CTO do SAS. A
Meet Jim West in our first post in the new Humans of SAS Services series.
Teknik mimari çeşitli bir konudur- ancak bazı sorular tekrar tekrar gündeme gelir. Altyapıyı, açık kaynak politikasını, IoT veri yönetimini, paydaş katılımını kapsayan geniş yelpazenin tamamı, kurumsal mimarların oynadığı rolün giderek daha önemli bir hale geldiğine işaret ediyor. Bu yazımda son 12 ay boyunca en sık sorulan on soru ve müşterilerime
Kim Kaluba explains how connecting data to decisions helps create resiliency.
El gobierno de los modelos analíticos es una función cada vez más estratégica para las empresas. Para analizar su importancia hemos llevado a cabo un evento digital junto al Club Chief Data Officer (CDO) Spain & Latam. Aprovechando la ocasión entrevistamos a Silvina Arce, Co-Founder del Club Chief Data Officer
Learn the nuts and bolts of how to measure data quality from expert Jim Harris.
The COVID-19 pandemic challenged agriculture and supply chains, but the overarching resilience of agriculture around the world speaks to the industry's efficiency, built-in redundancy and indispensability. In the US, flourishing interactions between government, industry and academic stakeholders underscore how ag represents unity and consilience. And there may be no better
A propósito del Global Business Barometer apoyado por SAS y The Economist). En el mundo de los negocios hay una frase atribuida a John Maxwell que aplica muy bien al momento (a este y a cualquiera): “El pesimista se queja del viento. El optimista espera que cambie. El líder arregla
Nancy Rausch shares 4 examples of the role data management techniques play in responding to COVID-19.
By transferring non-differentiating activities to modular industry utilities, banks could potentially improve return on equity by 60 to 100 basis points.
Jim Harris shows how data, analytics and humans work together to form the "insight equation."
To foster digital business transformation, banks need to redesign both internal and customer-facing processes to embed data-driven decision-making.
Watch list screening has been one of the rules with highest false-positive rate. Watch list screening has been one of the pillars for know your customer (KYC) and anti-money laundering (AML) regulatory requirements since the beginning. It was introduced to prevent known criminals (or known high risk entities) from utilizing
Data management has never been the shiny object that caught the imagination of the mainstream. And let’s be honest, it's not nearly as interesting as analytics, machine learning or artificial intelligence. In fact, entire movies get created about analytics, and people actually pay to see them! Data management? Not so