All Posts

Advanced Analytics | Analytics | Data Management
Spiros Potamitis 0
How organizations can maximize productivity to maintain their competitive edge

Data science teams are no longer comprised of tiny groups of Ph.D. holders exploring cutting-edge projects. Organizations that wish to stay competitive in their marketplaces today need effective data science teams. A strategy to effectively apply advanced analytics and data science to drive better products, services and decisions has many

Analytics
SAS Korea 0
SAS가 제시하는 2023년 데이터분석 시장전망

회복탄력성을 유지하는 한 해 될 것 2022년 우리는 코로나19 팬데믹과 수많은 가족의 터전을 빼앗은 국제적 분쟁에 적응하고 회복하기 위해 노력했습니다. 에너지 가격은 급등했고, 공급망 문제 및 여러 중단 사태가 지속되었습니다. 그 결과 수 십년만에 전 세계 물가인상률은 역대 최고를 기록했고, 경제 전반에 도미노 효과를 일으켰습니다. 지난 몇 년 간 우리는

Analytics | Data Visualization | Work & Life at SAS
Andrés Mauricio Torres 0
Los beneficios de crear una cultura analítica en una organización

“Una red mundial de sensores conectados mediante tecnología inalámbrica a computadoras que analizan los datos, dará a las empresas de todo el mundo una mayor cantidad de información y visibilidad sobre cómo funcionan las personas, los dispositivos y los sistemas”. De todas las definiciones que uno puede encontrar y que

Advanced Analytics | Analytics | Data Visualization
Ivan Fernando Herrera 0
El papel de la inteligencia empresarial y analítica en el futuro de las BFSI

Cuando se habla de Big Data en la industria BFSI (como es conocida a nivel internacional la industria de servicios financieros incluyendo banca y seguros), se hace referencia a oportunidades, crecimiento, transformación y futuro. Muy pocas industrias tienen, generan y agregan tantos datos como la de los servicios financieros. Para comenzar, las empresas de esta industria deben entender y analizar más que muchas otras el comportamiento de los clientes, no solo por el cumplimiento de normas, sino también por

Analytics
0
SAS ViyaでのSASプログラム実行用リソース管理(二):ユーザごとに計算リソースと権限の設定方法

一、背景の紹介 "データアナリストのようなヘビーユーザと利用頻度が低いユーザや参照系のユーザなど、さまざまなユーザがおり、SASプログラムを実行する際に利用するCPUとメモリなどの計算リソースを、ユーザタイプごとに割り当てる設定をしたい"。これは、多くのViya4ユーザ様が持つ課題です。これを実現するためには、次の2つのステップが必要です 1.異なるタイプのユーザごとに利用できる計算リソースを設定します。 2.異なるタイプのユーザに対して、権限を個別に割り当てる必要があります。 前回の記事では、Viyaのシステム管理者に向けて、ユーザが利用できる計算リソースの上限値の変更方法を紹介していきます。本記事では、異なるタイプのユーザに対して、利用できる計算リソースを個別に設定する方法と権限を個別に割り当てる方法を紹介します。 二、準備 ユーザがSAS Studioを使用しているときにSAS Viyaがどのように計算リソースを呼び出すかは、前回の記事で説明したとおりですので、ここで割愛します。 興味のある方は、こちらのリンク先のブログをご参照ください。 以下の紹介内容は、基本的に一回目の記事と同じくデプロイメントファイルとK8sクラスターに変更を加える必要があるため、以下を準備する必要があります。基本的にViyaをデプロイ時に必要なものと同じですので、もし下記に対して不明なところがある場合、ご利用のViya環境のデプロイ担当者にお問い合わせください。 ・k8sクラスターのAPIサーバーに接続できる作業用のサーバー、OSはLinux系がおすすめです。 ・k8sクラスターに接続用コンフィグファイル(管理者権限が必要)。~/.kube/configとして保存します。 ・k8sのコマンドラインツール:kubectl ・Viyaデプロイメントアセットのコンパイル用ツール:kutomize ・Viyaをデプロイ時に使ったkustomization.yamlやsite-configフォルダを含めたファイルアセット また、ユーザの権限を設定するには、ViyaのGUI上での操作が必要のため、以下の準備も必要です。 ・管理者権限を持つViyaアカウント 三、ユーザごとに計算リソースの上限値を設定する方法 この章の項目は多いので、読者は以下のリンクを使って興味のあるセクションに直接ジャンプすることができます。 1.シナリオの紹介 2.ユーザグループの作成 3.SAS Viyaのデプロイメントファイルの修正 4.ヘビーユーザ用ポッドテンプレートを作成 5.ユーザ権限の設定 6.ユーザ権限設定の検証 1.シナリオの紹介 こちらの章の内容は、下記のシナリオに基づいて、ヘビーユーザとライトユーザ二種類のタイプのユーザに対して、それぞれ異なる計算リソースの上限を設定するシナリオを紹介します。 ・ユーザタイプA:ヘビーユーザ 利用する最大CPU:8CPU 利用する最大メモリ:8Gi ・ユーザタイプB:ライトユーザ 利用する最大CPU:2CPU 利用する最大メモリ:2Gi 2.ユーザグループの作成 まず、Viyaにヘビーユーザとライトユーザの2つの独立したユーザグループを作成する必要があります。この部分の作業はSAS ViyaのGUI上で実施します。 ①SAS Viyaへログインし、左側のメニューから「環境の管理」を選択します。 ②環境管理の画面に切り替わったら、左のメニューから「ユーザ」を選択します。 ③そして、画面上部の「ビュー」をクリックし、「カスタムグループ」を選択し、「新規作成」ボタンをクリックします。 ④ヘビーユーザ用グループを作成しますので、グループ新規作成の画面に、名前とID、説明を下記の図のように入力し、「保存」ボタンをクリックします。 ⑤そして、ライトユーザに対しても、同様の方法でグループを作成します。 ⑥次は、作ったユーザグループにユーザを追加しますので、作ったグループ名を選択し、右側の編集アイコンをクリックします。 ⑦ユーザ追加画面で、追加するユーザを選択し、追加アイコンで追加し、終わったら「OK」ボタンをクリックします。同様な操作でもう一つのヘビーユーザ用グループに対しても実施します。これで、ユーザグループの作成は完了しまた。 3.ライトユーザ用ポッドテンプレートを作成 ユーザグループごとに使用する計算リソースが異なるため、ユーザグループを作成した後に、ユーザグループごとに個別のポッドテンプレートを定義する必要があります。この部分の作業は、kubernetes側で実施します。 ①まず、ライトユーザ向けのポッドテンプレートを作成してみましょう。下記のコマンドで既存のポッドテンプレートをファイルとして、ローカルに保存します。 kubectl

Analytics | Students & Educators
アナリティクス入門講義:要因分析・効果検証

SASが提供する大学講義「アナリティクス入門」のブログ・シリーズ、前回は記述的アナリティクスについてまとめました。今回は4つのアナリティクスのレベルの2つ目、診断的アナリティクスについてまとめます。診断的アナリティクスは、要因分析・効果検証・統計的因果推論などの手法を用い、事象がなぜ起こったかを分析します。 収入が多い家庭の子供は学力が高いか? 数年前のNewsweekの記事に、教育の不平等を取り上げたものがありました。子供の教育にはお金がかかり、収入が多い家庭しか良い学歴を得られないという論調です。東京大学生の親の年収分布と45-54歳男性の年収分布を比較し、前者では年収950万円以上が62.7%もいるのに対し、後者は12.2%であることをデータとして掲載しています。さて、このデータから「東大に入学できたのは親の収入が多いからである」と主張するのは正しいでしょうか? 子供の教育にお金がかかることは事実だと思いますが(日々実感しております)、先程のデータから「親の収入→東大」の因果関係を導くには、対応しなければいけない反論をいくつか思いつくことができます。 まず、取得したデータに偏りはないでしょうか。東京大学の学生は、東京を中心とした関東出身者が多いと思いますが、全国と比較して、東京在住者の収入は高いので、その影響が出た可能性があります。また、「一般の男性」は「大学生の子供がいる年代」のデータのようですが、「実際に大学生がいる」かどうかはわかりません。一般に、子供がいる世帯のほうが子供のいない世帯より収入が多いので、これも影響が出ている可能性があります。このように、集計対象のデータの偏り(バイアス)により、適切な比較がなされていない可能性があります。 また、「収入の多さ」と「東大への入学」に関係があっても、因果関係は無いかもしれません。例えば、家族や地域の「教育熱心に対する考え方」が収入や学歴に同時に影響を与える場合、擬似的な相関が現れる場合があります(偽相関)。このような交絡要因を考慮しないと、真の因果関係を割り出すことは難しいです。(念のため書いておきますが、Newsweekの記事が間違っていると主張しているわけではありません。考慮すべきバイアスや交絡がありそう、という主張です) キャンペーン・メールの効果 企業では、商品の購買促進のために、顧客に直接メールを送り、商品の案内をするということを行うことがあります。このとき、メール配信の効果を知るためには、メールを送った顧客の購買量とメールを送らなかった顧客の購買量の差分をとればよい、と考えることができます。しかし、もしメールの配信を「もともと買ってくれそうな人」を対象としていた場合はどうでしょうか。効果的にメールを送るには、このような対象に限定することは合理的ですので、このような場合は多いでしょう。しかし、買ってくれそうな人にメールを送っていたとすれば、メールを送った顧客は「もともとメールがなくても買っていた」人だったかもしれません。つまり、メールを配信した効果は単純比較の差分量より小さい可能性があります。このときの、「メールを送った人のほうがもともと購入しやすかった」という偏りをセレクション・バイアスと呼びます。 バイアスや交絡を除去する方法 バイアスや交絡を除去する最も強力な方法はランダム化比較実験です。対象を「メールを送るグループ」と「送らないグループ」に振り分けることにより、データ取得の段階からバイアスや交絡を含まない比較対象を作ることができます。薬剤やワクチンの効果の検証は、この方法が採られます。どれぐらいの実験対象を用意し、測定された効果が偶然現れたものではないことを統計学的に検証します。このあたりは、ライフサイエンスの事例の回で詳細に紹介します。 一方で、ランダム化比較実験はコストがかかります。さきほどのメールの例でいえば、買ってくれそうな人に送ったほうが効果的なメールを、あえて効果が低い人にも送る必要があります。薬剤の治験では、協力してくれた被験者に報酬を支払います。また、例えば「子供手当の効果」の検証など、そもそもランダムに振り分けることができない場合もあるでしょう。そういった場合には、実験で計測されたデータではない、観察データを用いて統計学的に効果や因果を検証することになります。この方法は統計的因果推論と呼ばれます。統計的因果推論については、こちらのブログ・シリーズで詳しく解説されています。 観察データから因果や効果を推定するには、「もしかしたらこういう要因があるのではないか」という候補を多く集め、それらの影響を丁寧に検証する必要があります。そういった候補を網羅的に思いつくには、その領域への深い知識が必要です。データサイエンスにおけるドメイン知識の重要性は、前回述べたデータ準備においてそれぞれのデータの意味や特徴を捉えるとともに、このような要因分析・因果推論における交絡要因を抜き出すことにも関連します。 研究における診断的アナリティクス 米国バージニア・コモンウェルス大学のMessyがんセンターで、がんによる死亡の社会要因を研究している事例があります。ここでは、所得や教育水準など、社会的な不利な立場ががんの死亡率に与える影響を研究しています。このためには、年齢や体重、喫煙、飲酒、食生活といったがんのリスク因子の他に、医療施設の場所や居住地域、人種、民族、収入などの社会的要因を総合的に検証する必要があります。このような多くの要因から、本当に影響がある要因を特定するためには、統計的因果推論が必要です。 また、ここでもやはり、データの質は重要です。多くのデータソースから個人をキーとしてデータを統合し、さまざまな要因(変数)を含む総合的なデータを作る必要があります。医療情報はセンシティブなデータになりやすいので、データの統合、研究者への共有、患者へのフィードバックといった利便性の追求と、セキュリティの確保の両面が大切です。

1 2 3 4 5 700