こんにちは、SAS Japan の西井です。本ブログにアクセス頂きありがとうございます。私は 2019 年に SAS に入社しましたが、それまでは国内の自動車部品メーカーにて様々な化学素材や工業部材の基礎研究・量産化開発に 10 年以上携わって来ました。SAS 入社後は、国内の製造業のお客様へ業務課題解決のためのデータ分析のソリューション(ソフトウェアやサービス)を提供する仕事に従事しています。今回はそれらの経験を通じて感じた事をタイトルのブログ記事として記しました。製造業での DX 推進の一つのヒントになれば幸いです。 背景 近年、製造業におけるデジタルトランスフォーメーション (DX) が大きな注目を集めています。DX とは一般的に、データやデジタル技術を活用して、業務プロセスを変革し競争優位を確保していくことと定義されています (参照 1) 。 製造業で DX が求められる背景には、ビジネス環境の変化による製品競争力低下への強い危機感があると考えています。日本の製造業はこれまで、各社のコア技術を元にした高度な品質を有する製品群によって、長期にわたり競争力を維持して来ました。しかし2000年代以降、新興国の参入やサプライチェーンのグローバル化など様々なビジネス環境の変化により、その優勢性に陰りが見えるようになりました (参照 2) 。競争優位の再構築に向けて、単独の製品性能による価値だけでなく、バリューチェーンを横断する形での付加価値創出、例えばロジスティックの最適化や顧客サービスの高度化など、いわゆるビジネスモデルの変革へ向けた施策が多くの企業で試みられるようになりました。その際、重要な要素の一つがデジタル技術の活用であり、DX の概念と重なったため、最近より強く注目されるようになって来たと認識しています。 本ブログのスコープ 弊社 SAS Japan は国内の製造業のお客様へ分析ソフトやサービスの提供を行い、業務課題の解決や高度化への変革、DX 推進のサポートを進めております。その中でしばしばお客様から、このような DX の総論を聞いても、実感がわかない、自分の業務とどう関連するのかわからないというご意見をしばしば頂くことがあります。特に競争優位の中核である品質管理に関わっている技術者の方々にとっては、製造データを用いた生産・品質管理活動はかねてから実施しており、今後どのような変化が必要で具体的に何に着手して良いか理解しかねていると感じています。今回、そのような現場技術者の方や企業の DX 推進担当者の方々を対象に、一つの切り口の例として、これまで品質管理手法として長らく活用され今も活躍している SQC (Statical Quality Control: 統計的品質管理) にフォーカスを当て、どのように DX へ組み込み発展させることが可能か、提言したいと思います。 SQC とは SQC は、QC七つ道具などの可視化手法 (管理図など、参照
Uncategorized
Monotonic transformations occur frequently in math and statistics. Analysts use monotonic transformations to transform variable values, with Tukey's ladder of transformations and the Box-Cox transformations being familiar examples. Monotonic distributions figure prominently in probability theory because the cumulative distribution is a monotonic increasing function. For a continuous distribution that is
こんにちは!SAS Institute Japanの堀内です。今回は自然言語処理について紹介いたします。 自然言語処理とは、人間が普段会話したりメールしたりする際に使う言語(日本語や英語など)を、一種の信号とみたてて、その信号を機械が理解し、機械によって意味のある出力を得られるように工夫して処理することを指します。”自然”と明記しているのは機械にとっての日常語であるプログラム言語や機械言語と区別するためです。近年のAIやディープラーニングの発展とともに、この自然言語処理の分野も驚異的な進歩が見られ、私たちの日常生活の様々な分野で実際に活用されるようになってきました。第1回目の本投稿では、その内のいくつかを紹介いたします。第2回目以降は、実際にSASを使った自然言語処理の例を解説していく予定です。最後まで読んでいただければ、自然言語処理のホットトピックの内のいくつかを実装レベルで把握することができるようになるかと思いますのでどうぞお付き合いください。 最近の自然言語処理の実務適用例 チャットボット フリーテキストを入力欄に書き込むと、それに応じてボット(プログラムされた自動応答マシン)が適切な返答をテキストで返してくれるものです。様々なウェブページやアプリケーションに内蔵されるようになってきました。 例えば、不動産検索アプリに内蔵されたチャットボットでは、希望の条件をフリーテキストで入力すると、条件に合う物件を瞬時にレコメンドしてくれます。これによりユーザーが不動産検索サイトで条件を指定したり、相談窓口に電話して担当者に希望を伝えたりする手間が省けるようになってきています。 文書検索 手元にある長文の文書(例えば小説や論文など)と類似する文書を探したいとき、皆さんはどうしていますか?検索キーワードをいくつかピックアップしてGoogleなどのサーチエンジンで検索する、というのが最もオーソドックスな方法かと思いますが、最近では文書をまるごとサーチエンジンに入力し、似ている文書を探してくる文書検索ができるようになってきました。似ている文書がどのくらい似ているのかという指標も併せて返してくれるので、大量の論文を検索しなければならないビジネスや研究分野においては、検索の手間が大幅に減り大変便利です。 自動採点 皆さんも学校の国語や英語の授業で、長文を読んで質問に対して答えを書くという長文読解問題を解いたことがあるかと思います。私はこの手の問題が大の苦手でした。なぜならまず長文を読まなければならないのと、答えも一定の長さの文章を書かなければならず、とても手間に感じていました。実はこれ、テストを受ける生徒が嫌がるだけでなく、採点をする先生も同じくらい嫌だったのではないかなと思います。生徒の書いた解答文を読み解き、模範解答とされる文章と意味的に合致しているかという判断を下さなければならないのは結構手間がかかるはずです。実は最近の自然言語処理の発展により、この採点の部分を自動化することができるようになってきています。生徒の書いた文章と模範解答文との意味的距離をモデルが計算し、意味が近ければ正解、遠ければ不正解とすることができます。 また、長文のどの部分が解答となる要素を含んでいるか、というところまで判断し、解答文を自動作成することもできるようになってきました。これはQAタスクと呼ばれる自然言語処理の代表的なタスクの直接的な応用例になります。 オートフィル機能・スペルチェック機能(ライティング支援機能) 文書をタイピングする際、先読みして候補の単語をレコメンドしてくれたり、タイプした文のスペルチェックをしてくれたりする機能を皆さんも使ったことがあるかと思いますが、最近のものは複数行のセンテンスをレコメンドしてくれるようになってきました。またプログラミングの支援機能として書きたい内容をフリーテキストで書くと、該当のコードを提案してくれる機能がGitHubに実装されるなど、世の中はますます便利になりつつあります。(今私はブログを書いているわけですが、書きたいことの概要だけを書くと実際のブログ記事が提案されるようになったらどんなに仕事が捗るかと思います。) このように、これまで人間が苦労をして行っていた言語処理を機械ができるようになってきました。上にあげた例は実務適用例のごく一部です。様々な分野で自然言語処理が適用されようとしています。では、実際にSASではどのような事例が扱われているのでしょうか? SASによる事例紹介 ここではSASがこれまで手掛けてきた自然言語処理のプロジェクトの一部を紹介します。 MR活動最適化 フランスの製薬企業において、SNSデータを解析することでKOL (Key Opinion Leader: 製薬企業の販売促進に影響力を持つ医師などの専門家) のセグメンテーションを行い、MR活動の最適化を行いました。SNSデータの解析にVTA¹が用いられました。 紹介記事: https://www.linkedin.com/pulse/how-does-hcp-behavioral-segmentation-help-build-full-olivier-bouchard/ 院内有害事象発生防止の取り組み ノルウェー北部の中規模病院にて院内有害事象発生の未然防止のため標準的なツールGTT(トリガーツール)を半自動化する改良を加えることで、同等の精度を保ちながら院内有害事象の発見に要する時間を94%削減させました。電子カルテにはフリーテキストで記載された様々な様式の文書がありますが、そこから院内有害事象のトリガーとなる事象を抽出する部分にSASの自然言語処理の技術が使われました。 紹介記事: https://www.sas.com/da_dk/customers/helse-nord-patient-safety.html 有害事象発生予測 市販後の医薬品安全性監視において、FDA(アメリカ食品医薬品局)に寄せられた患者テキストの内、対象とする有害事象の発生を真に報告しているものをディープラーニングにより自動抽出する試みがなされました。テキスト解析とそれに続くディープラーニングによる予測モデルの構築にSASの技術が使われました。 紹介記事: https://communities.sas.com/t5/SAS-Global-Forum-Proceedings/Developing-a-SAS-Deep-Learning-MedDRA-encoder-MedDRA-DeepCoder/ta-p/735360 院内感染発生状況モニタリングシステム デンマーク南部地域一体の病院における、院内感染発生状況をモニタリングするシステムの開発が行われましたが、フリーテキストで記載された電子カルテの文書の中から、院内感染が疑われる箇所を抽出するアルゴリズムにSASの自然言語処理の技術が使われました。 紹介記事: https://www.sas.com/da_dk/customers/the-region-of-southern-denmark.html 消費者安全に関する報告のテキスト解析 消費者安全を担当するアメリカの政府機関に寄せられた消費者による様々な商品の安全性に関する報告文書を、VTAで解析し, VA²で可視化することで、単なる検索では得られないインサイトを得られることが分かりました。
はじめに 前回のコラムでは因果関係を統計学的に考えるために「潜在アウトカム」という概念を導入しました。そして、因果効果を異なる介入レベルの潜在アウトカムの比較によって定義しました。例えば、心臓移植という介入がその後の生存に関して因果効果を持つかどうかを考えたい場合には、各個人が心臓移植を受けたらどうなったか、もしくは受けなかったらどうなっていたかという2つのifの結果(潜在アウトカム)を考え、それぞれを比較します。これが潜在アウトカムの枠組みでの因果推論(Rubin流の因果推論)の基本的な考え方になります。 しかし、詳細については後述しますが、このifの結果である潜在アウトカムは、現実にはいずれか1つしか観測はされず、もう一方は現実には得られない結果(反事実)となるため、個人における因果効果は定義することは可能であっても、その値を求めることは一般には出来ません。しかし、平均因果効果については識別可能条件 (identifiability conditions) と呼ばれる以下の3つの仮定の下では、その値をデータから推定することが可能です。 一致性 (consistency) 交換可能性 (exchangeability) 正値性 (positivity) 今回のコラムではこれらが意図する内容について解説を行います。なお推定手法によっては追加の仮定や、ここで紹介したものとは異なる仮定が置かれる場合(e.g., 操作変数法)、暗に置かれている条件については補足資料や、各推定手法に関するコラムをご参照ください。 一致性 前述のように潜在アウトカムを用いるRubin流の因果推論においては、因果効果は異なる介入レベルの潜在アウトカムの比較によって定義されます。ここで1つ重要なことがあります。それは、潜在アウトカムと観測されるアウトカムは異なる概念であるということです。あくまで潜在アウトカムとは、〇〇という介入を「仮に受けたとしたらどのような結果となるかというifの結果」であり、観測されるアウトカムは〇〇という介入を「実際に受けた場合の結果」です。つまり、潜在アウトカムを用いて定義される因果効果をデータ(観測される結果)から考えるためには、これら2つの異なるアウトカムをリンクさせる必要があります。 そこで必要となるのが一致性 (consistency) と呼ばれる仮定です。一致性とは全ての個人に関して、ある介入A=aを受ける場合の潜在アウトカム Ya が、実際にその介入を受けた場合に観測されるアウトカムYと一致することを意味します。例えば、介入Aを心臓移植の有無、アウトカムを介入から5日後の生存の有無としたとき、ある個人に対して想定される潜在アウトカムは、介入を受けない場合と受ける場合の結果であるYia=0, Yia=1の2つです。ここで仮に、被験者は実際に介入を受けたとします。すると、手術から5日後に観察された結果Yは、手術の前に考えた潜在アウトカム Yia=1と同じであるというのが一致性が指す内容です。一見すると、大変当たり前のことを言っているように思われます。しかし、一致性は以下の2つの要素から構成され※1、これらが成立しない場合には、潜在アウトカムと観測されるアウトカムが一致しない、もしくは後述の式の様な単純な関係とはならない場面があります。 precise definition of the counterfactual outcomes linkage of the counterfactual outcomes to the observed outcomes 1つ目の要素は、潜在アウトカムを構成する要素が十分に定義されているかどうかに関する項目です。ここまで心臓移植という介入の因果効果を考えるにあたり、介入を受ける場合の潜在アウトカム Ya=1と受けない場合の潜在アウトカムYa=0を比較しました。しかし、心臓移植を受けるといっても心臓移植を行う医師によって治療の効果は変わりうる可能性は十分考えられます(医師の手術の上手さが異なる)。このように単に介入を受けるといっても複数のバージョンがあり (multiple versions of treatment) 、かつ、それぞれの場合で介入による効果が異なる場合には、治療を受ける場合の潜在アウトカムを単にYia=1とするのではなく、どのような治療を受けるのかといった情報まで含めて、潜在アウトカムの定義をする必要があります。precise definition of the
Having the right data analytics platform can help law enforcement solve crimes faster.
My recommendations for action for all those who want to sharpen their target picture now Digitisation in the insurance industry continues to advance. Although every insurance company is moving at its own pace, there is a lot happening in the specialist areas: In marketing, projects around the customer journey are
Consumers are pulling back and shifting their purchases in the wake of inflationary pressures caused by high prices for fuel, freight costs, consumer goods and nonessential products. Demand is shifting faster than many retailers and consumer goods companies anticipated. Inflation continues to rise forcing consumer spending to shift once again
The SELECT-WHEN statement in the SAS DATA step is an alternative to using a long sequence of IF-THEN/ELSE statements. Although logically equivalent to IF-THEN/ELSE statements, the SELECT-WHEN statement can be easier to read. This article discusses the two distinct ways to specify the SELECT-WHEN statement. You can use the first
When patients miss appointments, it costs providers money and has serious health impacts on patients. Analytics can help improve scheduling processes for more effective use of resources and to ensure patients receive the care they need. In isolation, it doesn’t seem that missing a doctor’s appointment is that big of
SAS' Damian Herrick chronicles the refresh of a 2002 social-network analysis aimed at identifying influential peer educators among former drug users.
A line in the sand was drawn in March 2020 at the beginning of the COVID-19 pandemic. Schools closed and all education-related stories focused on learning loss and other related events that happened after that date. As the discussion shifts to learning recovery, there is still a significant amount of
A SAS programmer was trying to understand how PROC SGPLOT orders categories and segments in a stacked bar chart. As with all problems, it is often useful to start with a simpler version of the problem. After you understand the simpler situation, you can apply that understanding to the more
A SAS programmer asked how to display long labels at irregular locations along the horizontal axis of scatter plot. The labels indicate various phases of a clinical study. This article discusses the problem and shows how to use the FITPOLICY=STAGGER option on the XAXIS or X2AXIS statement to avoid collisions
It’s a challenging time to be a risk manager. The world is facing a global climate crisis, enduring the worst economic downturn since the great depression, war and a recovery period from a global pandemic. In addition to these challenges, changes in customer behaviour and expectations give financial services no
A SAS customer asked how to use the Box-Cox transformation to normalize a single variable. Recall that a normalizing transformation is a function that attempts to convert a set of data to be as nearly normal as possible. For positive-valued data, introductory statistics courses often mention the log transformation or
During the past decade, the public has grown increasingly skeptical of the value of a post-secondary degree. Rising tuition costs and job opportunities in the labor market have only exacerbated enrollment and financial challenges for higher education. In many US cities, wages for new hires have gone up across the
The Young Health Leader Summit is a one-of-a-kind event for health care heroes to come together and tackle some of the biggest challenges in the industry. The event also hosts a unique competition where the young health leaders are tasked with "doing the most good" in 24 hours. The 2022
In the 1960s and '70s, before nonparametric regression methods became widely available, it was common to apply a nonlinear transformation to the dependent variable before fitting a linear regression model. This is still done today, with the most common transformation being a logarithmic transformation of the dependent variable, which fits
In March 2020, when nearly all schools closed due to the COVID-19 pandemic, most school leaders would never have anticipated the speed or length of school closures, nor the magnitude of its impact on students and educators. As state departments of education and local school districts continue to take measures
SAS has been busy this summer and so has Women in Analytics (WIA). Read through this list to learn something new, discover upcoming events and see what WIA has been up to! Batting Lab With the recent opening of the SAS Batting Lab, kids are learning how to improve
John Tukey was an influential statistician who proposed many statistical concepts. In the 1960s and 70s, he was fundamental in the discovery and exposition of robust statistical methods, and he was an ardent proponent of exploratory data analysis (EDA). In his 1977 book, Exploratory Data Analysis, he discussed a small
Let's create a Multi-stage Computer Vision model to detect objects on high-resolution imagery taken from an aerial view. The goal is to locate a dog and determine if he is wearing a scarf or not and what color the scarf is.
야구에 데이터를 더한다면 어떤 효과가 일어날까요? 야구 실력도, 데이터 활용 능력도 향상시켜줄 어린이를 위한 데이터 리터러시 프로그램, SAS ‘배팅 랩’을 소개합니다. 전 세계적으로 7,000명 이상의 경영진을 대상으로 진행한 한 설문조사에 따르면 85%가 미래에는 데이터 활용 능력이 오늘날 컴퓨터 사용 능력만큼 더욱 중요해질 것[1]이라고 답했습니다. 반면, 48%의 어린이는 현재 교육 과정이 데이터
See how analytics helps the police battle increasingly sophisticated fraud schemes and scams.
On Twitter, I saw a tweet from @DataSciFact that read, "The sum of (x_i - x)^2 over a set of data points x_i is minimized when x is the sample mean." I (@RickWicklin) immediately tweeted out a reply: "And the sum of |x_i - x| is minimized by the sample
Are you looking to broaden your data analytics skills to land your dream job or propel your career? After looking at job posting statistics and the country's labor market, the data shows that now is the time to jump on board. As the demand for data skills is growing, the
A SAS programmer asked for help on a discussion forum: "My SAS session will not display any tables or graphs! I try to use PROC PRINT and other procedures, but no output is displayed! What can I do?" The most common reasons why you might not see any output when
To help burgeoning data researchers apply data analysis skills across policy sectors in economic, health and social science-informed areas of study, they need both policy and data industry experts to help them develop these critical skills before they graduate. The National Policy Challenge was developed with this goal in mind.
SAS가 하와이 호놀룰루 소재 리스크 관리 전문기업 가마쿠라(Kamakura Corporation)를 인수했다는 소식을 전해 드립니다. 가마쿠라는 은행, 보험사, 자산운용사, 연금 기금 등 광범위한 금융 기관들이 다양한 유형의 금융 리스크를 관리할 수 있도록 전문 소프트웨어, 데이터 및 컨설팅을 제공하고 있는 비상장기업입니다. 치솟는 인플레이션과 경기 침체가 세계 경제에 먹구름처럼 드리워지면서, 크고 작은 금융 서비스
DataOps is rapidly turning from a fragmented usage of some tools popular in the software development world into a modern approach to data & analytics engineering with its own best practices and recommended technologies. While the goal of DataOps – delivering data and analytical insights of the highest quality faster