지난 딥러닝 시리즈에서는 SAS Visual Data Mining and Machine Learning을 활용한 딥 러닝 모델 생성에 대한 내용 중 <기본 심층 신경망(DNN) 모델 아키텍처와 배치 정규화를 사용한 DNN 모델 구축>에 대해 소개해 드렸습니다. 이번 시리즈에서는 딥 러닝 성능을 개선할 수 있는 하이퍼파라미터를 조정에 대해 소개해 드립니다. 일정 기간에 걸쳐 성능이 향상되고
Uncategorized
The expected value of a random variable is essentially a weighted mean over all possible values. You can compute it by summing (or integrating) a probability-weighted quantity over all possible values of the random variable. The expected value is a measure of the "center" of a probability distribution. You can
Detecting malpractice and crime – whether it is fraud, people smuggling, avoiding customs or organised crime – is a complex process. Detection is all very well and a necessary step. But what are the outcomes that your organisation needs? And what workflows and triggers do you need in place to
Interview mit Bundesministerium für Wirtschaft und Energie, Leiter der Stabsstelle für KI: Marco-Alexander Breit.
When there are two equivalent ways to do something, I advocate choosing the one that is simpler and more efficient. Sometimes, I encounter a SAS program that simulates random numbers in a way that is neither simple nor efficient. This article demonstrates two improvements that you can make to your
01. はじめに 今回のポスティングでは、SAS Viyaの「テキストトピック」という機能を用いたSNSの消費者の声の分析例を紹介したいと思います。分析の手法として「ワードクラウド分析」という方法を使いましたが、こちらについても後ほどお話します。SNS上の書き込みデータを分析することで、ビジネスに役立てられる洞察を得ることができますので、最後まで読んでいただければと思います。 02. 消費者の声分析の一般的な流れ SNS上の消費者の声分析は、一般的に大きく3つの段階に分けることができると思います。そのステップ①は様々なSNSプラットフォームから消費者の声を集める「データ収集」です。ステップ②は、収集したデータを分析する段階です。データ分析の手段はいくつかがありますが、本記事では、「ワードクラウド分析」という手法を用いることにします。最後のステップは、ビジネスメリットに繋げるように分析結果を活用する段階です。分析結果を元により意思決定し、施策を実施する段階です。本記事では、3つの段階の中で2段階目の「データ分析」、具体的には、「ワードクラウドを用いた分析」について説明します。 03. ワードクラウド分析とは? ワードクラウドというのはテキストデータの意味をより直感的に把握するための分析の一つ手法です。 テキストデータを単語に分割し、単語ごとの出現頻度をカウントし、その頻度に応じた大きさでその単語を視覚的に表示してくれます。 つまり、テキストや文章が何に関して語られているのか、そのキーワードを簡単に見つけ出すことができる手法になります。 例えば、SNS上の書き込みをテキストデータ化して分析し、顧客や消費者が今どんな事に興味を持っているのか、どんな不満があるのか、などを把握することができます。 (出典:https://awario.com/) 私はニュースなどのメディアでアメリカのトランプ大統領がどんな単語を何回使ったか、トランプ大統領のツイッターを分析したワードクラウドを見たことがあります。例えば、上のイメージは、2018年から2019年までのトランプ大統領のツイッターでつぶやかれた単語のワードクラウドですが、「border」と「wall」が一番使われた単語ということが一目で分かります。 04. SAS Viyaのワードクラウドの特徴 SAS Viyaのワードクラウドの特徴についてご紹介します。 まず、自動的に分析対象のテキストデータを単語に分割した上で解析します。所謂テキストマイニングと言いますが、その結果として、それぞれの文章がどんな話題(トピック)に関して語っているのかを分析し、トピックごとにキーワードを頻度に応じた大きさで確認することができます。また必要に応じて、気になるトピックやキーワードの元の文章を確認することもできるようになっています。 また、分析の際、冠詞や、助詞、副詞など、意味がない単語は自動で外して分析を行います。 これも、SAS Viyaのワードクラウドの一つの特徴なのですが、例えば、Open Source系のプログラミング言語で分析をすると、英語の 「the」や「a」などは、 分析者自身でなんとかして、取らなければいけないこともありますが、SASでは自動でその作業を行います。 さらに、書き込み内容がネガティブな内容なのか、ポジティブなのか、中立であるか、確認できる機能もあります。この機能は、「センチメント分析」、 日本語では「感情分析」と呼ばれますが、SASではワンクリックで簡単に実行できます。 05. 消費者の声分析例 それでは、SAS Viya の「テキストトピック」という機能を用いた消費者の声分析デモをご紹介いたします。 ▲ 準備したデータについて 日本では最近「天高く馬肥ゆる秋」になったので、季節感が感じられるように「天気」に関したデータを準備しました。また、オーストラリアのシドニーとカナダのバンクーバーのツイッターデータを収集しました。この二つの地域を設定した理由は、現在のシドニーは昼間の平均気温が約20度で、少し暖かいか、涼しい天候ですが、バンクーバーは約5度と少し寒く、対立的な地域を選ぶことで、明確な結果を得たかったからです。(個人的な理由もあり、キャリア管理の上司がSASオーストラリアのシドニーで働いていて、同期の1人はSASカナダのバンクーバーにいるので、毎回オンライン会議で会う2人の季節環境が気になったのです。同期と出会った新入社員研修についての記事はこちら) データの対象期間は、10月15日から10月23日まで、9日間、データの取得の際に使ったキーワードは、「weather」、「today’s weather」、「weekend weather」、「winter」、「summer」という5つのキーワードを使いました。こういった条件で実際にツイッターから集められたデータは、シドニーが351件、バンクーバーが277件でした。 ▲ 「天気」に関するシドニーの消費者の声分析 まず、シドニーの消費者の声のワードクラウド分析結果を見てみましょう。 「雨」に関するトピックが44件で、トピック全体で1位になっております。こちらのトピックをクリックすると、このトピックに関連する用語・キーワードを右側の画面で確認できます。「rainy」の比重が最も大きいことが分かります。 (出典:https://www.holiday-weather.com) 雨に関するデータが多い理由は、データを収集していた10月15日から23日前後にシドニーは天気が曇ったり、雨が降ったりしたからだと考えられます。
A user commented on one of my previous maps ... "How can there be 820 cases of Coronavirus per 100,000 people? - There aren't even 100,000 people in my county!" Well, when you want to compare something like the number of COVID-19 cases between two areas that have differing populations,
アナリティクス人材としてのキャリアを歩む際、自身のスキルの証明は大事な要素になります。海外のライバルと競い合い、勝ち抜いた経験と称号は、その後の人生に大きな影響を与えるはずです。 Student Symposium は、SAS最大のイベントである SAS Global Forum の中で開催される学生コンペティションです。2-4名の学生と指導教官がチームとなり、アナリティクスを活用したオリジナル課題にチャレンジし、その優劣を競います。予選を勝ち抜いた8チームは SAS Global Forum 本番にて最終決戦に挑みます。 新型コロナウイルスの影響により、今年の SAS Global Forum 2020 はオンライン開催となり、来年春の SAS Global Forum 2021 も同様にオンラインでの開催予定です。今年の Student Symposium では、University of St. Thomas, Oklahoma State University, Kennesaw State University のチームがそれぞれ優勝、準優勝、3位を獲得しました。テーマは、学術論文のアブストラクトのテキスト解析やエコロジカル・フットプリントに影響を与える要因の解析、殺虫剤のミツバチへの影響の分析などでした。 日本の学生には難しい? そんなことはありません。近年、日本の学生がSAS Global Forumで発表したり、優れた研究発表を投稿した学生に送られる Student Ambassador にも日本の学生が選ばれています。次は Student Symposium にチャレンジしてみませんか? アナリティクスのツールとしては、SAS OnDemand for Academics
기업에서는 하루에도 여러 차례 비즈니스에 중요한 의사결정을 내리고 있습니다. 최선의 선택을 하기 위해 많은 기업이 강력한 분석 모델을 개발하여 의사결정 프로세스에 분석 결과를 통합하고 있습니다. 하지만 의사결정에 결정적인 역할을 하는 대부분의 분석 모델은 빛을 보지 못합니다. 데이터 중심의 의사결정을 위한 실용화의 마지막 관문을 넘지 못하기 때문입니다. 본 글에서 데이터 중심의
The skewness of a distribution indicates whether a distribution is symmetric or not. The Wikipedia article about skewness discusses two common definitions for the sample skewness, including the definition used by SAS. In the middle of the article, you will discover the following sentence: In general, the [estimators] are both
Der Einsatz einer zentralen, skalierbaren Plattform, die offen, flexibel und jederzeit anpassbar ist, kann Kassen der Steuerbehörden unterstützen.
You’ve finally done it. You managed to stay awake through the endless series of MOOC videos, and you’ve mastered the IRIS data set. You've learned that lm() will build you a pretty nifty model in R, and you can fit a Classifier with SciKit Learn. You know your Neural Net
A few years ago I wrote a blogpost titled, An End to "But": More kindness and complexity in our words. I'm revisiting the concept as it seems apt for our times. With most of us living in increased isolation, the voice in our head may feel louder than ever. Now
Editor's note: This blog post is the first in a series of posts, originally published here by our partner News Literacy Project, exploring the role of data in understanding our world. Charts and graphs are useful tools for communicating complex information. They allow consumers to see — rather than read or calculate — differences
When it comes to plotting mortgage rate data, I often look to Len Kiefer for inspiration. He recently posted a retro-looking graph on twitter that caught my eye ... and of course I had to see if I could create something similar using SAS. For lack of a better term,
The pandemic has done more to drive consumer adoption of online channels than any digital transformation initiative – but companies should be careful what they wish for. 2020 has been a difficult year for everyone, and as the coronavirus continues to impact lives, health and the economy, it would be
An analyst report offers an unbiased, side-by-side, third-party evaluation of the technology in the market. These analysts know how to put the vendors through the paces and require proof of any claims that are made.
A fundamental principle of data analysis is that a statistic is an estimate of a parameter for the population. A statistic is calculated from a random sample. This leads to uncertainty in the estimate: a different random sample would have produced a different statistic. To quantify the uncertainty, SAS procedures
Zorlu Son Aşama: Model İmplementasyonu Günümüzde neredeyse tüm organizasyonların iş kararları vermek için, veriden faydalanarak gerçek zamanlı içgörüler elde etmeye çalıştığı bir dijital yolculuk içerisinde olduklarını görüyoruz. Sınırlarını hayalgücümüzün ve yeteneklerimizin belirlediği veri analitiği bizlere sonsuz bir potansiyel sunuyor. 2019 yılında analitik yazılımlara 190 milyar Dolar yatırım yapılması da şirketlerin
[Editor's note: This post was co-authored with Fritz Lehman, COO of Zencos] In 1976, the blockbuster movie Jaws was the number one grossing film. Why? Because it had a great villain – the great white shark. The movie told a vivid (and all too familiar) story about plans gone awry
딥 러닝은 인공 지능과 함께 유비쿼터스가 된 머신 러닝의 한 영역입니다. 딥 러닝 모델의 복잡하고 뇌와 유사한 구조는 대량의 데이터에서 복잡한 패턴을 찾는 데 사용됩니다. 이러한 모델은 일반 지도 학습 모델, 시계열, 음성 인식, 객체 탐지 및 분류, 감성 분석의 성능을 크게 향상시켰습니다. 사전 정의된 방정식을 실행하도록 데이터를 구성하는 대신
The first principle of analytics is about bringing the right analytics technology to the right place at the right time. Whether your data are on-premises, in the cloud, or at the edges of the network – analytics needs to be there with it. Being true to this principle means we
Jim Harris examines coronavirus terms that are crucial to data-driven decisions in the pandemic.
The companies I usually deal with, especially healthy and successful ones, often don’t believe that they need to change. However, I think this is where problems take root. I believe changes should be made when things are going well because when they have gone wrong, it's too late. You no
Every presidential candidate has a list of states they’re expected to win, but there are always states that are too close to call because they have similar numbers of registered voters for each of the two dominant political parties: Democrat and Republican. It’s in these “swing” states that candidates invest
SAS has always believed in the power of education, but in today’s data-driven economy, it’s more important than ever to ensure our students are introduced to data science at an early age. We as a company are focusing our resources on creating student experiences in data literacy, computer science and
A global teaching resource for post-COVID-19 academia During the COVID-19 pandemic, governments used data science modelling to justify actions around lockdowns, and then again, in due course, when they eased restrictions. These actions affected billions of citizens’ lives and livelihoods. The importance of analytical calculation and competence was brought home,
SAS' Véronique Van Vlasselaer reveals why managing model performance is as important as putting them into production.
The triangulation theorem for polygons says that every simple polygon can be triangulated. In fact, if the polygon has V vertices, you can decompose it into V-2 non-overlapping triangles. In this article, a "polygon" always means a simple polygon. Also, a "random point" means one that is drawn at random
Discovery is an important part of setting up your analysis for success – essentially it prevents you from plunging into a haystack to try to find that elusive needle, and rather, helps you organize the haystack into neater, compact organized bales that you can navigate with ease. Proper discovery can help you more efficiently find patterns in your data set.