All Posts

The moments of a continuous probability distribution are often used to describe the shape of the probability density function (PDF). The first four moments (if they exist) are well known because they correspond to familiar descriptive statistics: The first raw moment is the mean of a distribution. For a random

Uma das mulheres mais bem-sucedidas do mundo do poker, Liv Boeree joga profissionalmente há 13 anos e fica impressionada com a maneira com que o jogo vem sendo revolucionado pelo uso da tecnologia nesse período. Familiarizada com o mundo dos dados, Liv queria se especializar em física antes de se

Los servicios de telecomunicaciones a nivel global se han vuelto aún más críticos para la vida cotidiana tras lo vivido en los últimos años. Los modelos de trabajo híbridos llegaron para quedarse y las redes de comunicación han tenido que adaptarse a una nueva realidad: que muchos colaboradores trabajen ahora

O evento SAS Explore 2022 finalizou seu primeiro dia demonstrando como tecnologias como SAS® Viya® e analytics na nuvem têm ajudado organizações a solucionar os problemas de hoje e inovar para o futuro. Se você perdeu o evento ao vivo, nós te ajudamos. Confira três temas destacados na programação e saiba como

A strong cultural emphasis on “happiness” can have the unintended effect of casting feelings other than happiness as being bad or something to avoid. But life is rich with many different feelings. Trying to suppress these can actually lead to a rebound effect. The book Get Out of Your Mind

Whether working as a business analyst, data scientist or machine learning engineer, one thing remains the same – making an impact with data and AI is what really matters. Pre-processing and exploring data, building and deploying models and turning those scoring values into an actionable insight can be overwhelming. A

Estudos indicam que, ao longo dos últimos anos, aumentaram os casos de propagação de discursos de ódio e de notícias falsas. Especialmente no ano de 2022 há uma preocupação muito grande quanto à utilização desses recursos ilegítimos para finalidades eleitorais. Técnicas analíticas podem ser empregadas para estimular campanhas eleitorais que

The correlations between p variables are usually displayed by using a symmetric p x p matrix of correlations. However, sometimes you might prefer to see the correlations listed in "long form" as a three-column table, as shown to the right. In this table, each row shows a pair of variables and the

You’re down by 10 points in your NFL fantasy football league, and you need to choose a wide receiver from the free agency pool because your starter was injured. How do you decide to get the 11 points required for a win? What methods will you use to lead you

Even with today's technology, it's hard to know precisely when, where and how weather-related damage will occur. Flooding costs are expected to rise drastically during the next 20 years and climate change is a constant threat. Unfortunately, natural disasters are here to stay, but we can try our best to

Trees have been a source of awe my entire life. My grandparent’s house was an easy walk through the forest. I loved long visits with them and regularly enjoyed my grandmother’s famous chocolate chip cookies 😊. So, of course, I walked amongst the trees daily. My love for the hiking

The noncentral t distribution is a probability distribution that is used in power analysis and hypothesis testing. The distribution generalizes the Student t distribution by adding a noncentrality parameter, δ. When δ=0, the noncentral t distribution is the usual (central) t distribution, which is a symmetric distribution. When δ >

Un analista recopila, estudia datos y, a partir de ellos, saca conclusiones. Sus cometidos incluyen encontrar patrones de comportamiento en los datos y tomar decisiones basadas en el aprendizaje obtenido. Hay analistas en una amplia variedad de sectores, así como diferentes tipos y con objetivos heterogéneos. Los científicos de datos

こんにちは!SAS Institute Japanの堀内です。今回も自然言語処理について紹介いたします。 前回の投稿では、実際にSASを使って日本語の文章を扱う自然言語処理の例を解説しました。 最終回の本投稿ではその応用編として、自然言語処理の代表的なタスクとSASによる実装方法を紹介します。なお、ここでいうタスクとは「定式化され一般に共有された課題」といった意味になります。自然言語処理には複数のタスクがあり、タスクごとに、共通する部分はあるとはいえ、問題解決のアプローチ方法は基本的に大きく異なります。SASには各タスクごとに専用のアクションセット1が容易されています。 要約タスク その名の通り文章を要約するタスクです。SASではtextSummarizeアクションセットで対応可能です。 ここでは、NHKのニュース解説記事「気になる頭痛・めまい 天気が影響?対処法は?」(https://www.nhk.or.jp/kaisetsu-blog/700/471220.html) の本文を5センテンスで要約してみましょう。 import swat conn = swat.CAS('mycashost.com', 5570, 'username', 'password') conn.builtins.loadActionSet(actionSet='textSummarization') conn.textSummarization.textSummarize(addEllipses=False, corpusSummaries=dict(name='corpusSummaries', compress=False, replace=True), documentSummaries=dict(name='documentSummaries', compress=False, replace=True), id='Id', numberOfSentences=5, table={'name':CFG.in_cas_table_name}, text='text', useTerms=True, language='JAPANESE') conn.table.fetch(table={'name': 'corpusSummaries'}) numberOfSentencesで要約文のセンテンス数を指定しています。結果は以下の通りです。 'まず体調の変化や天気、気温・湿度・気圧などの日記をつけ、本当に天気が影響しているのか、どういうときに不調になるのかパターンを把握すると役立ちます。 気温・湿度以外にも、気圧が、体調の悪化や、ときに病気の引き金になることもあります。 私たちの体は、いつも耳の奥にある内耳にあると言われている気圧センサーで、気圧の変化を調整しています。 ただ、天気の体への影響を研究している愛知医科大学佐藤客員教授にお話ししを伺ったところ、「台風最接近の前、つまり、気圧が大きく低下する前に、頭が痛いなど体調が悪くなる人は多い」ということです。 内耳が敏感な人は、わずかな気圧の変化で過剰に反応し、脳にその情報を伝えるので、脳がストレスを感じ、体のバランスを整える自律神経が乱れ、血管が収縮したり、筋肉が緊張するなどして、その結果、頭痛・めまいなどの体に様々な不調につながっているのです。' 重要なセンテンスが抽出されていることが分かります。 テキスト分類タスク 文章をいくつかのカテゴリに分類するタスクです。その内、文章の印象がポジティブなのかネガティブなのか分類するものをセンチメント分析と呼びます。ここでは日本語の有価証券報告書の文章をポジティブかネガティブか判定してみます。使用するデータセットは以下になります。 https://github.com/chakki-works/chABSA-dataset (なお、こちらのデータセットには文章ごとにポジティブかネガティブかを示す教師ラベルは元々付与されておりませんが、文章内の特定のフレーズごとに付与されているスコアを合算することで教師ラベルを合成しております。その結果、ポジティブ文章は1670文章、ネガティブ文章は1143文章、合計2813文章になりました。教師ラベルの合成方法詳細はこちらのブログをご覧ください。) pandasデータフレームにデータを格納した状態を確認してみましょう。 df = pd.read_csv(CFG.local_input_file_path) display(df)

Leonid Batkhan shows you how to write Windows batch scripts that allow for conditional execution and effective job scheduling.