Find out how analytics, from data mining to cognitive computing, is changing the way we do business

Advanced Analytics | Analytics | Data Management
Estelle Wang 0
Find duplicates and near-duplicates in a corpus with Natural Language Processing

To find exact duplicates, matching all string pairs is the simplest approach, but it is not a very efficient or sufficient technique. Using the MD5 or SHA-1 hash algorithms can get us a correct outcome with a faster speed, yet near-duplicates would still not be on the radar. Text similarity is useful for finding files that look alike. There are various approaches to this and each of them has its own way to define documents that are considered duplicates. Furthermore, the definition of duplicate documents has implications for the type of processing and the results produced. Below are some of the options. Using SAS Visual Text Analytics, you can customize and accomplish this task during your corpus analysis journey either with Python SWAT package or with PROC SQL in SAS.

Analytics | Data for Good | Work & Life at SAS
Danielle Pavliv 0
4 ways SAS is driving diversity, equity and inclusion with HBCUs

SAS' multidimensional culture blends our different backgrounds, experiences and perspectives from employees in 59 countries worldwide. We want everyone to feel confident expressing their ideas and know they will be respected for their unique contributions and abilities. At SAS, it’s not about fitting into our culture; it’s about adding to

Andrés Mauricio Torres 0
¿Puede la “analítica” acertar en que Inglaterra ganará el mundial de fútbol?

Quienes vivimos en el mundo de los datos y promovemos su aprovechamiento a través de ciencias como las de la analítica predictiva nos enfrentamos constantemente ante preguntas como: ¿puede la analítica acertar el resultado de la lotería? ¿decirme dónde invertir para ganar más? ¿anticipar quién ganará la próxima copa mundial

Advanced Analytics | Analytics | Artificial Intelligence | Machine Learning | SAS Events
Carolina Pereira 0
Como analytics ajudou a aliviar a crise do COVID-19 em Jacarta

Quando a pandemia do COVID-19 atingiu a Indonésia, bloqueios e restrições de atividade fecharam grande parte do comércio, ameaçando o sustento de milhões de pessoas. Isso porque o país possui mais de 64 milhões de micro, pequenas e médias empresas (MPMEs), responsáveis por empregar 97% da força de trabalho do

Advanced Analytics | Analytics | Artificial Intelligence | Data Management | Internet of Things
Andrés Mauricio Torres 0
Tecnologías basadas en datos que propiciarán la reinvención de las las telcos

El sector de las telecomunicaciones no solamente es protagonista de la Transformación Digital por los procesos que se adelantan dentro de sus mismas empresas para evolucionar y apoyar a sus clientes, sino precisamente por la influencia que tienen para apoyar esa transformación en compañías de otras industrias. Se trata de

Advanced Analytics | Analytics | Machine Learning
Aline Riquetti 0
Inteligência analítica no combate à desinformação e discursos de ódio

Estudos indicam que, ao longo dos últimos anos, aumentaram os casos de propagação de discursos de ódio e de notícias falsas. Especialmente no ano de 2022 há uma preocupação muito grande quanto à utilização desses recursos ilegítimos para finalidades eleitorais. Técnicas analíticas podem ser empregadas para estimular campanhas eleitorais que

Analytics | Learn SAS
Rick Wicklin 0
The noncentral t distribution in SAS

The noncentral t distribution is a probability distribution that is used in power analysis and hypothesis testing. The distribution generalizes the Student t distribution by adding a noncentrality parameter, δ. When δ=0, the noncentral t distribution is the usual (central) t distribution, which is a symmetric distribution. When δ >

自然言語処理とSAS (3)

こんにちは!SAS Institute Japanの堀内です。今回も自然言語処理について紹介いたします。 前回の投稿では、実際にSASを使って日本語の文章を扱う自然言語処理の例を解説しました。 最終回の本投稿ではその応用編として、自然言語処理の代表的なタスクとSASによる実装方法を紹介します。なお、ここでいうタスクとは「定式化され一般に共有された課題」といった意味になります。自然言語処理には複数のタスクがあり、タスクごとに、共通する部分はあるとはいえ、問題解決のアプローチ方法は基本的に大きく異なります。SASには各タスクごとに専用のアクションセット1が容易されています。 要約タスク その名の通り文章を要約するタスクです。SASではtextSummarizeアクションセットで対応可能です。 ここでは、NHKのニュース解説記事「気になる頭痛・めまい 天気が影響?対処法は?」( の本文を5センテンスで要約してみましょう。 import swat conn = swat.CAS('', 5570, 'username', 'password') conn.builtins.loadActionSet(actionSet='textSummarization') conn.textSummarization.textSummarize(addEllipses=False, corpusSummaries=dict(name='corpusSummaries', compress=False, replace=True), documentSummaries=dict(name='documentSummaries', compress=False, replace=True), id='Id', numberOfSentences=5, table={'name':CFG.in_cas_table_name}, text='text', useTerms=True, language='JAPANESE') conn.table.fetch(table={'name': 'corpusSummaries'}) numberOfSentencesで要約文のセンテンス数を指定しています。結果は以下の通りです。 'まず体調の変化や天気、気温・湿度・気圧などの日記をつけ、本当に天気が影響しているのか、どういうときに不調になるのかパターンを把握すると役立ちます。 気温・湿度以外にも、気圧が、体調の悪化や、ときに病気の引き金になることもあります。 私たちの体は、いつも耳の奥にある内耳にあると言われている気圧センサーで、気圧の変化を調整しています。 ただ、天気の体への影響を研究している愛知医科大学佐藤客員教授にお話ししを伺ったところ、「台風最接近の前、つまり、気圧が大きく低下する前に、頭が痛いなど体調が悪くなる人は多い」ということです。 内耳が敏感な人は、わずかな気圧の変化で過剰に反応し、脳にその情報を伝えるので、脳がストレスを感じ、体のバランスを整える自律神経が乱れ、血管が収縮したり、筋肉が緊張するなどして、その結果、頭痛・めまいなどの体に様々な不調につながっているのです。' 重要なセンテンスが抽出されていることが分かります。   テキスト分類タスク 文章をいくつかのカテゴリに分類するタスクです。その内、文章の印象がポジティブなのかネガティブなのか分類するものをセンチメント分析と呼びます。ここでは日本語の有価証券報告書の文章をポジティブかネガティブか判定してみます。使用するデータセットは以下になります。 (なお、こちらのデータセットには文章ごとにポジティブかネガティブかを示す教師ラベルは元々付与されておりませんが、文章内の特定のフレーズごとに付与されているスコアを合算することで教師ラベルを合成しております。その結果、ポジティブ文章は1670文章、ネガティブ文章は1143文章、合計2813文章になりました。教師ラベルの合成方法詳細はこちらのブログをご覧ください。) pandasデータフレームにデータを格納した状態を確認してみましょう。 df = pd.read_csv(CFG.local_input_file_path) display(df)

1 2 3 127

Back to Top