アメリカの数学者ジョン・テューキーは、1970年代に探索的データ解析(EDA)を開発しました。 現在でも、EDA技術はデータ発見プロセスで広く使われる手法であり続けています。 EDAは、形式的なモデリングや仮説検証を越えて、データセットの変数とその関係をよりよく理解するための広い扉を開く。 また、データ分析に用いた統計手法が適切かどうかの判断にも役立ちます。
探索的データ分析とは?
探索的データ解析(EDA)は、データサイエンティストがデータセットを分析・調査する際に広く用いられ、データの主な特徴をまとめて可視化する手法です。 データサイエンティストがデータパターンを発見し、異常を発見し、仮説検証を行い、仮説を立てるのに役立ちます。
つまり、簡単に言えば、データサイエンティストが、与えられたデータソースを操作して、目標として必要とされる答えを得るための最適な方法を決定するのに役立つ手法と定義することができるのです。
探索的データ分析がデータサイエンスとしていかに重要か
EDAの主な目的は、仮定を立てる前にデータセットを深く観察し、明らかなエラーを特定し、データセット内のパターンについて理解を深め、外れ値や異常な事象を把握し、最後に変数間の刺激的な関係を見出すことです。
データサイエンスの分野でのデータ分析には、探索的データ分析が非常に重要です。 まず、データサイエンティストが作成する結果が妥当であり、希望する目標に適用できることを確認するために、EDAが使用されます。 第二に、EDAはステークホルダーが常に正しい質問をするよう支援します。 また、標準偏差、カテゴリー変数、信頼区間についての質問にも答えることができます。 最後に、EDAが完了し、洞察が得られたら、その機能を機械学習を含むより高度なデータ分析やモデリングに利用することができます。
探索的データ分析 種類
EDAには、主に4つのタイプがあります:
-
一変量非グラフィカル:
一変量非グラフィカルは、データ分析の最もシンプルな形式です。 ここでは、1つの変数だけで構成されています。 単一変数であるため、原因や関係性を扱うことができない。 その代わり、一変量テーマ分析の主な目的は、データを記述し、その中にパターンを見つけることです。
-
単変量グラフ
非グラフィカルな手法では、データの全体像を把握することはできません。 そのため、ここではグラフィカルな手法が求められています。 一変量グラフィックスの一般的なタイプは、次のとおりです:
- 茎と葉のプロット:すべてのデータ値と分布の形状を示すものです。
- ヒストグラム(棒グラフ):各棒グラフは、ある範囲の値に対する症例の頻度(カウント)または割合(カウント/総カウント)を表す。
- 箱ひげ図:最小値、第1四分位値、中央値、第3四分位値、最大値の5つの数値の要約をグラフ化したもの。
-
多変量非グラフィカル
多変量データは、1つ以上の変数から発生する。 一般に、多変量非グラフィカルEDA技術は、クロス集計や統計によって2つ以上のデータ変数間の関係を示す。
-
多変量グラフ
多変量データは、2つ以上のデータセット間の関係を表示しながら、グラフィックスを使用します。 最もよく使われる図は、グループ化された棒グラフで、各グループは変数の1つのレベルを表し、グループ内の各棒は他の変数のレベルを表します。
多変量解析のグラフィックには、他によくあるタイプがあります:
- 散布図: ある変数が他の変数にどれだけ影響されるかを示すために、データ点を横軸と縦軸にプロットするために使用される。
- 多変量チャート: 因子と回答の関係をグラフ化したもの。
- ランチャート: データを時間軸でプロットした折れ線グラフです。
- バブルチャート: 複数の円(バブル)を2次元のプロットで表示するデータ可視化です。
- ヒートマップのこと: データを色で表現したグラフです。
探索的データ分析 ツール
探索的データ解析のためのツールは数多く存在します。 代表的なものに、R、Python、SASがあります。 しかし、それぞれに長所と短所があるため、仕事に適した道具を選ぶことが重要です。
Rは、データを可視化するための優れたツールです。 データの探索に使えるプロットやチャートの種類も豊富です。 また、より高度な分析が可能な統計機能も多数搭載しています。
Pythonもまた、EDAに最適なツールです。 Rと同じ機能を多く持ちながら、より使いやすくなっています。 その結果、Pythonはデータ分析を始めたい初心者に最適な選択肢となります。
SASは、EDAに使用できる強力な統計ソフトウェアパッケージです。 SASはRやPythonよりも高価ですが、より複雑な計算を行う必要がある場合は、投資する価値があります。
QuestionProと 探索的データ分析
QuestionProは、複数のチャネルから調査データを収集するのに役立つこと間違いなしです。 しかし、すでに収集されたデータを超えることを望む場合はどうなるのでしょうか。 そこで登場するのが、探索的データ分析です。
QuestionProに内蔵された解析ツールで、EDAを簡単に始めることができます。 データの要約統計を素早く確認したり、インタラクティブなビジュアライゼーションを作成したりすることができます。 また、QuestionProはRと統合されているため、Rが提供する強力な統計ツールをすべて利用することができます。
ですから、もしあなたがデータ分析を次のレベルに引き上げる準備ができているならば、QuestionProは完璧なツールの1つです。
結論
最後に、探索的データ分析は、データサイエンティストが複雑なデータセットを理解するのに役立つ、実証済みの方法論であると言えます。 ビジュアライゼーションなどを駆使することで、他では見つけられないようなパターンや関係性を発見することができます。
したがって、EDAはあらゆるデータ分析に欠かせないものであり、この記事でその入門編をご覧いただけたと思います。
QuestionProの詳細と、探索的データ分析に関する情報は、サインアップしてご確認ください。
質問プロ.com
著者紹介Md Assalatuzzaman & Mizanul Islam(ミザヌル・イスラム