探索的データ解析のデータサイエンスへの影響
Reading Time: < 1 minute read アメリカの数学者ジョン・テューキーは、1970年代に探索的データ解析(EDA)を開発しました。 現在でも、EDA技術はデータ発見プロセスで広く使われる手法であり続けています。 EDAは、形式的なモデリングや仮説検証を越えて、データセットの変数とその関係をよりよく理解するための広い扉を開く。 また、データ分析に用いた統計手法が適切かどうかの判断にも役立ちます。 探索的データ分析とは? 探索的データ解析(EDA)は、データサイエンティストがデータセットを分析・調査する際に広く用いられ、データの主な特徴をまとめて可視化する手法です。 データサイエンティストがデータパターンを発見し、異常を発見し、仮説検証を行い、仮説を立てるのに役立ちます。 つまり、簡単に言えば、データサイエンティストが、与えられたデータソースを操作して、目標として必要とされる答えを得るための最適な方法を決定するのに役立つ手法と定義することができるのです。 探索的データ分析がデータサイエンスとしていかに重要か EDAの主な目的は、仮定を立てる前にデータセットを深く観察し、明らかなエラーを特定し、データセット内のパターンについて理解を深め、外れ値や異常な事象を把握し、最後に変数間の刺激的な関係を見出すことです。 データサイエンスの分野でのデータ分析には、探索的データ分析が非常に重要です。 まず、データサイエンティストが作成する結果が妥当であり、希望する目標に適用できることを確認するために、EDAが使用されます。 第二に、EDAはステークホルダーが常に正しい質問をするよう支援します。 また、標準偏差、カテゴリー変数、信頼区間についての質問にも答えることができます。 最後に、EDAが完了し、洞察が得られたら、その機能を機械学習を含むより高度なデータ分析やモデリングに利用することができます。 探索的データ分析 種類 EDAには、主に4つのタイプがあります: 一変量非グラフィカル: 一変量非グラフィカルは、データ分析の最もシンプルな形式です。 […]









