たいていの場合、研究者は対象集団で起こることと一致しない結果を得ることに悩む。 その理由は様々あるにせよ、自己選択バイアスは最も重要なものの一つである。
と言う場合、”選択バイアスというのは、ある実験がうまくいかず、対象となる集団が誤って代表されたり、過小に代表されたりすることを意味します。
このバイアスは、プログラムや製品を研究する際に問題となる。 自己選択により、市場調査やプログラムの評価が難しくなる。
このブログでは、自己選択バイアスの定義と、バイアスを減らすためにどのような方法をとるべきか、また、このバイアスの例をいくつか挙げていきます。
自己選択バイアスとは?
自己選択バイアスは、人々が自ら集団に加わることを選択したときに起こる。 非確率サンプリングの場合、偏ったサンプルになる。 その集団に属する人々が、その集団に属することを選択するきっかけとなった特性が、集団の中で奇妙なこと、悪いことを引き起こす状況を表すのによく使われる。
と似ている。 非回答バイアスこれは、アンケートに回答したグループが、回答しなかったグループと異なる回答をした場合です。
では、このバイアスを軽減する方法について説明します。 また、その事例も併せてご紹介します。 もっと知りたい方は、最後までお付き合いください。
自己選択性バイアスの低減方法
自己選択バイアスを排除する最も明白な方法は、調査対象者を自分で選ばないことである。 サンプルを得るには、確率的なサンプリング手法が理想的です。
確率的サンプリング法
確率的サンプリングとは、確率論に基づいて体系的な調査の対象となる母集団を選択する方法である。 ここで、研究者は、母集団全体から、その特性を推定したい少数の人々を選びます。
確率的サンプリングは、無作為化の原則に基づいており、調査母集団のすべてのメンバーがサンプル母集団に含まれる確率が等しいことを意味します。
例えば、母集団のサイズが500であれば、母集団のすべての人が調査サンプルに含まれる確率は500分の1です。
この方法の基本的な考え方は、全体を代表するランダムなサンプルを選ぶことができれば、推定値は正確になる、というものです。 サンプル母集団が十分に大きい場合、サンプルに基づいて母集団全体を結論付けるために統計的手法を用いることができます。
ここでは、確率的サンプリング手法の例を紹介します。
- 単純無作為抽出 アメリカン・コミュニティ・サーベイでは、ランダムに人々を選んでアメリカでの生活に関する情報を収集しています。
アメリカ合衆国国勢調査局は、国内の無作為抽出した人々に詳細な情報を尋ねています。 そして、この情報をもとに母集団全体を結論づけるのです。
- システマティックサンプリング。 系統的サンプリングは確率的サンプリングの一種で、研究者は無作為の開始点と一定の間隔を使用して研究集団のメンバーを見つけることができます。 今、何が起きているのかを紹介します。 システマティックサンプリングの例
興味のある人が800番とします。 6人目を起点としてランダムに選び、10人のランダムサンプリング間隔を選べばいい。 研究母集団が10番目までの要素で構成されることを意味します。
- 層別サンプリング。 層別という考え方があるからこそ、層別サンプリングが成立するのです。 調査対象者を性別、年齢、所得水準、その他類似の要因に基づいてサブグループ(「層」と呼ぶ)に分割することを「層別」という。 各レイヤーは、その大きさに応じて重みが付けられています。 そして、各層にランダムな場所を与えてサンプルを選びます。
- クラスター・サンプリング。 クラスター・サンプリングは、大規模な母集団から偶然性に基づいて研究サンプルを選択する方法です。 この場合、調査員は母集団を地域や都市など既存のグループに分割する。 多段サンプリングとも呼ばれる。is also known as multi-stage sampling.多段サンプリングとも呼ばれる。
研究サンプルをクラスター化するために、研究者はサンプルを異なる特性を持つ自然発生的なサブグループに分割する。 次に、サンプルとして使うクラスターをランダムに選び、必要な情報を得る。
自己選択バイアスの例
次の例は、自己選択バイアスが起こりやすい状況をいくつか示している。
例1
ある教師が、テストをうまくこなすための新しいコースが、生徒の成績向上に役立つかどうかを知りたがっています。 教室の外にサインアップシートを貼り、受講するかどうかは生徒が自分で決める。
学校に対して真剣な生徒ほど契約しやすいので、自己選択バイアスがかかっていると思われます。 受講する学生のサンプルは、おそらく受講できるグループ全体とは似ていない、ということです。
例2
ある自治体が、「英語が話せない人が移動しやすいように、道路標識も英語以外の言語で表記するべきか」というアンケートを実施したとします。
英語が読める住民しかアンケートに答えないので、自己選択バイアスがかかっていると思われる。 アンケートに答えてくれた人の意見が、その町に住むすべての人の意見と同じではないのだろうということです。
例3
ある生物学者が、ある種のシカの平均的な体高を調べたい場合、開けた草原にシカの餌を置き、それを食べに来たシカの写真を撮るといったことが考えられる。
この場合、その種のシカ食が好きなシカや野外に出るのが好きなシカだけが草地に入り、サンプルデータに含まれる可能性が高いので、自己選択バイアスが起こりやすいと考えられる。
だから、このサンプルの鹿の平均身長が、全鹿の平均身長と同じになることはまずない。
結論
自己選択バイアスについて学び、このバイアスを低減する方法について学びました。 また、その例もいくつか挙げました。 研究において、自己選択バイアスは大きな問題である。 非確率サンプリングの場合、偏ったサンプルになる。 このバイアスを防ぐために、ビジネスで役立つ確率的サンプリング法について説明しました。
QuestionProは、単なるアンケートソフトにとどまらず、あらゆる問題やビジネスに対応したソリューションを提供しています。 また、リサーチライブラリー「InsightsHub」など、データマネジメントプラットフォームも用意しています。
世界中の組織がナレッジマネジメントシステムとInsightsHubのようなソリューションを利用して、データの管理を改善し、洞察を得るための時間を短縮し、コストを削減しROIを高めながら過去のデータ利用を強化しています。