統計検定で出てくる標本抽出法について、それぞれの手法はどんな違いがあるのか
この記事ではこのような悩みについて、それぞれの手法の特徴を整理しながら解説していきます。
標本調査
標本調査とは味噌汁の味見
作った味噌汁の味が濃いか薄いかは、味噌汁を全部飲んでみれば
「この味噌汁は薄かった/濃かった」は間違いなく言えます。
ただ、普段はそんなことはせずに、少しだけ味見をしてみて作った味噌汁全体の味を予想しますよね。
調査対象をすべて調べることを「全数調査」
全体を推定するために、一部を抽出して調べることを「標本調査」と言います。
全数調査の代表例としては「国勢調査」、標本調査の代表例としては「不良品検査」などがあります。
また、クラスのテストの点数実態を把握するために全員の情報を集めることも全数調査です。
標本抽出には有意抽出法と無作為抽出法がある
調査と聞いて身近なもので思い浮かべるものにはアンケート調査がありますよね。
アンケート調査は典型的な有意抽出法です。
有意抽出法は「作為抽出法」あるいは「非確率サンプリング」ともよばれ、
調査する人の判断で誰を対象に調査するかを決めます。
調査対象を独自の判断で絞り込むことができるので、データを集めやすいというメリットがありますが、
調査する対象に偏りが生じる可能性も大きいので、母集団全体を代表していない場合もあります。
無作為抽出は調査の企画者の主観的判断を排除して、くじ引きのような方法で調査対象を抽出する方法です。
なので、調査を実施する人の判断が入るのが有意抽出法、主観的判断を排除するのが無作為抽出法となります。
無作為抽出法は統計的に評価することができる
無作為抽出法ではくじ引きのような方法で調査対象を抽出するので、確率論などの理論を当てはまることが可能となります。
なので、標本から全体の数値を推計することはもちろんのこと、推計結果の誤差を評価することができます。
単純無作為抽出法
基本となる無作為抽出法
標本調査では、元の母集団の正確な推測が目的です。
なので、母集団からできるだけ偏りがないように調査対象を抽出する必要があります。
単純無作為抽出法では、母集団に通し番号を割り振って、乱数などを発生させることで標本を抽出する方法が用いられます。
層化(層別)抽出法
グループ分けして、それぞれからランダムに抽出
あらかじめ母集団の構成情報を知っている場合に、
グループ分けをして、各グループから一定数の調査対象を無作為に抽出する方法です。
例を挙げると
学校に40人ずつの5クラスあったとした場合に、その5クラスそれぞれから10人を選ぶような方法です
各層の散らばりが小さく同質であれば、精度が上がる
層がきれいにわかれているティラミスを食べたときには、全体の層の作りとほぼ同じなため全体を推定することは容易ですよね。ただ、もし層の厚みがところどころ違うティラミスを食べたときにはどうでしょうか?
食べたところの一口が全体を予測するには適していない可能性が高いです。
クラスター(集落)抽出法
グループ分けして、グループからランダムに選び全抽出
クラスター(集落)抽出法は母集団をグループ分けして、そのグループを無作為に選択し、選んだグループにおいて全数調査を実施する方法です。
例を挙げると
全国の高校からいくつかをピックアップし、その高校に通う全員に対して調査をする方法です。
層化抽出法と集落抽出法の違いとしては、グループ自体をランダムに選ぶか否かがポイントとなります。
二段(多段)抽出法
調査コストを下げるための手法
二段(多段)抽出法は、母集団をいくつかのグループにわけて、グループを無作為抽出を実施し、またそのグループも分けて無作為抽出するといった、グループ分けを複数回くり返して無作為抽出する手法です。
段数が増えると精度が下がっていくので、要注意です。
系統(等間隔)抽出法
系統とは種類ではなく一連の流れ
系統と聞くと「この色は青系統だな」のような感じで種類をイメージする人もいるかと思いますが、系統抽出法の系統は一連の流れを表しています。
なので、系統抽出法は通し番号を付けた母集団を用意して、一番目の調査対象を無作為に選び、2番目以降は一定の間隔で抽出する方法です。
二相抽出法
単純無作為からの層化抽出
二相抽出法はなんとか層化抽出法をやるための方法です。
層を分けるにはある程度グループ分けできる情報が事前に必要となります。
しかし、どのようにグループ分けしたらいいかわからない場合に、まずはランダムに母集団から抽出して調べます。
そしてそのランダム抽出した情報から層に関する情報を調べて、改めて層化抽出を行います。
つまり、二相抽出法は母集団の層がわからない場合に、単純無作為抽出を実施して、層の情報を把握してから層化抽出法を実施するやり方です。