More Information
Worked Example
ある小売業者が、ある日にウェブサイトを見て商品を購入した顧客の割合を、95%の信頼水準と5%の誤差範囲で推定したい場合、何人の顧客をモニターする必要があるでしょうか。 同社のウェブサイトは1日平均10,000ビューで、現在のコンバージョン率が不明であることを考えると、370人の顧客をサンプリングする必要があります。 しかし、過去の研究でコンバージョン率が 5% であることがわかっている場合は、サンプル サイズは 73 人で十分です。
計算式
この計算機は、サンプル サイズ n に対して次の計算式を使用します:
n = N*X / (X + N – 1),
ここで、
X = Zα/22 *p*(1-p) / MOE2,
また、Zα/2 は、α/2 における正規分布の臨界値です (例: 信頼水準 95% の場合)。
Zα/2はα/2における正規分布の臨界値(例:信頼度95%の場合、αは0.05、臨界値は1.96)、MOEはmargin of error(誤差)、pはsample proportion(標本比率)、Nはpopulation size(母集団の大きさ)です。
以下の文献では、FPCを使って、置換なしのサンプリングで分散推定値を調整する方法が説明されています(141-142ページ参照)。 Biostatistics: A Foundation for Analysis in the Health Sciences. 7th edition. New York: John Wiley & Sons.
考察
上記のサンプル サイズ計算機は、必要な誤差と信頼レベルで真の割合の平均を推定するために必要な推奨サンプル数を提供します。
代替シナリオを使用して、4 つの入力 (誤差、信頼レベル、母集団サイズ、およびサンプルの割合) を変更するとサンプル サイズにどのような影響があるかを確認できます。 代替シナリオで何が起こるかを見ることで、各入力がサンプルサイズにどのように関係しているか、推奨されるサンプルサイズを使用しなかった場合に何が起こるかを知ることができます。 サンプルサイズが大きければ大きいほど、推定値が母集団を反映しているという確信が持てますので、信頼区間は狭くなります。
さらに詳しい情報は、ブログ記事「サンプルサイズの重要性と効果」をご覧ください。
定義
誤差
誤差とは、あなたが必要とする精度のレベルです。 これは、推定比率と一緒に報告されることの多いプラスまたはマイナスの数値で、信頼区間とも呼ばれます。 真の母集団の割合が推定される範囲で、多くの場合、パーセンテージポイントで表されます(例:±2%)。
信頼度
信頼度とは、誤差の範囲に真の割合が含まれている確率です。 調査が繰り返され、毎回範囲が計算された場合、95% の確率で真の値がこれらの範囲内にあることが期待されます。
母集団のサイズ 母集団内の異なる個体の合計数です。 この式では、小さい母集団からのサンプリングを考慮して、有限母集団補正を使用します。 母集団が大きくても、その大きさがわからない場合は、保守的に100,000を使用することができます。
サンプルの割合
サンプルの割合は、結果がどのようになるかを予想するものです。 これは、以前の調査の結果を利用したり、小さなパイロットスタディを実施することで決定できることが多いです。 確信が持てない場合は、保守的で最大のサンプルサイズとなる50%を使用してください。 このサンプルサイズの計算は、二項分布の正規近似を使用していることに注意してください。
サンプル サイズ
これは、必要な誤差と信頼度で真の人口比率を推定するために必要な最小のサンプルサイズです。 一部の人が回答しないことを選択した場合、その人はサンプルに含まれませんので、無回答の可能性がある場合は、それに応じてサンプル サイズを増やす必要があることに注意してください。 一般的には、回答率が高ければ高いほど良い推定値が得られますが、無回答の場合は推定値にバイアスがかかることが多いからです。