数学建模社区-数学中国

标题: 【转】如何合理选择抽样样本数 [打印本页]

作者: walker528    时间: 2011-11-18 10:40
标题: 【转】如何合理选择抽样样本数
如何合理选择抽样样本数
( X, W0 q8 l* Q) ?% D作者:徐晟韬3 k% k8 M4 h5 |" B

3 W: M$ i4 Z  e$ |0 h- e% _5 V一、           研究介绍:
1 W3 ^) [8 `+ z, f" k6 q
" M9 z- Y0 x' T1 _研究背景:众所周知,抽样样本数的大小对调查结果的准确度有很大的影响,从统计上可以计算出每个抽样样5 P/ a- t; e+ x# q  `! ?. p
本数所对应的抽样误差有多少。但大多数客户对抽样误差缺乏直观的感觉,无法清晰了解应该选择多大的抽样误差才能满足自己的实际需求,因此也就无从有效控制成本。另外,对于定性研究来说,也需要采用另外的指标来衡量多大的样本量才能满足定性研究的需求。因此,达闻通用的研究人员计划通过对现有数据的分析来帮助解决这两个问题。
0 c+ e& e) V& a: z % K7 [+ F5 t, s/ g- Y, [. q, V% _1 O
研究课题:1. 定性研究应该采用多大的样本量才能有效解决问题?
3 f8 \$ b* q5 N" Q; u4 E) f+ h2. 定量研究中,采用不同数量的抽样样本,可达到怎样的研究效果? * O2 ]+ i4 D! {$ ~/ K
# S# t, ?' A% B* y0 y$ W
研究方法:我们以过往某个调查项目的总样本数(4450样本)为母体样本,从中分别随机抽取5样本,10样本,9 w% v1 K6 b! j3 P0 O6 [& f( j6 R
20样本,30样本,50样本,80样本,100样本,200样本,300样本来比较其结果,为了充分了解每种样本量的抽样结果,每种样本量重复抽取30次。对比的问题指标为:不提示品牌知名度。
3 L. z2 Q8 T, f  g5 M; Q% b7 K 9 E; T! Z9 L% B" t3 q1 o! Q
二、           研究的主要结论:1 B8 P: F) r& k
% s: V+ k/ m. b. s7 O
样本量        特点+ _9 _' b7 ~  q3 P0 M2 L/ I- w8 r
5          只能获得一半的答案。$ V2 L4 ]4 Z# _0 c8 F
  保证得到前2个主要的答案。8 p) n( A$ X3 w% L9 L9 H
10          答案获得率达到70%。
( N$ ~$ f; w" x2 _  保证得到前5个主要的答案。; r7 b8 _) s% p
15          答案获得率达到80%。! z5 g; D+ G' J
  保证得到前8个主要的答案。* u4 u7 c3 `4 u0 H! i! p: w. I
  建议作为定性研究的最低样本量。: A$ J1 I3 l5 c7 I7 g
20          答案获得率达到85%。
3 X. K4 W: L8 ~* b! w1 t! d  k! {- p  保证获得前10个主要的答案。# v5 m; s" N" f9 _0 V/ n, x6 P
30          答案获得率达到90%。  p# p* p- \+ d& z3 {/ n# Q) {
  保证获得前12个主要的答案。
) Q3 e6 Y( H+ W1 |% {- x  可粗略量化分辨出高、中、低结果
9 X4 k2 _, C) Y  X6 G  建议作为定量研究中一个细分配额的最低样本数。
" h3 l# h3 X2 k7 P; O& I1 q$ f5 `50          答案获得率,精确度比30样本量要高一些。
) g5 {1 `3 G" Z* g100          答案获得率接近100%。
+ b$ H7 a& e# \$ Y) J/ g  抽样误差约为+10%,调查结果可以反映市场的大体情况,但数据排名仍然有一定的误差。" e  a$ a) v2 h; i% M/ w$ P0 n
  建议用于项目中各分城市的最低样本数。! y0 k* u9 f: E7 g7 r
150          抽样误差比100样本量略佳,调查结果更接近现实,不过差别不会太大
4 `8 F3 B' G' m" @% s+ ~
, P) T5 E! t2 i% f+ r/ S  v$ N& j200          答案获得率稳定为100%。' N( ?5 V  n6 E$ \5 K2 |) j6 u5 h
  抽样误差缩小至约为+7%,结果很接近真实值,但多次抽样结果仍然有结果不稳定的情况。1 s- Y) y, U# _
  建议用于市场描述性或问题诊断性研究项目,但不适合用于连续跟踪性的研究
7 Z7 G6 G9 N4 d% b300          抽样误差为+5.4%,调查结果基本上与现实一致,数据准确度和稳定性都很好。3 E  M" x& d- Z. ^/ f" S9 s  R
  建议作为U&A研究和各类跟踪性研究的基础样本。9 w7 f/ C' K- E

' \' x3 {8 u* o, I2 ?( c: W% Y三、           详细研究分析
0 t, }7 @% y8 X( M3 ]. }& a& I+ h/ x
9 G/ x& W! g' s# M* M(一)定性样本需求分析
+ X& k- x. A) \! e) Y/ E' C- R
8 s8 ]- j+ ^, S% f  D+ q: o4 v8 r1 D1、答案获得率分析, N8 v: L  H- `+ `

! `2 `5 k0 h$ R; W4 f# F- F! Z概念:答案获得率是指在调查中的答案个数与实际总体答案个数的比例。# a  t6 Z: i, n* K( b( K! \& H
( b) Z. ]/ {& a4 r9 l
定性研究是属于探测性研究,因此不太在乎量化的数据,而会更关注能否获得足够的答案数以供进一步的定量研究,也就是说答案获得率是否足够。
& h4 ~7 y) q" c, r5 l ' e, y. i* x, v# x2 Y" j3 F7 x
在本次研究中,采用的4450个母体样本中,果汁品牌共有17个,也就是说实际总体答案个数就是17个。因此,我们只需要对比每种抽样样本量下的平均答案个数,就可以知道该抽样样本量的答案获得率。
/ ]' {0 c/ U0 \9 E9 H 4 H  y3 u1 y3 ~
统计结果如下表:
. R/ }$ M# O4 E/ \7 S* k# c( _2 Q1 N  
. N. U/ F. t! f" M/ a# Y4 |
5 R* O0 i# k4 L+ j# j) a: R) q9 b
( I9 l; h. u& L$ D+ I8 \# w 6 |; m& N3 h4 g4 K. q6 s  E

. W; S7 p3 w& Z" W! s  " L) E4 T; Q- _  J7 `6 I2 k8 r: D! O
从上面图表可得出,5样本的调查仅能拿到一半的答案,10样本获得七成的答案,15样本可得到80%的答案,而30样本是拐点,再得到90%的答案后,再增加样本量对答案获得率的帮助不大。) P1 ?- F& {: {; ~3 o+ i$ O
3 ~; C: h$ i% {% D
  
' @' r9 t  b6 P% o) t9 I3 J/ P6 M  c2、主要答案获得率: L' ~1 k& M: ^! ~8 v. t# Z
5 |5 A7 ^: o; P0 C
进一步分析,我们需要了解各种抽样样本是否能得到主要的答案。下面是17个果汁品牌的不提示知名度,不提示知名度的高低代表了这个品牌的广泛性。4 w2 H0 E% f4 y4 ^2 H. a* u
        以下是每种样本量下的各答案获得率。从图中可以看到,5样本量只能保证获得知名度最高的两个品牌,而10样本量可以保证获得不提示知名度在20%以上的5个品牌,而15样本量及30样本量可以保证获得不提示知名度在10%以上的品牌。
% \/ N! w7 R1 ]4 P; [6 e* _
2 A) i: V& v& w  
5 k) q& a+ L$ } - R+ r, ~8 ?9 G0 h* ^6 u
3、小结
9 l  @" P6 v7 I7 O   _, A0 I! E+ L+ |
综合前面两点分析,我们可得出结论:定性研究最低需要15样本或2组座谈会的量,才能获得大部分的答案并覆盖到主要的答案。如果需要对比研究细分群体,则每个细分群体也应该最少是2组座谈会放可保证效果。' j* M8 }" P: N/ X8 C7 C- i
) F# |) ]& A7 }- F' c/ K

, k  f2 k5 [' x/ v/ U2 G9 s6 Q% y(二)定量样本需求分析; m6 L2 G5 V2 j$ `  q
0 t. }# w- [" @- G& ~
(1)抽样误差分析2 \" B" W: @8 S# x

4 ?3 G8 L2 Z: q+ }. |6 Z6 _5 M抽样误差是评估样本量的一个常用指标,我们的研究人员计算出了在95%的置信程度下各样本量的抽样误差,具体结果如下图:
- B2 R7 T$ ]% ] 8 P- a7 g( w7 k& I4 N' N; }
  
( Y. Y% j) ]  c* c7 r : {9 M: r; c' ?
(2)实际的调查结果分析: k1 g- k$ u! W1 A: O3 H! {
. E' {. s, H, f# I5 P# o6 f
知道了抽样误差,大多数客户仍然很难知道应该如何根据实际情况选择抽样样本数。因此,我们在这部分会用图像来展示各种抽样样本量的调查结果,去更好地了解不同样本量可达到的研究效果。
; b* L7 T4 D" T0 C* R# d ' G+ _8 ?/ i9 S0 i
1、20样本: 调查结果与真实值相差很大,基本不能反映统计意义3 k8 j& n1 X& J6 W

2 W) M- [- P: J: Y. V * R6 U' ^$ {- ^7 L

2 p2 W. K/ R9 N+ r$ S2、30样本:调查结果基本可以分出高、中、低的区别,但多数值与真实值有一定的误差
; B4 G/ L2 k: W8 x0 a  W6 A
! G6 ?( W1 ~1 L: i. ?0 W. a! { 4 m9 z& e* p& U' j# o
3、50样本:调查结果同样可以分出高、中、低的区别,但有2-3个数值会与真实值有较大背离
' O! U5 d# v" l  r6 w, n" K  T
3 W+ A- y6 {) \! N3 b1 m( S
+ c6 P5 r4 D# v) N9 J: Q4. 、100样本:调查结果开始接近现实,能反映市场大致情况,但数据排名的稳定性不够,不能作为跟踪对比的依据% ~1 t3 O; F1 ^9 I1 p0 v- a

/ y5 y: \$ C5 `5 E: S6 d' }
- v" u% R) m5 P+ r5、150样本量 :调查结果更接近现实,误差明显减少,但仍然不够稳定。
8 V7 q. m6 T! b! l  {
5 C' }" @) W% M, i ! ^. a3 |- s8 q8 y& K9 Y4 u" |
6、200样本量 :调查结果相当接近真实情况,30次可能会有一次与真实的排名有误差。5 N1 v- s+ g$ l- t4 A" y- z
; @$ x! h% V) N) n( e4 v
7、300样本量:调查结果基本上与现实一致,是非常优秀的定量研究调查样本量
$ W2 H* n0 G9 g2 s$ y" \
  s: x" M5 Y5 n$ s* p1 r# S  
" n) i: Q4 a: ?; \# j* ` ' n* p1 b! A3 @$ C( |# n0 K. O
" e5 d" ^* X. T
1 }' p( G0 C' o+ J7 R% b* L

: Q; b8 A, f" j- n7 H(3)小结; g% s3 [( I' Y  Y. @4 p
      
& H3 L6 U/ C" c9 S! N      30-50样本可作为量化分辨高、中、低结果的基本样本。当样本量达到100的时候,抽样的调查情况可以反映市场的大体情况,但作为排名的结果依据仍然不充分。而样本量上升至200的时候,结果很接近真实值,但多次抽样结果仍然有不稳定的情况,用于跟踪研究并不太妥当。300的样本量在准确性及稳定性都相当好,是优秀的定量研究样本量。- Q7 @& G% b' @3 B" T7 _

0 o4 h9 G) V9 l; n3 Q+ _, ]
0 W& T( I# f# x- M/ e1 g: }. {. y总结
6 [! B6 e3 C1 z& ^2 a) ~      综合以上所述,下表整理了我们所研究的各个样本量的特点以及可以达到的研究效果:9 W+ d7 G/ k+ B6 z+ U) B- I
* f9 {3 E$ _* G2 b( C
样本量        特点4 ~9 E) Q% j& r  T- Z3 F
5          只能获得一半的答案。, i; S: U$ C! Y/ c
  保证得到前2个主要的答案。
3 H9 Z+ c( a! b) g1 s2 K& n10          答案获得率达到70%。# {) ~9 Q- q8 v! D8 \
  保证得到前5个主要的答案。' L0 ~$ ]; J/ o  h
15          答案获得率达到80%。  ?3 @/ X" }' u5 B, S
  保证得到前8个主要的答案。8 x) J2 e5 q: S2 u$ Z! k
  建议作为定性研究的最低样本量。- G7 g2 m$ z, B  P3 M, N, `* L0 w* `
20          答案获得率达到85%。5 C) E% a9 v5 B8 b" f' Z
  保证获得前10个主要的答案。$ m9 r, P" P* i$ s
30          答案获得率达到90%。
1 o. B0 k5 c& [4 c: C  保证获得前12个主要的答案。6 |! d# m( x) X, c. I" i! w/ ]" k# u
  可粗略量化分辨出高、中、低结果
3 c  `, \9 k$ V) s+ ]8 t: Q  建议作为定量研究中一个细分配额的最低样本数。: }8 R3 L6 q  w4 D% Y1 ^
50          答案获得率,精确度比30样本量要高一些。
0 _: B: t3 P: M$ K- b' |100          答案获得率接近100%。
, b0 C0 E$ ^* O8 z8 x& k3 ~  抽样误差约为+10%,调查结果可以反映市场的大体情况,但数据排名仍然有一定的误差。4 J9 U) a5 R" Z9 o; D; H# R( i; P
  建议用于项目中各分城市的最低样本数。
4 B8 p, I4 t. f150          抽样误差比100样本量略佳,调查结果更接近现实,不过差别不会太大
- f/ L" y; X0 X) a+ `8 @ 6 I' r# Z; j5 I0 \" e' C
200          答案获得率稳定为100%。- z  Y5 `/ b& B+ W% H3 d- E
  抽样误差缩小至约为+7%,结果很接近真实值,但多次抽样结果仍然有结果不稳定的情况。! V' ^/ t! Y% f6 H$ M" A
  建议用于市场描述性或问题诊断性研究项目,但不适合用于连续跟踪性的研究
* W2 Q; ^. G- q4 Q300          抽样误差为+5.4%,调查结果基本上与现实一致,数据准确度和稳定性都很好。
) e' ]/ s: e3 q6 z  建议作为U&A研究和各类跟踪性研究的基础样本。- c9 [/ T8 R% `  B, H6 o

作者: syxz2007    时间: 2012-5-15 21:45
真正围观中...-_-




欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5