关于抽样调查方法的比较和总结
关于抽样调查方法的比较和总结
篇一:几种抽样调查方法比较
数理统计是用概率论的思想,方法去解决实际问题.在实际问题中出现的总的研究对象,我们称为总体,其分布一般是未知的,所以,首先要对总体进行抽样,以获取总体的有关信息——样本,再利用这些信息对总体进行分析.对于如何选取样本这个问题,经过人们不断的尝试、试验,渐渐地就有了“抽样论”,“试验设计”的发展.1895年,Kiaer在国际统计学(ISI)最早提出了“代表性抽样”的概念,后来经过Neyman、Hansen和Mahalanobis等人的杰出贡献,抽样调查理论与方法在过去的一百年间,已经取得了很大发展.从概率抽样方法的发展和完善到收集信息与控制误差方面日益复杂的方法的应用,抽样调查已经取得了很大的进步.特别是近几十年来,在实践中实施的大型调查所涌现出的关于抽样设计和数据分析的难题,更是推动了理论研究的发展.
在现实生活中,有很多实际问题将会用到数理统计的知识,它会有效地帮助我们分析和论证,从而得到我们需要的信息.为了更加有效地应用这些知识,就需要在总体中选取一个最合适的样本来为我们服务.从这个方面来说,样本的选取方法就成了一个至关重要的问题.只有找一个最简洁又具有代表性的样本,才能获得隐藏在数据背后的真相.
本文主要介绍抽样调查理论,以及抽样调查的几种方法,并通过举例子介绍对比这几种方法.最后,本文又对抽样调查的这几种方法做了简单的总结和比较,显示了抽样调查理论在我们的生活中无处不在的强大生命力.
一、 基本概念
1.抽样调查.它是一种非全面调查,它是从全部调查研究对象中,抽选一部分单位进行调查,并据以对全部调查研究对象作出估计和推断的一种调查方法.
2.总体与样本.总体是我们所研究(调查)的对象的全体.例如在全国儿童情况调查中,全国所有0—14岁的儿童就构成调查的总体.调查的目的是为了得到有关这个总体的某些数据.例如全国儿童总数、每个年龄男女儿童的平均身高和平均体重等.这些有关总体的指标就是调查的目标量.如果进行一次对全国儿童的普查,对每个儿童都进行有关指标的 调查,就可以获得这些总体目标量的数据,当然这实际上是很难做到的,为此我们按某种方法只从总体中抽取一部分进行调查,这一部分儿童就构成样本.根据这些样本数据就可以对总体目标量进行估计.
3.概率抽样.抽取样本是抽样调查中的一个重要方法.最常用且最科学的方法是进行概率抽样,也称随机抽样.其优点是能保证样本的代表性,避免人为的误差,而且它可以对抽样误差进行估计,从而可以获得估计的精度.为了抽样便利,使概率抽样能够实施,通常将总体划分成互不重叠且又穷尽的若干个部分,每个部分称为一个抽样单元.
4.误差与精度.抽样调查中有两类误差,一类是由于调查中获得的原始数据不正确,抽样框有缺陷,或在调查中由于种种原因无法得到按方案的全部样本数据等等,这类误差统称为非抽样误差;另一类误差是由于抽样引起的,即用样本估计总体所产生的误差,称为抽样误差.抽样误差通常用估计量的均方误差、标准差(或方差)等来表示.抽样误差越小,调查的精度就越高,精度的另一种表示方法是给出总体目标量的置信区间,即以一定的置信度(也用概率表示,例如95%)表示总体目标量落在一定的范围内.在相同的置信度下,置信区间长度愈短,精度就愈高.
二、 抽样调查的优缺点
1.优点:①经济性好,实效性强,适应面广,准确性高;
②调查单位少,代表性强,所需调查人员少;
③抽选的调查样本数量经过科学的计算确定的,有可靠的保证;
④抽样调查的误差,是在调查前就可以根据调查样本数量和总体中各单位之间的差异程度进
2.缺点:①所抽取样本是否具有代表性是抽样调查的关键;
②具有不稳定性,有所偏差,存在一定的误差率;
③抽样调查也存在调查的误差和偏误问题.通常误差有两种:一种是工作误差(也称登记误差或调查误差),一种是代表性误差(也称抽样误差).
三、 抽样调查的特点
抽样调查的本质特点是以部分来说明或代表总体.它是按照科学的原理和计算,从若干单位组成的事物总体中,抽取部分样本单位来进行调查、观察,用所得到的调查标志的数据以代表总体,推断总体.
四、 基本的抽样方法
1.简单随机抽样
设一个总体的个体数为N.如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的机会相等,就称这样的抽样为简单随机抽样.简单随机抽样是系统抽样和分层抽样不可或缺的基础,如何实施简单随机抽样有两种常用方法:抽签法和随机数表法.用抽签法抽取样本过程中,每一个个体被抽到的机会是均等的,这也是一个样本是否具有良好的代表性的关键前提.没有每个个体机会均等,就没有样本的公平性和合理性.同抽签法抽取样本一样,用随机数表法抽取样本的过程中, 关键也是要保证每一个剩余个体被抽到的机会是均等的,这就要求:随机数表的确是随机产生的,不含人为因素在内;在选择随机数表中开始位置和方向时,也要保证随机性,如果在看过随机数表后再使用,所抽取的样本就失去了公平性,也就没有实际意义了.
对于简单随机抽样需要注意:①它是不放回抽样;②它是逐个地进行抽取;③它是一种个体机会均等的抽样;④简单随机抽样适用于总体中的个体数不多的情况.生活中有许多用抽签法或类似抽签法的案例,如摇奖、电视节目中电话号码抽奖、纳税凭证抽奖等.抽样时也要防止出现貌似合理的抽样方法,如到某星级宾馆问卷调查客人的收入情况来推断该地区的人均收入,或每隔一周到某一路口调查当地车流量等等.
2.系统抽样
当总体中的个体数较多时,可将总体平均分成几个部分,从每个部分抽取一个个体,得到所需的样本,这样的抽样方法称为系统抽样.
从总体中抽取一个样本来估计总体,样本的抽取是否公平合理固然重要,样本抽取的方法是否经济可行也是十分重要的.面对容量很大的总体,抽取的样本容量显然不可太小,此时采用简单随机抽样是不经济也不可行的,这种情况下采用系统抽样也就更为合理可行.系统抽样以简单随机抽样为基础,通过将容量很大的总体分组,只需在某一个组内用简单随机抽样方式来抽取一个个体,然后在一定规则下就能抽取出全部样本,在保证公平客观的前提下简化抽样过程.
对于系统抽样需要注意:①系统抽样适用于总体中的个体数较多的情况,它与简单随机抽样的联系在于:将总体均分后的每一部分进行抽样时,采用的是简单随机抽样;②与简单随机抽样一样,系统抽样是等可能抽样,它是客观的、公平的;③总体中的个体数恰好能被样本容量整除时,可用它们的比值行计算,并控制在允许范围以内,调查结果的准确程度较高.作为系统抽样的间隔;当总体中的个体数不能被样本容量整除时,可用简单随机抽样先从总体中剔除少量个体,使剩下的个体数能被样本容量整除再进行系统抽样.
3.分层抽样
一般地,当总体由差异明显的几部分组成时,为了使样本更客观地反映总体情况,常将总体中的个体按不同的特点分成层次比较分明的几部分,然后按照各部分所占的比例实施抽样,这种抽样方法叫做分层抽样,其中所分成的各个部分叫做层.分层抽样同样是以简单随机抽样为基础的一种抽样方式,对于容量较大、个体差异不明显的总体通常采用系统抽样方法,但对于许多容量较大、个体差异较大且明显分成几部分的总体,系统抽样虽然保证公平性和客观性,但样本还是不具有良好的代表性,这时就考虑用分层抽样的方法来抽取样本.
对于分层抽样需要注意:①分层抽样适用于总体由差异比较明显的几个部分组成的情况,是等可能抽样,它也是客观的、公平的;②分层抽样是建立在简单随机抽样或系统抽样的基础上的,由于它充分利用了已知信息,使样本具有较好的代表性,而且在各层抽样时可以根据情况采用不同的抽样方法,因此在实践中有着非常广泛的应用.
五、 简单例子
Eg1. 某校高一年级有20个班,每班有50名学生.为了了解高一学生的视力状况,从这1000人中抽取一个容量为100的样本进行检查,应该怎样抽样?
由分析可得,本例抽取方式可能有:1)以班级为单位,在每个班级内采用随机抽样方法来获取5人样本,最后汇总形成100人的所需样本;2)在班级抽样时,可以将50人按学号分成10组,分别由每组随机抽出一个个体来组成10人样本.
这两种抽样方式,虽然总体工作量还是大,但每个班级的每个小组的工作量却很小,也基本能保证样本的公平性.主要因为参与抽样的人多了,易受到人为因素影响.如果在某个班级由学号分成的10个小组中任取一个小组来,采用随机抽样的方式抽出一名学生,其他小组直接抽出与这位学生学号个位数一致的学生,最后在其余班级中找出与该班级学号一致的学生共同组成样本.
从而,系统抽样方法为:先将容量较大的总体平均分成容量较小的几个小组,在某一个小组内用简单随机抽样的方法来抽取一定个体,再按一定规则从其他小组抽出同样数量的个体,最后组成样本.这样,使得整个抽样过程大大简化.
这个简单的例子说明:当样本容量过大时,应该采用系统抽样的方法,既可简化工作量,又能够简单快速的得到人们想要的结果.
Eg2. 某单位在岗职工共624人,为了调查工人用于上班途中的时间,决定抽取10%的工人进行调查.如何采取抽样方法完成这一抽样?
由分析可得,因为此样本容量过多,符合系统抽样的要求,且能简化工作量,因此我们采用系统抽样的方法. 根据系统抽样的步骤,由于624的10%约为62,624不能被62整除,为了保证“等距”分段,应剔除4人,得到如下解法:
1) 将624名职工用随机方式进行编号;
2) 从总体中剔除4人(剔除方法可用随机数表法),将剩下的620名职工重新编号(分别为000,001,002,??,619),并分成62段;
3) 在第一段000,??,009这十个编号中用简单随机抽样确定起始号码i0;
4) 将编号为i0,i0+10,??,i0+610的个体抽出,组成样本.
如果只采用最简单的随机抽样,由于不知道应该抽取多少的个体才会使构成的样本具有代表性,会产生很多不必要的误差,所以在这种情况下,采用系统抽样会更好一点.需要注意的是,系统抽样适合于容量较大而差异不太大的总体,而现实生活中,许多总体的容量非常庞大,甚至不可数,如测量某一棉田中棉株的平均高度,测量某一路口在某一时段的车流量等,这时用简单随机抽样已无法完成抽样,那么可以用系统抽样的方法.测量某一棉田中棉株的平均高度,其样本的抽取可采用如下方式:先确定所要测量的样本容量大小(n),测量这块棉田中所有行的长度之和(S),然后从第一行第一株开始,每隔S/(n-1)距离就测一株棉花的高度,也就能得到全部样本的高度.测量某一路口在某一时段的车流量,其样本采集可用类似方式:每隔3天(从测量的第一天开始,在第1,4,7,??天测量),测量n次后,就可获得一个容量为n的样本.在确定时间间隔时,要考虑如下因素:车流量变化一般以周为周期,还受季节气候的影响.
上述两个例子表明在使用抽样方法时,为了使结果客观、合理、公平,应该把系统抽样,简单随机抽样以及分层抽样结合起来,而不是单独使用其中一种,他们三者之间是相互辅助,相互渗透的关系. Eg3. 某电视台在因特网上就观众对某一节目的喜爱程度进行调查,参加查的总人数为12000人,其中对于这个问题可以有以下三种解法:
① 采用简单随机抽样方法,其总体容量为12000. 可以随机抽取60人 进行调查.
② 采用系统抽样方法,其总体容量为12000.依照系统抽样的步骤,可先把这12000人编号00000到11999;再每200人分为一组编号零零一组到二零零组;从每组中分别随机抽取一个个体;抽取的这60个个体就组成了一个样本;对这组样本进行调查.
③ 采用分层抽样方法,其总体容量为12000.
“很喜爱”占2415/12000,应取60×2415/12000≈12人;
“喜爱”占4567/12000,应取60×4567/12000≈23人;
“一般”占3926/12000,应取60×3926/12000≈20人;
“不喜爱”占1072/12000,应取60×1072/12000≈5人.
因此,采用分层抽样的方法在“很喜爱”、“喜爱”、“一般”、“不喜爱”的人中分别抽取12人、23人、20人和5人.然后对这组样本进行调查.
根据上面的分析解答,由于样本容量过多,采用简单的随机抽样会使问题不具有代表性,所以不适合采用简单随即抽样;而由于持有不同态度的人差异较大,进行系统抽样的话,因喜爱此节目的人较多,使得在这种情况下选取的样本不具有公平和等概率性,所以也不适合采用系统抽样方法;采用分层抽样,得到的样本既具有代表性,又具有公平性和随机性,是最适合的抽样方法.
六、 小结
系统抽样是对于样本容量较大而相互之间差距不是很大的总体比较好,它包括抽样和估计两个环节;而分层抽样是对于样本容量较大且差距较明显的总体比较适合,他包括分层、抽样和估计三个环节.简单随机抽样是系统抽样和分层抽样得以进行的基础.在很多问题中,应该把三者结合起来,才会达到更好的效果.它们之间是相辅相成,相互影响的,只有把这三者结合起来,才能使抽样调查的技术走向前进.
样本的抽取是否得当对研究总体来说十分关键,掌握正确的抽样方法是十分重要的.抽样调查是根据数理统计理论建立起来的一种科学的统计调查方法.它虽然是非全面调查,但它的目的却在于取得反映总体情况的信息资料,因而,也可起到全面调查的作用.抽样调查在人类活动的许多领域,特别是在社会经济领域中有着广泛的应用.
我国目前还处在抽样调查理论和技术发展相对落后的阶段,仅仅是在国外研究的基础上稍加改进.但是我相信,在我国相关人士的努力下,我国在这方面一定会奋起直追,研究出新的适合我国国情的抽样调查理论新方法.
参考文献:
[1] 盛骤 概率论与数理统计[M] 北京 高等教育出版社 2008
[2] 夏宁茂 新编概率论与数理统计[M] 上海 华东理工大学出版社 2005
[3] 赵雪慧 抽样调查理论与方法的最新进展[J] 北京 系统与信息论坛 2003.9
[4] 克拉美H 统计学数学方法(魏宗舒等译)[J] 上海 上海科学技术出版社 1966
[5] 费史M 概率论于数理统计(王福保译)[J] 上海 上海科学技术出版社 1962
[6] 郝向东 浅谈系统抽样与分层抽样[J] 北京 统计与信息论坛 1996:04
[7] Greg Dickman Business Statistics[J] Nelson 1998
[8] F S Hillier Introduction to Management Science[J] McGraw-Hill Companies Inc 2001
[9] B Efron Bootstrap Methods:Another Look at the Jackknife[J] Annals of statistics 1979:25-26
[10]R Musil,M Baur,W Pfister Testing Practices for the AC Breakdown Voltage “Testing of
Insulation Liquids”[J] IEEE Electrical Insulation Magazine 1995:21-26
[11]E.L.Lehmann Nonparametrics:Statistical Methods Based on Ranks[J]美国Holden-Day公司 1975
[12]Fisher R A Theory of Statistical Estimation Proceedings of the Cambridge Philosophical
Society 1925(22):710-715
[13]Barr D R Darling D A A.Kolmogorov-Smirnov Test for Gensored Samples[J] Technometrics
1973(15):739-757
[14]Kaziol J A Byar D P Percentage Points of the Asymptotic Distributions of one and two Samples
K-S Statistics for Truncated or Censored Date[J] Technometrics 1975(17):507-510
[15]Finklestein J M,Schafer R E Improved Goodness of Fit Tests[J] Biometrika 1971(58):641-645
篇三:抽样调查及其主要方法
抽样调查可以分为两类,即概率抽样和非概率抽样。概率抽样是按照随机原则进行抽样,不加主观因素,组成总体的每个单位都有被抽中的概率(非零概率),可以避免样本出现偏差,样本对总体有很强的代表性。非概率抽样是按主观意向进行的抽样(非随机的),组成总体的很大部分单位没有被抽中的机会(零概率),使调查很容易出现倾向性偏差。
现代被广泛应用的抽样调查是概率抽样。因此,现代的抽样调查是指概率抽样,其定义为:抽样调查,又称抽样推断,是一种重要的、科学的非全面调查方法。它根据调查的目的和任务要求,按照随机原则,从若干单位组成的事物总体中,抽取部分样本单位来进行调查、观察,用所得到的调查标志的数据来推断总体。
抽样调查按抽样的组织形式划分,有以下几种主要方法:
(1)简单随机抽样(也叫纯随机抽样,SPS抽样)。也就是从总体中不加任何分组、划类、排队等,完全随机地抽取调查单位。特点是:每个样本单位被抽中的概率相等,样本的每个单位完全独立,彼此之间无一定的关联性和排斥性。简单随机抽样是其他各种抽样形式的基础。通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。
(2)等距抽样(也叫机械抽样或系统抽样,SYS抽样)。是将总体各单位按一定标志或次序排列成为图形或一览表式(也就是通常所说的排队),然后按相等的距离或间隔抽取样本单位。特点是:抽出的单位在总体中是均匀分布的,而且抽取的样本可少于纯随机抽样。等距抽样既可以用同调查项目相关的标志排队,也可以用同调查项目无关的标志排队。等距抽样是实际工作中应用较多的方法,目前我国城乡居民收支等调查,都是采用这种方式。
(3)类型抽样(也叫分层抽样,STR抽样)。就是将总体单位按其属性特征分成若干类型或层,然后在类型或层中随机抽取样本单位。特点是:由于通过划类分层,增大了各类型中单位间的共同性,容易抽出具有代表性的调查样本。该方法适用于总体情况复杂,各单位之间差异较大,单位较多的情况。
(4)整群抽样(又称集团抽样)。就是从总体中成群成组地抽取调查单位,而不是一个一个地抽取调查样本。特点是:调查单位比较集中,调查工作的组织和进行比较方便。但调查单位在总体中的分布不均匀,准确性要差些。因此,在群间差异性(转 载于:wWW.cSsYq.cOM 书业网)不大或者不适宜单个地抽选调查样本的情况下,可采用这种方式。
(5)多阶抽样(又称多级抽样)。就是将调查分成两个或两个以上的阶段进行抽样。第一阶段先将总体按照一定的规范分成若干抽样单位,称之为一级抽样单位(或称初级抽样单位),再把抽中的一级抽样单位分成若干更小的二级抽样单位,从抽中的二级抽样单位再分三级抽样单位等等,这样就形成一个多阶段抽样过程。特点是,在对超大而又复杂总体调查的抽样中实施和管理更加方便,且不需要对每级抽样单位编制完全的抽样框。
(6)二重抽样(又称两相抽样)。就是先抽取一个容量比较大的初始样本,用初始样本估计总体的某些参数或某些必要的信息作为分层的比例或再次抽样的标志,然后将抽出的初始大样本作为"总体",从中抽取容量合适的样本进行比较详细的调查。特点是,适合用于对总体信息了解比较少的调查。
(7)比率抽样(PPS抽样)。就是将总体按一种准确的标准划分出容量不等的具有相同标志的单位在总体中不同比率分配的样本量进行的抽样。特点是总体中含量大的部分被抽中的概率也大,可以提高样本的代表性。
在抽样调查的实际工作中,经常是要将几种抽样方法结合起来应用。比如,城市居民的收支调查,是将二重抽样、多阶段抽样、分层抽样、机械抽样等多种方法结合起来使用。
在现实的商业性的市场调查中也有非概率抽样的应用。如,配额抽样、随意抽样、志愿者抽样、判断抽样、修正的概率抽样和滚雪球抽样等等,由于这些抽样方法容易出现偏差,所以只在对共性特别强的群体的商业性调查中应用。
【抽样调查方法的比较和总结】相关文章:
细胞结构和功能的实验研究方法总结07-19
施工总进度计划的编制步骤和方法11-25
预防近视的方法总结08-02
脑瘫治疗的最佳方法总结03-20
关于小升初复习方法总结02-24
css的调试方法与经验总结03-20
总结的作用和概念03-21
谦辞和敬辞总结09-20
教《学弈》的方法总结(精选11篇)04-10