3.1 抽样调研
抽样是营销调研的核心部分,为了了解全体调研对象的倾向,需要以抽样的方式统计性地抽取一部分调研对象。抽样就是使用少量的项目或者总体的一部分来得出关于整个总体的结论。
3.1.1 抽样调研的内涵
3-1 视频:抽样调研的含义和类型
思考题 抽样调研是什么?有何特点?适用于什么样的情境?
抽样是指不能进行全面调研时,为了推测总体的倾向,抽取真实代表调研总体的调研对象。其目的是对总体的一些未知特征进行估计。
1.概念
抽样调研是根据样本调研结果来推断总体的一种统计调研方法,即从调研总体中选择若干个具有代表性的个体组成样本,对样本进行调研,然后根据调研结果推断总体特征的方法,属于非全面调研的范畴。按照样本抽取的方式,抽样调研分成两大类:随机抽样和非随机抽样。
3-2 拓展知识:第三次全国农业普查主要数据公报
2.特点
抽样调研数据之所以能用来代表和推算总体,主要是因为抽样调研本身具有其他非全面调研所不具备的优点:
(1)调查样本是按随机的原则抽取的,能够保证被抽中的单位在总体中均匀分布,不致出现倾向性误差,代表性强;
(2)以抽取的全部样本单位作为一个整体来代表总体,而不是用随意挑选的个别单位代表总体;
(3)所抽选的调查样本数量,是根据调研误差的要求,经过科学的计算确定的,在调查样本的数量上有可靠的保证;
(4)抽样调研的误差,是根据调查样本数量和总体中各单位之间的差异程度进行计算的,并控制在允许范围以内,调研结果的准确程度较高;
(5)抽样调研可以降低成本、节约时间并迅速地收集至关重要的信息。
大多数经过适当挑选的样本都能给出相当精确的结果,基于以上特点,抽样调研被认为是非全面调研方法中用来推算和代表总体的最完善、最有科学根据的调研方法。
但是抽样调研样本具有不稳定性,有所偏差,也存在抽样调研误差问题。
3.适用范围
抽样调研适用的范围是广泛的。选择抽样调研的情形主要有以下几种:
(1)不可能进行全面调研,但又需要了解全面情况,如灯泡的耐用时间试验等;
(2)虽然可以进行全面调研,但调研范围大、单位数目多,又缺乏原始记录作为依据,并要求资料信息及时性很强,如城市居民出行情况;
(3)对普查资料的质量进行检查和修正;
(4)用于工业生产过程中的质量控制;
(5)对某些总体的假设进行检验。
3-3 拓展知识:收视率调查
3.1.2 抽样调研的基本术语
思考题 与抽样调研有关的基本概念有哪些?如何理解并更好地开展抽样调研?
根据调研课题考虑调研总体,按照调研总体定义调研对象的条件。以商品、服务的用户和潜在顾客群等为对象的调研是最基础的市场调研,如以年轻人作为销售目标的商品,调研对象就是18—30岁的男女。
1.总体和样本
(1)总体。总体是调研对象的集合体,是任何享有一些共同属性的完整的群体,如消费者、零售商、大学生等。总体单位是构成总体的个体成员,而个体是组成总体的每个研究对象,是构成总体的基本单元。普查是对构成总体的所有个体进行调研。通常,合适的总体单位是家庭而不是家庭中的个体成员。
(2)样本。样本就是一个更大的总体的子集或者一部分,即由从总体中按一定程序抽取的那部分抽样单元或个体组成。样本是从总体X中按一定的规则抽出的个体的全部,用X1,X2,…,Xn表示。样本中所含个体的个数称为样本容量,用n表示。一般来讲,在一项调研中,总体是唯一的,样本不是唯一的。
2.抽样框和抽样单位
(1)抽样框。又称“抽样框架”“抽样结构”“有效总体”,就是可能抽取的样本单位的名单,即对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构,具体表现形式主要有包括总体全部单位的名册、地图等。按照不同的抽样要求设置不同的抽样框,常见的抽样框有大学生花名册、工商企业名录、意向购房人信息册等。在没有现成的名单的情况下,调研人员可自行编制。在利用现有的名单作为抽样框时,要先对该名录进行检查,避免有重复、遗漏的情况发生,以提高样本对总体的代表性。例如,从5000名职工中抽出200名组成一个样本,则5000名职工的名册就是抽样框。
抽样框在抽样调研中处于基础地位,是抽样调研必不可少的部分,对于推断总体具有相当大的影响。
(2)抽样单位。它是指被抽取样本中的一个或是一组元素。在单一层次抽样中,抽样单位即总体单位。例如在一个城市对居民户做调研,由市一级一步到位抽取居民户,此时居民户既是总体单位,又是抽样单位。在多层次抽样中,抽样单位与总体单位则不一定是同一批单位。抽样框可能以名单、手册、地图、数据包等各种形式出现,在抽样之后,调研者必须能够根据抽样框找到具体的抽样单位。
3.总体参数和样本统计
(1)总体参数是总体中的变量或所度量的总体属性,是总体中对某变量的概括性描述,如总体的均值、方差、标准差等。总体参数表现为一系列唯一的常数,但往往却是未知的,需要去推断和估计。
(2)样本统计是指样本中的变量或根据样本数据计算出的指标。样本统计用于对总体参数做出推断,具体有两种不同形式,即总体参数估计和假设检验。
总体参数估计是根据从样本中得到的统计量对相应的总体参数进行估计。例如用样本平均数估计总体的平均数,用样本的标准差估计总体的标准差等。总体参数估计可分为点估计和区间估计。
假设检验又称显著性检验,是数理统计学中根据一定假设条件由样本推断总体的一种方法,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。
3.1.3 抽样调研的步骤
思考题 企业是如何开展抽样调研的?
抽样调研是由七个步骤组成的工作过程(见图3-1)。
图3-1 抽样调研的程序
1.界定调研总体
明确调研的全部对象及其范围是抽样调研的前提和基础。界定总体就是在具体抽样前,首先对从中抽取样本的总体范围与界限做明确的界定。回答关于总体的关键特征的问题,是确定目标总体的常用技术。为了完成抽样,应该使用切实的特征来定义总体。例如一个儿童食品企业,可能将儿童食品购买者总体定义为所有还能生孩子的妇女,然后一个更加具体的操作性定义应该是12—50岁的女性。
2.识别抽样框
这一步骤的任务就是依据已经明确界定的总体范围,收集总体中全部抽样单位的名单,并对名单进行统一编号(个体编号),建立供抽样使用的抽样框。抽样框是提供抽样所用被调研对象的详细名单,在没有现成名单的情况下,可由调研人员自己编制。个体编号就是对调研总体中的个体进行编号。
3.确定抽样方法
这一步骤的主要任务首先是确定抽样的技术是随机抽样还是非随机抽样,然后再确定具体的抽样方法。在选择具体抽样方法时,应根据各种条件综合考虑决定,如调研目的和性质、精度要求、操作的可实施性、非抽样误差的控制、经费预算等因素。最基本的抽样方法分为随机抽样和非随机抽样两种,具体又分为五种随机抽样方法和四种非随机抽样方法。虽然非随机抽样不能推断总体和计算抽样误差,但在实际调研中仍常被使用。如概念测试、包装测试、名称测试以及广告测试等,研究主要的兴趣集中在样本给出各种不同应答的比例。随机抽样用于需要对总体给出很准确的估计的情况,例如估计市场占有率、整个市场的销售量、某区域的电视收视率、全国性的市场跟踪研究,以及用户的心理特征和人口分布的研究等。
4.选择抽样程序
在实际抽样过程中,总体单位必须根据特定程序进行选择。选择抽样程序取决于研究者在抽样框的基础上如何决策。如简单随机抽样要求完整、准确的目标总体中的个体清单,清单包含个体姓名以及具有代表性的可用代码。
5.决定样本容量
样本容量的大小涉及调研中所要包括的人数或单元数。根据市场调研的经验,市场潜力等涉及量比较严格的调研所需样本量较大,而产品测试、产品定价、广告效果等差异不是特别大或对量的要求不严格的调研所需样本量较小些。确定样本容量的大小是比较复杂的问题,既要有定性的考虑也要有定量的考虑。
从定性方面考虑样本容量的大小的具体因素有:决策的重要性、调研的性质、变量个数、数据分析的性质、同类研究中所用的样本量、发生率、完成率、资源限制等。具体地说,重要的决策,需要更多的信息和更准确的信息,这就需要较大的样本;探索性调研所需要的样本量一般较小,而结论性研究如描述性调研就需要较大的样本;收集有关许多变量的数据则样本量就要大一些,以减少抽样误差的累积效应;如果需要采用多元统计方法对数据进行复杂的高级分析,则样本量就应当较大;如果需要特别详细的分析,如做许多分类等,也需要大样本。
从定量角度,根据样本容量计算公式,样本容量的大小不取决于总体的多少,而取决于研究对象的变动程度、所要求或允许的误差大小、要求推断的置信度。当所研究的现象越复杂,差异越大时,样本量要求越大;当要求的精度越高,可推断性要求越高时,样本量越大。
6.选择样本个体
在上述几个步骤的基础上,严格按照所选定的抽样方法,从抽样框中选取一个个抽样单位(样本个体),构成样本。总体是指研究的对象的全体,个体是总体中的每一个考察的对象,样本是总体中所抽取的一部分个体,而样本容量则是指样本中个体的数目。例如考察某企业生产的灯泡的使用寿命,该企业生产的所有灯泡的使用寿命为总体,每个灯泡的使用寿命为个体。
7.收集样本数据
调研人员从指定的样本个体中收集数据,就是对选定的样本运用不同的调查方法逐个进行调查,从而取得第一手资料。
3.1.4 抽样技术的分类
思考题 各种随机抽样方法之间有什么区别和联系?
按照调研对象总体中每一个样本单位被抽取的机会(概率)是否相等的原则,抽样技术可以分为随机抽样和非随机抽样(见图3-2)。
图3-2 抽样技术类型
1.随机抽样
又称概率抽样,是指依据随机原则,按照某种事先设计的程序,从总体中抽取部分单元的抽样方法。其主要特点是总体中每一个抽样单位被选为样本的概率相同。随机抽样技术又包括简单随机抽样、系统抽样、分层抽样、分群抽样、多阶段地区抽样等五种技术。
3-4 视频:随机抽样方法
(1)简单随机抽样。简单随机抽样是指从总体中选择出抽样单位,抽取的每个样本均有同等被抽中的概率。抽样时,处于抽样总体中的抽样单位被编排成1—n编码,然后利用随机数码表或专用的计算机程序确定处于1—n间的随机数码,那些在总体中与随机数码吻合的单位便成为随机抽样的样本。
简单随机抽样是随机抽样技术的基础,方法简单,误差分析较容易,但是需要样本容量较多,适用于各个体之间差异较小的情况。简单随机抽样又可分为以下三种:
①抽签法。当给总体中的各个单位编号后,把号码写在结构均匀的签(如同等大小的纸片等)上,将签混合均匀后从中抽取。抽签法简便易行,然而对于较大的总体来说,编号、做签条的工作量很大,且不易做到混合均匀。因此,抽签法的应用有一定的局限性。
②机械摇号法。它是先对全部总体单位编号,然后再利用某种特制的机械,通过机械震动产生需要抽取调研样本单位号码的方法。例如购房摇号。此法抽取的样本单位随机性高,但购置设备的费用较高,只适宜于经常开展抽样调研的单位使用。
③随机数字表法。它就是利用随机数字表随机抽取样本单位的方法。随机数字是指用某种机械方法或电子计算机产生的数字序列,数中的0,1,2,…,9这10个数字出现的机会是等概率的,但排列顺序则是随机的。将随机产生的数字用表格的形式表现出来,就是随机数字表。
[例] 假定有2000名调研对象,以随机数字表随机抽取150名样本,其抽样步骤如下:
第一步,将2000名调研对象由0001编至2000;
第二步,由随机数字表利用抽签方法选取号码开始点。例如选取为第十五行第四列;
第三步,由设定的起始点选取号码,选取号码与调研对象的编号位数相同:即1475, 9938,4460,0628,……,有效号码样本2000以下;
第四步,若抽样单位与随机数字表抽样号码条件相同即为样本,大于调研编号,跳过不取;
第五步,若逢重复号码,亦应跳过;
第六步,依上述方法,连续采用150个号码,即为完成样本选用。
(2)系统抽样。又称等距抽样,是指先按有关或无关标志将总体单位按一定顺序排列,然后再按相等的距离或间隔抽取样本单位的方式。其基本特点是先排队,再等距抽选样本。系统抽样的优点是通常能保证样本均匀分布,减少误差,提高样本的代表性,适用面广,特别适宜于连续、大批量生产的现象的调研;局限性是有时可能有系统(周期)性误差。
系统抽样只有不重复抽样方法,关键是第一个样本单位的抽选。先按N/n=K求出抽样距离(由母体总数除以样本数而得到);再在第一组中按简单随机抽样的方法,抽出第一个样本单位;然后再按抽样间隔K随之确定其余样本单位。系统抽样既可以用于与调研项目相关的标志排队,也可以用于与调研项目无关的标志排队,所以具体又可分为按有关标志排队的系统抽样和按无关标志排队的系统抽样。
(3)分层抽样。也称为分类抽样,是根据某些特定的特征,将总体分为同质、不相互重叠的若干组或若干类,此组(类)称为层,然后将总体中的各个体分别编入相应层中,再由各层中以简单抽样或系统抽样选取适量样本的方法。例如,调研在校大学生笔记本电脑拥有量,先按年级进行分类,然后每个年级分别随机抽取部分进行调研。
分层抽样具有提高样本的代表性、总体估计值的精度和抽样方案的效率等特点,但是抽样框较复杂,费用较高,误差分析也较为复杂。此法适用于总体复杂、个体之间差异较大、数量较多的情况。
上述三种抽样技术的比较如表3-1所示。
表3-1 不同抽样技术比较
(4)分群抽样。分群抽样是先将市场调研的总体划分为若干个群体,然后按随机的原则不重复抽出(即以简单随机抽样的方法选取)部分群体作为调研样本,在每个群体中进行全面调研的一种随机抽样方法。分群抽样时,各群之间应具有共性,如人口数目、民族构成等;而每群内部又要具有差异性,所调研的目标要广泛一些。
分层抽样与分群抽样的比较如表3-2所示。
表3-2 分层抽样与分群抽样比较
(5)多阶段地区抽样。地区样本是最流行的一种聚点样本。多阶段抽样是指将抽样过程分阶段进行,每个阶段使用的抽样方法往往不同,即将各种抽样方法结合使用。多阶段地区抽样是指涉及两个或者更多的步骤,结合了一些概率技术。通常,地理区域是在更小的单位中进行随机选择的。其实施过程为,先从总体中抽取范围较大的单元,称为一级抽样单元,再从每个抽得的一级单元中抽取范围更小的二级单元,依此类推,最后抽取其中范围更小的单元作为调研单位。
多阶段抽样具体操作过程是:
第一阶段,将总体分为若干个一级抽样单位,从中抽选若干个一级抽样单位入样;
第二阶段,将入样的每个一级单位分成若干个二级抽样单位,从入样的每个一级单位中各抽选若干个二级抽样单位入样;
依此类推,直到获得最终样本。
如果在被抽中的二阶单元中,再抽取部分三阶单元组成样本,并对抽中的三阶单元进行全面的调研,这就是三阶抽样。类似地,可以定义四阶抽样或更高阶的抽样。通常将两阶以上的抽样称为多阶段抽样。如为了掌握全国农业科技推广情况,先抽取四个省份进行调研,每个省调研的对象又包括四个层次:省级部门、县级部门、乡镇层次和农民。
2.非随机抽样
又称为非概率抽样,是指在抽样时不遵循随机原则,而是按照研究人员的主观经验或其他条件来抽取样本的一种抽样方法。非随机抽样中,总体的任何特定成员被选为样本的概率是未知的。非随机抽样的效果好坏依赖于抽样者的主观判断能力和经验,无法计算和控制抽样误差以及用样本的量化数据来推断总体。非随机抽样技术又包括任意抽样、判断抽样、配额抽样和滚雪球抽样四种。
3-5 视频:非随机抽样方法
(1)任意抽样。也称便利抽样或偶遇抽样,是指通过获取最方便的人或单位而进行的抽样,是一种随意选取样本的方法。样本的选择只考虑到接近样本或衡量便利,通常没有严格的抽样标准。典型的形式是拦截式调研,如调研人员在街头、公园、商店等公共场所进行拦截调研,企业在出售产品的柜台前对路过顾客进行调研等。
调研人员通常会使用便利样本,迅速而经济地获得大量完成了的问卷,如网络调研。任意抽样的优点是容易实施,调研的成本低;缺点是样本单位的确定带有偶然性,无法代表有明确定义的总体,调研结果无法根据样本信息对总体进行数量特征的推断,样本不适合描述性研究和因果关系研究。当以后用概率抽样来进行另外的调研时,任意抽样就可以很好地运用于探索性研究。
(2)判断抽样。又称为目的性抽样,是一种凭研究人员的主观意愿、经验和知识,从总体中选择具有典型意义和代表性的样本点构成样本作为调研客体的一种非随机抽样方法。一般是在总体构成极不相同且样本数很小的时候采用,而且调研人员必须对总体有关特征非常了解,选择“平均型”“众数型”“特殊型”单元作为样本。
判断抽样具有挑选样本简便及时的特点,在精确度要求不是很高的情况下,企业为了迅速获得解决日常经营决策问题的客观依据资料,常常使用判断抽样的方法。例如服装生产企业经常会选择一个关键客户的样本,获取预测春季服装销售趋势所需要的信息。但是由于判断抽样的估计精度严重依赖于研究者对调研对象的了解程度、判断水平和对结果的解释情况,所以,一般不轻易地用于对总体进行数量方面的判断。
(3)配额抽样。又称定额抽样,是在对总体做若干分类和样本容量既定的情况下,按照配额从总体各部分中抽取调研单位。具体步骤为:先根据调研总体中的某些属性特征将总体划分成若干类型,再按照分类控制特性将各类总体分成若干子体,依据各子体在总体中的比重分配样本数额,然后由抽样者用任意抽样或判断抽样方法选取样本单位。配额抽样的目的是确保总体的各个子群体可以充分表现出研究人员需要的相关属性。
配额抽样的分类依据通常是总体单元的某些属性、特征,如被调查者的年龄、性别、社会阶层等。这种方法的优势是简单易行,可以保证总体的各个类别都能包括在所抽样本之中,使得样本的结构和总体的结构类似;同时具有数据收集的高速度、低成本和便利性等优点。但因为在配额抽样中抽样者有极大自由去选择样本个体,所以这种抽样方法很容易因调研偏好和方便而丧失精确度。
配额抽样又分为独立控制配额抽样和交叉控制配额抽样。
①独立控制配额抽样是根据调研总体的不同特性,对具有某个特性的调研样本分别规定单独分配数额(表3-3)。其优点是方法简单易行,调研人员选择余地较大;缺点是调研人员可能图一时方便,选择样本过于偏向某一组别,从而影响样本的代表性。
表3-3 独立控制配额抽样举例
②交叉控制配额抽样是根据调研对象的各个特性进行样本数额交叉分配(见表3-4)。由于各个特性都同时得到了控制,从而克服了独立控制配额抽样的缺点,提高了样本的代表性。
表3-4 交叉控制配额抽样举例
(4)滚雪球抽样。滚雪球抽样是一种抽样程序,以“滚雪球”的方式抽取样本,最初的应答者是通过概率方法进行选择的,而另外的应答者是通过最初应答者所提供的信息而获得的。一般是先利用随机方法或社会调研选出原始受访者,然后再根据原始受访者提供的信息去获取其他受访者。
这种抽样方法的优点是便于有针对性地找到被调查者,调研的成本也比较低;缺点是要求样本单元之间必须有一定的联系并且愿意保持和提供这种联系。采用这种抽样方法主要是因为有些总体很难寻找或十分稀少。适用于抽样架构不存在的时候,尤其用于产业调研方面,更为有效。
3.1.5 抽样误差及其计算
3-6 视频:抽样误差及其计算
思考题 抽样误差有哪些类型?如何计算?
1.抽样误差的类型
只要存在调研就一定有误差,误差不可能完全避免。抽样调研引起的误差一般有两大类:技术性误差和代表性误差(见图3-3)。
图3-3 抽样调研误差的分类
(1)技术性误差。又称为登记性误差、非抽样误差,是指由调研工作登记、汇总、计算时的差错所引起的调研结果与实际结果之间的差别。这种误差不是由抽样引起的,是可以尽量加以克服或避免的,在全面普查中也存在,主要表现为:
①调研误差:调研所得数据与样本单元的真值不一致所造成的误差。其原因包括测量误差、失真回答等;
②不完整的抽样框误差:抽样框的重复和遗漏;
③不回答误差(无相应误差):抽中的样本单元找不到或者拒绝回答问题或缺失所需要的信息;
④填写录入误差。
(2)代表性误差。也称抽样误差,指由于样本结构与总体结构不一致,以样本综合指标推断总体综合指标所产生的误差。其根源在于样本的随机性,使得样本指标值和总体真实值之间存在差异。这种误差通常是不可避免的。它又可以分为系统性误差和抽样误差。
①系统性误差,又称为偏差,是指在随机抽样中调研人员(有意识地)破坏了随机原则进行抽样,由此形成的样本指标与总体指标之间的差别。在抽样调研中,通常所说的抽样误差是不包括偏差的。
②抽样误差,通常也叫作随机误差,是指在随机抽样中按随机原则从总体中抽取一部分单位构成样本,并计算出有关样本指标(如样本平均数或成数),再通过样本指标去推断总体有关指标(如总体平均数或成数)时两者之间存在的差别。简而言之,抽样误差就是样本指标值与被推断的总体指标值之差。只要是抽样调研,这个误差就不可避免,因为部分单位与全部单位的数量特征通常是不可能完全一致的。但是抽样误差能够计量和控制,可用各种量值表示,通常样本量愈大,则抽样误差愈小。如对某校大学生随机抽取100人进行身高调研,得知这100人的平均身高为169厘米;又知该校全部大学生的平均身高为168厘米,两者之间相差1厘米,这就是抽样实际误差。抽样实际误差实际上是未知的,因为总体指标通常是未知的;如果总体指标已知,也就没有必要进行抽样调研了。
一般情况下,技术性误差和系统性误差都可以力求避免,而抽样误差却是不可避免的,在抽样调研中无法消除,只能加以控制。实际上,抽样误差带有偶然性,即使同一总体用同一抽样方式抽取同一数量的样本单位,也可能有若干种不同的组合,而每一样本的调研结果是不可能完全相同的。抽样误差越大,样本可能代表总体的真实性越小;反之,抽样误差越小,样本可能代表总体的真实性越大。
2.抽样误差的影响因素
(1)总体各单位标志值的变异程度。在其他条件不变的情况下,总体标志的变异程度越小,抽样误差越小;总体标志的变异程度越大,抽样误差越大。抽样误差和总体标志的变异程度成正比。因为总体的变异程度小,表示总体各单位标志值之间的差异小,则样本指标与总体指标之间的差异也可能小;如果总体各单位标志值相等,则标志变动度为零,样本指标等于总体指标,此时不存在抽样误差。
(2)抽样单位的数目。在其他条件不变的情况下,抽样单位的数目越多,抽样误差越小;抽样单位的数目越少,抽样误差越大。因为随着样本数目的增多,样本结构越接近总体,抽样调研也就越接近全面调研;当样本扩大到总体时,则为全面调研,也就不存在抽样误差了。
③抽样方法的选择。重复抽样和不重复抽样的抽样误差的大小不同。采用不重复抽样的抽样误差比采用重复抽样小。
④抽样组织方式不同。采用不同的组织方式,会有不同的抽样误差,因为不同的抽样组织所抽中的样本对于总体的代表性也不同。通常,我们不利用不同的抽样误差做出判断各种抽样组织方式的比较标准。
3.抽样平均误差计算
3-7 拓展知识:成数和平均数
(1)抽样平均误差的概念。它是指所有可能的样本的指标与总体指标之间的平均误差(标准差),是样本指标同总体指标的误差加以平均,可以反映出抽样误差的一般水平。它反映了样本代表性的大小,通常用μ来表示。
抽样平均数的平均数等于总体平均数,抽样成数的平均数等于总体成数,因而抽样平均数(或抽样成数)的标准差实际上反映了抽样平均数(或抽样成数)与总体平均数(或总体成数)的平均差异程度。
(2)抽样平均误差的计算。根据抽样平均误差的定义,当总体为N,样本容量为n时,其平均数与成数的抽样平均误差计算公式如表3-5所示。
表3-5 平均数与成数的抽样平均误差计算公式
关于公式的几点说明:
①修正系数的处理问题:当N较大时,可用代替,所以不重复抽样的误差就变成了:μx=,μp=。
②重复抽样与不重复抽样误差的关系问题:在其他条件相同的情况下,不重复抽样的误差比重复抽样的误差小。
4.抽样估计
(1)允许抽样误差。允许抽样误差是根据概率理论,以一定的可靠程度保证抽样误差不超过某一给定的范围,即以样本推断总体时,允许有多大范围的抽样误差,也称作极限抽样误差,通常用Δ表示。实际问题中,估计量的精度通常采用允许抽样误差来表示或要求。
允许抽样误差与平均数(或成数)抽样误差之间的关系,与估计量的分布有关:
Δx=tμx或Δp=tμp
其中,t代表概率度,F(t)是指抽样估计的可靠性,即把握程度。概率F(t)随概率度t的变化而变化,故概率是概率度的函数。为了便于实际使用,通常可按事先编制好的正态分布概率表来根据要求的把握程度F(t)查找出相应的t值(见表3-6)。
表3-6 允许误差范围与把握程度对照
(2)抽样估计。抽样估计是指利用实际调研计算的样本指标数值来估计相应的总体指标数值。抽样估计的方法分为点估计和区间估计两种。
①点估计。又称定值估计,是指不考虑抽样误差而直接以样本指标代替总体指标,也就是直接以抽样平均数或抽样成数代替总体平均数或总体成数。用公式表示为:
[例] 从某班全部同学中抽出10人进行调研,得知其平均身高为170cm,男生占60%。则在点估计条件下,可以说该班全部学生的平均身高为170cm,男生所占比重为60%。
点估计的优点是直观、简单、方便,缺点是没有考虑估计的误差问题及估计的可靠性。
②区间估计。区间估计的理论依据是抽样分布理论。区间估计是根据样本指标确定总体指标的置信区间和置信度,用概率表示总体参数可能落在某数值区间之内的推算方法。它利用抽样所得的样本平均数(或成数p),确定估计的上限和估计的下限(上限和下限之间的范围称为置信区间),而落在这个范围的可靠程度叫作置信度t(一个百分比或者小数值,说明了结果正确的长期概率)。
平均数的区间估计公式:-Δx≤≤+Δx
成数的区间估计公式:p-Δp≤P≤p+Δp
[例] 某大学有4500名学生。现采用不重复简单随机抽样方式从中随机抽取10%的学生,调研其每月生活费用支出情况。抽样结果显示:学生平均每人每月生活费用支出350元,标准差80元,生活费用支出在500元以上的学生占20%。要求在95.45%的概率保证下估计全部学生月平均生活费用支出的可能范围,以及月生活费用在500元以上的学生所占比重的可能范围。
解:
已知:N=4500, n=4500×10%=450,=350, S=80, p=20%,则:
又知F(t)=95.45%,故查表得t=2,
则:Δx=2×3.58=7.16(元)。
故,全部学生月平均生活费用的可能范围为:
350-7.16≤≤350+7.16,即在342.84至357.16之间。
全部学生中月生活费用在500元以上的学生所占比重的可能范围为:
20%-3.58%≤P≤20%+3.58%,即在16.42%至23.58%之间。
3.1.6 样本容量的确定
3-8 视频:样本容量的确定
当研究人员在制定抽样方案时,首先要确定样本容量(又称为样本规模、样本数),即确定调研样本中所包含的被调研者数量。因为适当的样本单位数目是保证样本指标具有充分代表性的基本前提,因此,在抽样设计时,必须决定样本单位数目。每一种概率抽样的方法都有各自的确定样本规模的公式,样本的规模大小受多种因素影响。
1.样本容量的影响因素
(1)总体的数目。一般情况下,总体的数目越大,样本的数目也应越大。
(2)抽样总体的特性。如果抽样总体不规则且分成若干较小子群体,则需要较多的样本,以求抽样准确度。
(3)调研结果所要求的精准度。精度愈高,样本数愈多;对置信度的要求越高,则样本规模越大(见表3-7)。如果对误差的容忍度高、对精确性的要求低,那么样本规模可以小一些;反之,就要增加样本规模来降低抽样误差。
表3-7 简单随机抽样所需要的最小样本量
(4)受资源等限制。最佳抽样数量,应是样本数足以产生准确的资料,又不超过调研预算。一个研究项目所能支配的资源是有限的,在很多时候,研究人员也要受项目经费、精力、时间等限制,出于可行性考虑,需要缩小样本规模。
3-9 拓展知识:数据饱和
2.样本容量计算
在抽样调研之前,调研人员通常要根据调研对象的特点和研究目的,提出以下两条主要要求:第一,规定误差范围Δ的值,即抽样调研的误差范围或允许误差不得大于多少;第二,规定概率度t的值,即抽样推断的结果要有多大的保证(可靠)程度。必要样本单位数是指满足调查目的要求的情况下,至少需要选择的样本单位数。由此可见,必要抽样数目的计算公式,是按以下步骤推导出来的:
两边平方并移项,得:
[例] 假定某乡有农户18000户,在某次抽样调研中拟采用重复的纯随机抽样方式。现要求人均收入的允许误差控制在150元之内,保证概率为95.45%,则应抽多少户进行调研?如果要求允许误差控制在75之内,则至少应抽多少户进行调研?(注:根据以往调研知全乡人均收入的标准差为1500元)
解:(1)当允许误差≤150元时,有:
(2)当允许误差≤75元时,有:
可见,在重复抽样中,允许误差缩小一半(即为原来的1/2)时,必须把样本容量增大到原来的4倍。