教学目的和要求:在于从总体上对统计学提供基本的认识,通过本章的学习,要求了解社会经济统计学的学科性质、研究对象和统计研究的基本方法,重点掌握统计学的基本概念。了解统计学的性质、特点、作用、任务、工作环节;熟悉统计学中的基本概念:统计总体、总体单位、标志、变量、统计指标和指标体系等,及其相互之间的区别和联系
教学重点:本章是全课程的总纲,主要讲述统计学的对象和方法、统计的作用和统计学的基本概念,难点是统计学概念的理解和运用以及概念之间的相互关系。
教学难点:统计学的几个基本概念 教学手段:讲授,提问 教学时量:3课时
第1节 统计学的产生和发展
阅读下面的资料,你能说出什么是统计吗?你能否体会到统计已是人们在社会经济生活中必不可少的工具,是人们认识世界、探索现象数量差异的本质极其规律的方法,是人们进行明智决策的一门艺术,随着人类社会进入信息时代,统计作为一种方法和工具就变得越来越重要。 请思考:下列资料中“统计”一词的含义是什么? (1) 小王是学统计的 (2) 他已搞了几十年统计了
(3) 据统计,今年一季度物价指数出现负增长 (4) 请找统计登记一下 (5) 请统计一下今天的销售量 一、统计的概念
在日常生活中,我们经常会接触到“统计”这一术语。一提到统计,很多人可能首先想到的是统计工作,这种理解是不全面的。统计作为一种社会实践活动,已有悠久的历史,可以说,自从有了国家就有了统计实践活动。最初,统计只是一种计数活动,为统治者管理国家的需要而搜集资料,通过统计计数以弄清国家的人力、物力和财力,作为国家管理的依据。然而在今天,“统计”一词已被人
1
们赋予多种含义,在不同的场合、不同的语言环境中已有许多种不同的解释。
那么,把统计作为一种专业用语,其含义到底是什么?目前,在国际统计理论界,关于统计一词的含义比较趋于一致的解释为:统计包含统计工作、统计资料和统计学三个方面的含义。
一是统计工作,即统计实践,是对社会经济现象客观存在的现实数量方面进行搜集、整理和分析预测等活动的总称。一个完整的统计工作过程一般包括统计设计、统计调查、统计整理、统计分析等环节。
【案例1】银行的计划统计科,每月编制项目报表,这个过程就是统计工作。 【案例2】我国进行人口普查时要经过方案设计、入户登记、数据汇总、分析总结和资料公布等一系列过程都是统计工作。
二是统计资料(统计信息):统计工作过程中所取得的各项数字资料和与之相关的其他实际资料的总称。如:
(1) 我国国土面积960万平方公顷,其中山地约320万平方公顷,高原约250万平方公顷,平原约115万平方公顷,丘陵约95万平方公顷。
(2) 2003年我国全年全部工业增加值53612亿元,比上年增长12.6%,其中规模以上工业企业(即国有工业企业及年产品销售收入500万元以上的非国有工业企业)增加值增长 17.0%。工业产品销售率98.1%,比上年提高0.1个百分点。
这些由文字和数字共同组成的数字化的信息就是统计资料,是统计提供数据信息的基本表现形式,是统计工作的直接成果。
统计资料包括原始资料和整理后的资料即次级资料。例如企业各车间的统计抬帐、人口普查时初次登记的资料就是原始资料,而统计公报、调查分析报告等现实和历史资料就是次级资料。统计资料的表现形式有统计表、统计图、统计分析报告、统计公报和统计年鉴等。
三是统计学,是系统论述统计理论和方法的科学,是长期统计工作实践的经验总结和理论概括。其中,应用纯逻辑推理的方法研究抽象的随机现象的数量规律性的科学称为理论统计学,而应用统计方法研究各领域客观现象的数量规律性的科学称为应用统计学。社会经济统计学则是关于国民经济和社会现象数量方面的调查、整理和分析的原理、原则和方式方法的科学,按其性质它属于应用统计学。
2
二、社会经济统计学的研究对象
统计学的研究对象是指统计研究所要认识的客体。只有明确了研究对象,才可能根据它的性质特点指出相应的研究方法,达到认识对象客体规律性的目的。由统计学的发展史可知,统计学是从研究社会经济现象的数量开始的,随着统计方法的不断完善,统计学得以不断发展。因此,统计学的研究对象为大量现象的数量方面。而社会经济统计学的研究对象是在质和量的辩证统一过程中,研究大量社会经济现象总体的数量方面。
所谓数量方面是指现象总体的数量特征、数量关系及数量界限,通过对这些数量方面的研究,表明所研究现象的规模、水平、速度、比例和效益等,以反映社会经济现象发展变化的规律性,反映现象的本质。统计学和统计工作是理论和实践的关系,它们所要认识的研究对象是一致的。
社会经济现象包括自然现象以外的社会的政治、经济、文化、人民生活等领域的各种现象。比如,国民财富与资产、人口与劳动力资源、生产与消费、财政与金融、教育与科技发展状况、城乡人民物质文化生活水平等。通过对这些基本的社会经济现象的数量方面的认识,达到对整个社会的基本认识。
社会经济统计学虽然不研究自然现象与科学技术本身,但是社会、经济和自然、技术总是密切联系,相互影响的。社会经济统计学也研究自然技术因素对社会生活变化的影响,研究社会生产发展对社会生活自然条件的影响。例如,研究资源条件和技术条件的变化对于社会生产生活的影响程度,研究社会生产的发展引起自然条件的变化等等。
下面举例说明如何根据统计数据说明社会经济现象的数量特征、数量关系及数量界限。
【案例】 我国历次人口普查的总人口情况。
表1-1 我国历次人口普查的总人口情况 时间 1953年7月1日 19年7月1日 1982年7月1日 1990年7月1日 2000年11月1日
总人口(亿人)
5.82 6.95 10.08 11.34 12.66
3
表1-1描述的统计数据,反映了不同时间我国总人口的规模,显示了我国人口基数过大、人口增长速度过快的基本国情,所以控制人口增长、提高人口素质,就成了我国20世纪70年代以来的一项基本国策。
[例2] 2002年,我国接待人境旅游者达到9791万人次,比上年增长10%。旅游业总收人5566亿元人民币,比上年增长11.4%,其中国际旅游收人1688亿元人民币,增长14.6%,国内旅游收人3878亿元人民币,增长10.1%。2003年,我国旅游业虽然受到非典疫情的严重影响,但全年人境旅游者仍达到9166万人次。这些统计数据具体地描述了我国旅游业的发展势头,说明我国旅游业作为国民经济新的增长点,正在进人全面加速发展期,发展势头非常强劲。
[例3] 2003年,全年全国城镇居民人均可支配收入8472元,扣除物价上涨因素,实际增长9.0%;农村居民人均纯收入2622元,实际增长4.3%。居民家庭恩格尔系数(即居民家庭食品消费支出占家庭消费总支出的比重),城市为37.1%,比上年降低0.6个百分点;农村为45.6%,降低0.6个百分点。年末全国私人轿车拥有量已达4万辆,比上年末增加146万辆。这些统计数据充分说明我国居民生活继续改善和提高。
从以上例子中可以看到,利用各种统计数据说明社会经济现象的发展状况,发扬成绩,揭露矛盾,预测未来,不仅生动形象,而且具有较强的说服力。所以在我们国家,各行各业都离不开统计。要用好统计,便要学习统计。
请思考:降雨量是否属于社会经济现象?降雨量与农作物的产量有关,风调雨顺的时候,农作物的产量是否一定就高?为什么?农作物的产量受降雨童的影响,又是否属于社会经济现象呢?
第2节 统计调查方案
统计调查是一项复杂的,严格的科学工作,必须有目的、有计划、有组织地进行,因此,在每项调查进行之前都应该制订一个周密的调查方案,而且正确地制定统计调查方案是保证统计调查有计划、有组织进行的首要步骤,是保证统计调查顺利进行的前提,也是准确、及时取得统计资料的重要条件。
(一)统计调查的目的
统计调查的目的就是根据党的方针和当前的政治经济任务以及有关国情国力的基本情况, 抓住实际上最为迫切的问题,从统计工作的整体出发,从调查对象的实际出发,把需要和可能结合起来。调查的目的决定了调查的内容和范
4
围。
(二)调查对象和调查单位
调查对象就是需要进行调查的那些社会经济现象的总体,它是由性质上相同的许多调查单位组成的。
调查单位是组成所要调查的社会经济现象总体的个体,也就是在调查的对象中所要调查的具体单位。
确定了调查对象使我们知道要了解的总体界限,而确定了调查单位,则使我们知道从哪里去取得有关标志的情况和资料,即解决了向谁调查和由谁来提供统计资料的问题。
明确调查单位还需要把它与报告单位相区别。报告单位也称填报单位,它是负责向上报告调查内容,提交统计资料的单位。报告单位一般在行政上、经济上具有一定性的单位,而调查单位可以是人、企事业单位,也可以是物。根据调查目的,调查单位与报告单位有时一致,有时不一致。如工业企业普查,每个工业企业既是调查单位又是报告单位,而工业企业生产设备状况的普查,调查单位是工业企业的每台生产设备,而报告单位是每个工业企业。
(三)调查项目和调查表
调查项目就是调查中所要登记的调查单位的特征,这些特征统计上又称标志。确定调查项目所要解决的问题是:向调查单位调查什么?反映调查单位特征的标志是多种多样的, 在调查中确定哪些调查项目,应根据调查目的和调查单位的特点而定。
在统计调查中还必须设制调查表,所谓调查表就是根据调查目的所确定的具体调查项目,也就是统计调查所研究的内容,调查表所要解决的问题是:向调查单位调查什么?
调查表是调查方案的核心部分,必须紧紧围绕调查目的,现象之间的相互联系,从现象的过去、现在和发展等方面出发,提出所要调查的项目,拟定调查表。
调查表一般由表头、表体和表脚组成。
表头:用来表明调查表的名称以及填写调查单位的名称、性质、隶属关系等。 表体:这是调查表的主要部分,包括统计调查所要说明的社会经济现象的项目和这些项目的具体表现亦即数字,计算单位等。
表脚:包括调查者的签名和调查日期等,以便明确责任,若发现问题,便于查询。
5
调查表的形式一般有两种:单一表和一览表。
单一表:是在一张表上只登记一个调查单位的调查资料,它可以容纳较多的调查项目,适于较详细的统计调查。
一览表:是在一张表上登记若干个调查单位的调查资料,它的调查项目不易过多,这种表的使用节省人力、物力,而且一目了然。
(四)确定调查的时间和方法
调查时间包括三个方法的涵义:①调查资料所属的时间,如果所调查的是时期现象,就要明确规定反映的调查对象从何年何月何日起到何年何月何日止的资料;如果所要调查的是时点现象,就要明确规定统一的标准时点。②调查工作进行的时间,即指对调查单位的标志进行登记的时间。③调查期限,即整个调查工作的期限,包括搜集资料及报送资料的整个工作所需要的时间。为了保证资料及时性,对调查期限的规定,要尽可能短。
调查方法,包括调查的组织形式和搜集资料的具体方法的选择。 (五)制定调查工作的组织实施计划
为了保证整个统计调查工作顺利进行,在调查方案中还应该有一个考虑周密的组织实施计划。其主要内容应包括:调查工作的领导机构和办事机构;调查人员的组织;调查资料报送方法;调查前的准备工作,包括宣传教育、干部培训、调查文件的准备,调查经费的预算和开支办法;调查方案的传达布置、试点及其他工作等。
第3节 统计调查的组织形式
一、统计报表
统计报表是按照国家统一规定的表格形式、统一规定的指标内容,统一规定的报送程序和报送时间,由填报单位自下而上逐级提供统计资料的一种统计调查方式。
国家利用统计报表定期地取得全社会的国民经济与社会发展情况的基本统计资料,是国家取得调查资料的主要方法之一。它已形成一种制度即统计报表制度。执行统计报表制度,是各地区、各部门、各基层单位必须向国家履行的一种义务。
统计报表制度的内容包括以下几个方面:
(1)表式。它是由国家统计部门根据研究的任务与目的而专门设计制定的
6
统计报表表格,用于搜集统计资料。它是统计报表制度的主体。
(2)填表说明。它是对统计报表的统计范围、指标等作出的规定,具体有: 填报范围:即统计报表的范围,规定每种统计报表的报告单位和填报单位,各级统计部门与主管部门的范围等。
指标解释:对列入表的统计指标的口径,计算方法以及其它有关问题的具体说明。
分类目标:有关统计报表主栏中应进行填报的有关项目的分类。
其他有关事项的规定:除了以上各项规定以外的一些注意事项,如:报送日期,报送方式,报送分数等。
统计报表的资料来源,主要是基层的原始记录、台帐及基层的内部报表。 二、专门调查 1.普查
普查是专门组织的一次性的全面调查,用来调查属于一定时点上或一定时期内的社会经济现象总量。它适于搜集某些不能够或不适宜于定期的全面统计报表搜集的统计资料,以摸清重大的国情、国力。例如,我国第四次人口普查,第三产业普查,等等。
普查可以摸清一个国家的国情、国力,特别是可以了解与掌握人力、物力、资源状况及其利用状况,为国家制定长远规划与提供可靠的依据。因此,普查具有资料包括的范围全面、详尽、系统的优点,但是普查的工作量大,耗资也多,一般不宜经常使用。
2.重点调查
重点调查是在调查对象中选择一部分重点单位进行调查的一种非全面调查。重点单位是它们的标志总量在总体总量中占据绝大比量。因此,当调查的任务只要求掌握事物的基本状况与基本的发展趋势,而不要求掌握全面的准确资料,而且在总体中确实存在着重点单位时,进行重点调查是比较适宜的。例如,为了掌握全国钢铁产量,可以选出鞍钢、宝钢、武钢、包钢、首钢、攀钢、马钢等几个大型钢铁企业调查。
重点调查的组织形式有两种:一种是专门组织的一次性调查;另一种是利用定期统计报表经常性地对一些重点单位调查。
3.典型调查
典型调查是一种非全面调查,它是根据调查的目的与要求,在对被调查对象
7
进行全面了解的基础上,有意识地选择若干具有典型意义的或有代表性的单位进行的调查。
典型调查具有灵活机动、通过少数典型即可取得深入、详实的统计资料的优点。但是,这种调查由于受“有意识地选出若干有代表性”的,在很大程度上受人们主观认识的影响。因此,必须同其他调查方法结合起来使用,才能避免出现片面性。
4.抽样调查
抽样调查是一种非全面调查,它是按照随机原则从总体中抽取一部分单位作为样本进行观察研究,以抽样样本的指标去推算总体指标的一种调查。抽样调查同其他调查比较,既能节省人力、物力、财力,又可以提高资料的时效性,而且能取得比较准确的全面统计资料。因此, 这种调查方法在市场经济条件下,使用非常广泛。详细内容,将在抽样调查一章中介绍。
三、统计调查的种类
1.按调查对象包括的范围划分为全面调查和非全面调查 ①全面调查:构成总体的所有单位的调查。如:普查。
②非全面调查:构成总体的一部分单位的调查。如典型调查、重点调查、抽样调查。
2.按统计调查的组织形式划分为统计报表和专门调查
①统计报表:按照一定的表式和要求,自上而下的统一布置,自下而上的提供统计资料的一种定期的调查方式。如:农业统计报表制度,工业统计报表制度。
②专门调查:为研究某些专门问题而由调查单位组织的多属一次性调查。如:普查,抽样调查,典型调查。
3.按调查登记的时间是否连续划分为经常性调查和一次性调查
①经常性调查:随着现象的不断变化而连续不断地进行登记。如:产品产量,原材料消耗量等。其数值变动很大。
②一次性调查:间隔一定时间(一般为一年以上)对现象进行调查登记。如:人口数,固定资产总值,生产设备数等。其数值变动不大。
4.按搜集资料的方式划分为直接观察法,采访法,报告法,问卷调查法 ①直接观察法:调查人员亲自到现场对调查对象进行观察计量取得资料。一般资料准确,但人力多、时间长。
②采访法:调查人员对被调查者提问,据被调查者的答复取得资料,又分为
8
个别询问法和开调查会法。资料准确全面,但需人多。
③报告法:调查单位按隶属关系,逐级向国家报告经济社会活动成果的搜集资料的方法。取得资料快,节省人力、物力。
④问卷调查法:问卷调查法是为特定目的,以问卷形式提问,发给被调查者,由被调查者自愿自由回答的一种采集资料的方法。
【练习】课后习题
9
第1章 绪 论
教学目的和要求:理解数据的分类,掌握统计学几个概念。 教学重点和难点:总体和样本、统计量和参数、变量 教学手段:讲授、提问、案例 教学时量:3课时
一、数据的分类
统计数据是对现象进行测量的结果。比如,对经济活动总量进行测量可以得到国内生产总值的数据,对人口性别进行测量可以得到男性或女性的相关数据,等等。由于使用测量尺度不同,统计数据可以分为不同的类型。下面从不同角度说明统计数据的分类。
(一)按计量尺度分
• 分类数据(categorical data)
只能归于某一类别的非数字型数据对事物进行分类的结果,数据表现为类别,用文字来表述。例如,人口按性别分为男、女两类。
• 顺序数据(rank data)
只能归于某一有序类别的非数字型数据对事物类别顺序的测度,数据表现为类别,用文字来表述。例如,产品分为一等品、二等品、三等品、次品等
• 数值型数据(metric data)
按数字尺度测量的观察值结果表现为具体的数值,对事物的精确测度。 例如:身高为175cm、168cm、183cm (二)按收集方法分
• 观测的数据(observational data)
通过调查或观测而收集到的数据在没有对事物人为控制的条件下而得到的有关社会经济现象的统计数据几乎都是观测数据
• 实验的数据(experimental data)
在实验中控制实验对象而收集到的数据。比如,对一种新药疗效的实验,对一种新的农作物品种的实验等自然科学领域的数据大多数都为实验数据。
(三)按时间状况分
• 截面数据(cross-sectional data)
在相同或近似相同的时间点上收集的数据描述现象在某一时刻的变化情
10
况。比如,2005年我国各地区的国内生产总值数据
• 时间序列数据(time series data)
在不同时间上收集到的数据描述现象随时间变化的情况。比如,2000年至2005年国内生产总值数据
二、统计中几个基本概念
统计学中的概念很多,为了叙述方便,有利于以后各章学习,本节先集中介绍几个常用的贯穿于全书的基本概念。
(一)统计总体、总体单位和样本
根据一定的目的和要求,统计需要研究有关的统计总体。所谓统计总体,是由客观存在的、具有某种共同性质又有差别的许多个别单位所构成的整体,当这个整体作为统计研究对象时称统计总体,简称总体。
【案例】研究某个工业部门的企业生产情况时,该部门的所有工业企业可以作为一个总体,因为它是由许多客观存在的工业企业组成的,而每个工业企业都是进行工业生产活动的基层单位,具有同质性。
1.如果一个统计总体中包括的单位数是无限的,称为无限总体。
例如,连续大量生产某种零件时,其总产量是无限的,构成一个无限总体。2.总体中包括的单位数是有限的,称为有限总体。
例如,在特定时点上的人口总数、工业企业总数等等,都是有限总体。综上所述,可见总体和总体范围的确定、取决于统计研究的目的要求。而形成统计总体的必要条件,亦即总体必须具备三个特性:大量性、同质性和变异性。
请思考:要研究某银行职工的工资情况,其统计总体是什么?
构成总体的每一个事物或基本单位称为总体单位。原始资料最初就是从各个总体单位取得的,所以总体单位是各项统计数字最原始的承担者。
【案例】研究某个工业部门的生产情况时,该工业部门的所有工业企业可以作为一个总体,每个工业企业则是总体单位,将每个工业企业的某些数量特征加以登记汇总,就取得该工业部门的统计资料。
总体和总体单位是相对而言的,在一次特定范围、目的的统计研究中,统计总体与总体单位是不容混淆的,二者的含义是确切的,是包含与被包含的关系。但是随着统计研究目的及范围的变化,统计总体和总体单位可以相互转化。同一事物在不同情况下,可以作为总体,也可以作为总体单位。
请思考:总体和总体单位可以指单位也可以指人,请问可以指物吗?举例说明。
11
总结:总体(population)
所研究的全部个体(数据) 的集合,其中的每一个个体也称为元素。 分为有限总体和无限总体。有限总体的范围能够明确确定,且元素的数目是有限的,无限总体所包括的元素是无限的,不可数的。
• 样本 (sample)
从总体中抽取的一部分元素的集合构成样本的元素的数目称为样本容量或样本量 (sample size) 二、参数和统计量
• 参数(parameter)
描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值。
所关心的参数主要有总体均值(
)、标准差(
)、总体比例(
)等,总体参
数通常用希腊字母表示。
• 统计量(statistic)
用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等样本统计量通常用小写英文字母来表示 三、变量
可变的数量标志称为变量,各种统计指标也是变量。变量的具体表现,就是可变数量标志或统计指标的不同取值,称为变量值(亦即标志值)。一个变量可以取多个变量值,二者不能混淆。例如,工资这个变量,可具体表现为840元、780元、900元、680元等多个变量值。
按照变量值的连续性不同,变量可以分为连续变量和离散变量。前者是指它的数值是连续不断的,即在任意两个相邻数值之间可以取无限多个不同的数值。例如,人体的身高、体重等都是连续变量。连续变量的数值是通过测量或计算方法取得的,既可用小数表示,也可用整数表示;离散变量的数值是通过逐个计数的方法得出的,变量值只能以整数断开,而不能表现为小数的。例如,职工人数、企业数、机 器台数等都是离散变量,其可能数值的个数是有限的,构成有限总体。
请思考:人的年龄是连续变量还是离散变量?为什么? 四、课后习题
12
第2章 数据的图表展示
教学目的和要求:本章主要讲授统计资料的整理的方法及技术和统计表。 教学重点和难点:统计资料的整理技术。 教学手段:案例讲授、讨论 教学时量:3课时
一、统计资料整理的概念和意义
统计资料整理是根据统计研究的任务与要求,对调查得来的各种原始资料,进行科学的整理与加工,使之系统化,从而得出反映总体特征的综合资料,包括系统地积累资料与为研究特定问题对资料的再加工。
统计调查取得的原始资料是分散的、杂乱的、不系统的,只能表明各个被调查单位的具体情况,反映事物的表面现象或一个侧面,不能说明事物的全貌、总体情况。因此,只有对这些资料进行加工整理才能认识事物的总体及其内部联系。
统计资料整理,是统计调查的继续,也是统计分析的前提,在整个统计工作中具有承前启后的作用。 二、数据的预处理
统计资料整理是一项细致周密的工作,需要有计划、有组织的进行,因此,进行统计资料整理必须按以下步骤进行。
1.设计和编制统计资料的汇总方案。 2.对原始资料进行审核。
为了保证统计资料的质量,在统计资料进行整理前,应该对统计调查材料的准确性、及时性、完整性进行严格的审核,看它们是否达到准确、及时、完整,若发现问题及时纠正。汇总后须对其结果进行逻辑检查和技术性检查。
3.用一定的组织形式和方法对原始资料进行分组、汇总和计算。
主要根据汇总的要求和工作条件选择适当的汇总组织形式和具体方法对原始资料进行整理、加工,以达到我们的目的。
4.对整理好的资料再一次进行审核,改正在汇总过程中所发生的各种差错。 5.编制统计表,以简明扼要地表达社会经济现象在数量方面的有关联系。 6.统计资料的保管与积累。
13
三、统计分组 1、统计分组的意义
根据统计研究任务的要求和研究现象总体的内在特点,把现象总体按某一标志划分为若干性质不同但又有联系的几个部分称统计分组。
总体的变异性是统计分组的客观依据。统计分组是总体内进行的一种定性分类,它把总体划分为一个个性质不同的范围更小的总体。 2、统计分组的种类
①统计分组按其任务和作用不同,分为类型分组、结构分组和分析分组。类型分组的目的是划分经济类型,结构分类的目的是研究同质总体的构成,分析分组的目的是研究现象总体内部诸标志间的依从和制约关系。
②统计分组按分组标志的多少分为简单分组和复合分组。简单分组是将总体按一个标志进行分组,复合分组是将总体按两个或两个以上的标志重叠起来进行分组。
③统计分组按分组标志的性质分为品质分组和变量分组。品质分组是将总体按品质标志进行分组,如企业按经济成份、地理位置分组,职工按性别、文化程度分组等;变量分组是将总体按数量标志进行分组,如企业按职工人数、劳动生产率分组,职工按工龄、工资分组等。 3、统计分组的方法 (1)品质标志分组方法
品质标志分组一般较简单,分组标志一旦确定,组数、组名、组与组之间的界限也就确定。有些复杂的品质标志分组可根据统一规定的划分标准和分类目录进行。
(2)数量标质分组方法
按数量标志分组的目的并不是单纯确定各组在数量上的差别,而是要通过数量上的变化来区分各组的不同类型和性质。数量标志分组方法从以下几个方面来说明:
①单项式分组和组距式分组
对离散变量,如果变量值的变动幅度小,就可以一个变量值对应一组,称单项式分组。如居民家庭按儿童数或人口数分组,均可采用单项式分组。 离散变量如果变量值的变动幅度很大,变量值的个数很多,则把整个变量值
14
依次划分为几个区间,各个变量值则按其大小确定所归并的区间,区间的距离称为组距,这样的分组称为组距式分组。 也就是说,离散变量根据情况既可用单项式分组,也可用组距式分组。在组距式分组中,相邻组既可以有确定的上下限,也可将相邻组的组限重叠。
连续变量由于不能一一列举其变量值,只能采用组距式的分组方式,且相邻的组限必须重叠。如以总产值、商品销售额、劳动生产率、工资等为标志进行分组,就只能是相邻组限重叠的组距式分组。
在相邻组组限重叠的组距式分组中,若某单位的标志值正好等于相邻两组的上下限的数值时,一般把此值归并到作为下限的那一组(适用于连续变量和离散变量)。
②等距分组和不等距分组
等距分组是各组保持相等的组距,也就是说各组标志值的变动都限于相同的范围。不等距分组即各组组距不相等的分组。
统计分组时采用等距分组还是不等距分组,取决于研究对象的性质特点。在标志值变动比较均匀的情况下宜采用等距分组。等距分组便于各组单位数和标志值直接比较,也便于计算各项综合指标。在标志值变动很不均匀的情况下宜采用不等距分组。不等距分组有时更能说明现象的本质特征。 ③组限和组中值
组距两端的数值称组限。其中,每组的起点数值称为下限,每组的终点数值称为上限。上限和下限的差称组距,表示各组标志值变动的范围。
各组标志值的平均数,各组标志数的平均数在统计分组后很难计算出来,就常以组中值近似代替。组中值仅存在于组距式分组数列中,单项式分组中不存在组中值。
组中值的计算是有假定条件的,即假定各组标志值的变化是均匀的(与组距式分组的假定条件相同)。一般情况下,组中值=(上限+下限)÷2
对于第一组是 “多少以下”,最后一组是“多少以上”的开口组,组中值的计算可参照邻组的组距来决定。即:缺下限开口组组中值=上限—1/2邻组组距,缺上限开口组组中值=下限+1/2邻组组距。
【案例】某企业职工的月收入依次为2000元以下、2000-3000元、3000-4000元,4000元以上。分别求算这几组的组中值。
15
四、频数分布表
1、频数数列的概念、构成要素
在统计分组的基础上,列出各组对应的单位数,形成总体单位数在各个组的分布,称统计分布,又称分配数列或次数分布。分配数列包括两个要素:总体按某标志所分的组和各组对应的单位数(频数) 2、频数数列的类型
分配数列包括品质分配数列和变量分配数列,分别由品质标志分组和数量标志分组形成。变量数列又有单项式数列和组距式数列,分别由单项式分组和组距式分组形成。 3、频数和频率
统计分组后各组对应的单位数称频数,也叫次数;各组单位数占总体单位总数的比重称频率。各组的频率大于0,所有组的频率总和等于1。
在变量分配数列中,频数(频率)表明对应组标志值的作用程度。频数(频率)数值越大表明该组标志值对于总体水平所起的作用也越大,反之,频数(频率)数值越小,表明该组标志值对于总体水平所起的作用越小。
组距数列中,影响各组次数分布的要素是组数、组距、组限和组中值。 有时为了更简便地概括总体各单位的分布特征,还需要编制累计频数数列和累计频率数列。累计有向上累计和向下累计的方法。向上累计是指将各组频数和频率由变量值低的组向变量值高的组累计,表明在这些数值以下所有数值所占的比重;向下累计是指将各组频数和频率由变量值高的组向变量值低的组累计,表明在这些数值以上所有数值所占的比重。(分布数列)
组别 … … … 各组单位数 (频数或次数) … … 比重(%) (频率) … … 【案例1】 某班级40名学生学习成绩分组资料 按成绩分组 学生人数 60以下 3 60-70 6 70-80 15 80-90 12 90-100 4
比重(%) 7.5 15.0 37.5 30.0 10.0 16
合计 40 100
【案例2】某车间40名工人完成生产计划百分数资料: 90,65,100,102,100,104,112,120,124,98, 110,110,120,120,114,100,109,119,123,107, 110,99,132,135,107,107,109,102,102,101, 110,109,107,103,103,102,102,102,104,104
表1 某车间40名工人完成生产计划百分数频数表
按完成计划百分数分组(%) 90以下 90-100 100-110 110-120 120-130 130-140 合计 工人数 1 3 22 7 5 2 40 比重(%) 2.5 7.5 55.0 17.5 12.5 5.0 100 表2 某车间40名工人完成生产计划百分数向上累计频数表
按完成计划百分数分组(%) 向上累计工人数 90以下 1 90-100 4 100-110 26 110-120 33 120-130 38 130-140 40 合计 ——
表2 某车间40名工人完成生产计划百分数向下累计频数表 按完成计划百分数分组(%) 向下累计工人数 向下累计比重(%) 90以下 40 100 90-100 39 97.5 100-110 36 90 110-120 14 35 120-130 7 17.5 130-140 2 5 合计 —— ——
第三节 统计表
一、统计表的构成
17
向上累计比重(%) 2.5 10 65 82.5 95 100 —— 统计表是用来表示经过汇总加工后的综合统计资料的一种表格形式。 从形式上看,统计表是由纵横交叉的直线组成的左右两边不封口的表格,表的上面有总标题,即表的名称,左边有横行标题,上方有纵栏标题,表内是统计数据。
(一)统计表的横向构成一般包括四个部分
1.总标题。它相当于一篇论文的总标题,表明全部统计资料的内容,一般写在表的上端正中。
2.横行标题。通常也称为统计表的主词(主栏),它是表明研究总体及其组成部分,也是统计表所要说明的对象,一般写在表的左方。
3.纵栏标题。通常也称为统计表的宾词(宾栏),它是表明总体特征的统计指标的名称,一般写在表的上方。
4.数字资料。即各横栏与纵栏的交叉处的数字(这些数是由横行与纵栏所限定的内容)。
(二)统计表的纵向构成一般有两部分:主词栏和宾词栏,主词与宾词不是固定不变的。
二、统计表的种类
(一)简单表。统计表的主词栏,未经任何分组,仅仅罗列各单位名称,或按时间顺序排列的表格。
(二)简单分组表。即表的主词栏,按某一个标志进行分组的统计表。 (三)复合分组表。按两个及两个以上标志进行分组的统计表。 三、统计表的设计
为了使统计表的设计科学、实用、简明、美观,应注意以下问题。 1.总标题要简明扼要,并能确切说明表中的内容。
2.统计表的上下两端的端线应当用粗线绘制,表中其他线条一律用细线绘制,表的左右两端习惯上均不划线,采用开口式。
3.指标数字应有计算单位。如果全表的计算单位是相同的,若用“万元”为单位,应在表的右上角注明“单位:万元”字样;如果表中同样的指标数字计算单位相同而各栏之间不同时,应在各栏标题中注明计算单位。
4.表中的横行“合计”,一般列在最后一行(或最前一行),表中纵栏的“合计”一般列在最前一栏。
5.对某些资料必须进行说明时,应在表的下面注明。
18
第3章 数据的概括性度量
教学目的和要求:掌握反映数据分布特征的各个代表值,包括分布的集中趋势、
分布的离散程度和分布的形状。
教学重点和难点:本章主要讲授统计学中的一个重要的、反映集中趋势的综合指标—平均指标,重点是讲授各指标的计算和应用条件;难点是各指标的应用。 教学手段:启发教学方法、案例教学方法 教学时量:3课时
第1节 集中趋势的度量
一、平均数的基本形式
平均数是指一组数据相加后除以数据的个数而得到的结果,也称均值。 二、平均数的计算 1、简单算术平均数
在掌握了没有分组的总体各单位的标志值或已经有了标志总量和总体总量的资料就可以采用这种方法计算。计算公式如下:
XX1X2XnXnn
【思考】简单算术平均数会受变量值本身大小的影响吗?
【讲解】简单算术平均数的大小只受各变量值本身大小的影响,其平均数的大小不会超过变量值的变动范围。那么平均数的大小除了受变量值本身大小影响以外,还受其他因素的影响,采取什么方法计算其平均数呢?
2、加权算术平均数
如果平均数的大小既受其变量值本身大小的影响,又受其次数的影响就要采用加权算术平均数的方法计算其平均数了。计算公式如下:
XX1f1X2f2XnfnXff1f2fnf
在影响平均数的两个因素中,起决定作用的是变量值本身的水平,也就是X的大小。而在其变量值变动的区间内为什么平均数会是某一个数值,而不是另一个数值,则是次数影响的结果。在一般情况下(也就是次数分布接近正态分布的情况下),加权算术平均数会靠近出现次数最多的那个变量值。因此,次数对平均
19
数的大小的作用并不是可有可无,而是起着一种权衡轻重的作用。因此,把次数又叫权数,把每个变量值乘以权数的过程叫加数过程,所得结果就是标志总量。
3.调和平均数 (1)简单调和平均数
如果掌握的资料是未分组的总体各单位的标志值和标志总量,则用简单调和平均数计算平均指标。其计算公式为:
H11......1n1111.......xx1x2xn
式中,H代表调和平均数,n代表标志总量,其余符号与前相同。 例: 某商品在淡季、平季、旺季的价格分别是100元、116元、140元,假设分别以淡季、平季、旺季的价格购买一元的这种商品,求该商品的平均价格。
Hn33116.46(元)
1110.02576100116140x1从形式上看,调和平均数和算术平均数有明显的区别,但从计算内容上来看,两者是一致的,均为总体标志总量与总体单位总量的对比。
(2)加权调和平均数
如果掌握的资料是各组的标志值和标志总量,而未掌握各组单位数,则用加权调和平均数计算平均指标。其计算公式为:
m1m2......mnmHm1m2mnm ......xx1x2xn式中,m代表各组标志总量,其余符号与前相同。
例: 某食堂购进某种蔬菜,相关资料如下,求这种蔬菜的平均价格。
4-13 某种蔬菜价格资料及其计算表
价格(元/千克) 早午晚 购买金额(元) m 购买量(千克) m xx 1.00 1.20 1.10 10.0 15.0 20.0 45.0 10.0 12.5 18.2 40.7 合计 - 20
根据上表计算食堂购进这种蔬菜的平均价格为:
Hm10.015.020.045.01.106 (元/千克)m40.740.7x二、众数 (一)概念
众数是总体中出现次数最多的标志值。用字母M 表示。 (二)计算【补充】
根据变量数列的不同种类, 确定众数可采用不同的方法。 1.单项式数列确定众数 2.组距数列确定众数 下限公式
1MoLd12
上限公式
MoU2d
12Mo: 表示次数;L:表示众数所在组的下限;U:表示众数所在组的上限;△1: 表示众数所在组次数与前一组次数之差;△2: 表示众数所在组次数与后一组次数之差;d: 表示众数所在组的组距。
【案例3-1】在一个随机抽取9名员工,得到每名员工的月工资收入(单位:元)数据如下:
1500 1200 1300 1400 1500 1500 1900 1400 1345 三、中位数
(一)概念
中位数是将总体各单位的标志值按大小顺序排列,处于数列中点位置的标志值为中位数。中位数将数列分为相等的两部分,一部分的标志值小于中位数,另一部分的标志值大于中位数。在许多情况下,不易计算平均值时,可用中位数代表总体的一般水平。例如,人口年龄中位数,可表示人口总体年龄的一般水平。
(二)计算
1.由未分组资料确定中位数
根据未分组资料确定中位数时,首先将标志值按大小顺序排列,然后根据公式(n+1)/2确定中位数的位置,再根据中位数的位置找出对应的标志值。
21
2.单项式分组资料确定中位数 f直接可用公式2确定中位数的位次,再根据位次用较小累计次数或较大累计次数的方法将次累计次数刚超过中位数位次的组确定为中位数组,该组的标志值即为中位数。
3.组距分组资料确定中位数。
组距资料确定中位数与单项式资料不同的是需要采用公式计算。 下限公式:
fMeL2Sm1fmd
上限公式:
fMeU2Sm1fmd
式中:L: 表示中位数组的下限,U 表示中位数组的上限,fm: 表示中位数组的次
数,Sm-1 表示中位数所在组以前各组的累计次数,Sm+1 表示中位数所在组以后各组的累计次数,∑f: 表示总次数,d: 表示中位数所在组的组距。 【案例】根据例3-1求中位数
22
第3章 数据的概括性度量
教学目的和要求:掌握反映数据分布特征的各个代表值,包括分布的集中趋势、
分布的离散程度和分布的形状。
教学重点和难点:本章主要讲授统计学中的一个重要的、反映集中趋势的综合指标—平均指标,重点是讲授各指标的计算和应用条件;难点是各指标的应用。 教学手段:启发教学方法、案例教学方法 教学时量:3课时
一、极差(也称全距)
极差就是总体单位中最大值与最小值之差,它说明标志值的变动范围,是标志变动度中最简单的一种方法。
极差优点(特点):说明总体中两个极端标志值的变异范围,其计算方法简便、易懂、容易被人掌握。
缺点:受极端值影响很大,不能全面反映各单位标志值的差异程度。所以,在实际应用上有一定的局限性。 【案例】根据例3-1求极差。 二、平均差
平均差就是总体各单位的标志值与算术平均数的离差绝对值的平均,它能综合反映总体中各单位标志值的差异程度。
计算公式:
A.D.|xx|n
在分组资料的情况下只须加权就可以了
|xx|f A.D.f平均差系数就是平均差除以算术平均数,它说明标志值差异的相对程度,还可以用来比较平均数不同的各个标志变动度的大小。
计算公式:
A.D.VA.D.
x优点:计算简便,意义明确,能反映各标志值的大小和程度。 缺点:采用绝对值,不适于数理统计中的数字处理,使用受。
23
三、标准差(也叫均方差)
标准差是测定标志变动度最重要的指标,它的意义与平均差的意义基本相同,但在数学性质上比平均差要优越,由于各标志值对算术平均数的离差的平方和为最小,所以,在反映标志变动度大小时,一般都采用标准差。标准差是反映标志变动度的最重要的指标,是指总体各单位的标志值与算术平均数离差的平方平均数的均方根。计算公式:
(xx)2n
分组情况下,需要加权
(xx)2ff
四、标准差系数
标准差系数是标准差除以算术平均数,也叫离散系数。计算公式:
V
x极差、平均差和标准差都是说明总体某一数量标志差异大小和程度的指标,用来说明不同数值平均数的代表性大小。
【案例】两种不同水稻品种,分别在5个田块上试种,其产量如下:
甲 品 种 田块面积(亩) 1.2 1.1 1.0 0.9 0.8 产 量 (公斤) 600 495 445 0 420 乙 品 种 田块面积(亩) 1.5 1.4 1.2 1.0 0.9 产 量 (公斤) 840 770 0 520 450 要求:假定生产条件相同,确定哪一品种具有较大稳定性,宜于推广。
解:
甲 品 种 X f xf 600 495 — -50 — 2750 x f 乙 品 种 xf 40 30 2400 1260 24
500 1.2 450 1.1
560 1.5 840 550 1.4 770 445 600 525 合1.0 0.9 0.8 445 0 420 -55 100 25 5.0 2500 — 520 450 500 合15275 3025 9000 500 1.0 520 1.2 0 0.9 450 — -70 -20 — 5880 360 9900 6.0 3120 — 计 计 注:
⑴
⑵
⑶因V乙 25 第4章 抽样与参数估计 教学目的和要求:通过本章学习,要对抽样推断的特点、作用及一些基本概念有正确的理解。掌握抽样推断的抽样平均误差、极限误差的计算方法。在此基础上,能运用抽样推断的一般原理,对全及总体的指标值作出具有一定概率保证程度的估计。 教学重点和难点:样本统计量的抽样分布、总体参数的区间估计 教学手段:启发教学法、案例讨论法 教学时量:3课时 一、抽样的基本概念 1、全及总体和样本总体 全及总体是我们所要研究的对象,而样本总体则是我们所要观察的对象,两者是有区别而又有联系的不同范畴。全及总体又称母体,简称总体,它是指所要认识的,具有某种共同性质的许多单位的集合体。样本总体又称子样,简称样本,是从全及总体中随机抽取出来,代表全及总体的那部分单位的集合体。样本总体的单位数称为样本容量,通常用小写英文字母n来表示。随着样本容量的增大,样本对总体的代表性越来越高,并且当样本单位数足够多时,样本平均数愈接近总体平均数。 如果说对于一次抽样调查,全及总体是唯一确定的,那么样本总体就不是这样,样本是不确定的,一个全及总体可能抽出很多个样本总体,样本的个数和样本的容量有关,也和抽样的方法有关。 2、全及指标和抽样指标 根据全及总体各个单位的标志值或标志属性计算的,反映总体某种属性或特征的综合指示称为全及指标。常用的全及指标有总体平均数(或总体成数)、总体标准差(或总体方差 )。 由样本总体各单位标志值计算出来反映样本特征,用来估计全及指标的综合指标称为统计量(抽样指标)。统计量是样本变量的函数,用来估计总体参数,因此与总体参数相对应,统计量有样本平均数(或抽样成数)、样本标准差(或样本方差 )。 对于一个问题全及总体是唯一确定的,所以全及指标也是唯一确定的,全及指标也称为参数,它是待估计的数。而统计量则是随机变量,它的取值随样本的 26 不同而发生变化。 3、样本容量和样本个数 样本容量是指一个样本所包含的单位数。通常将样本单位数不少于30个的样本称为大样本,不及30个的称为小样本。社会经济统计的抽样调查多属于大样本调查。样本个数又称样本可能数目。指从一个总体中可能抽取的样本个数。一个总体有多少样本,则样本统计量就有多少种取值,从而形成该统计量的分布,此分布是抽样推断的基础。 4、重复抽样和不重复抽样 5、抽样组织形式 常用的抽样组织形式有:简单随机抽样、类型抽样、等距抽样和整群抽样 二、样本均值的抽样分布 ㈠样本平均数的分布 样本平均数是由总体中全部样本平均数的可能取值和与之相应的概率组成。先举例说明。 某施工班组5个人的日工资为34、38、42、46、50元,则: 总体工人日平均工资 Xx343842465042(元) N52222总体日工资方差 23842464250423442X32元52 现在用重置抽样的方法从5人中间随机抽2个构成样本,并求样本平均工资来推断总体的平均工资水平。由于是重置抽样,所以第一个单位是从总的5种工资中取第一种,第二单位也是从同一总体的5种中取一种,共有25个样本,各样本的日平均工资如表4-1所示。 表4-1 样本日工资平均数 单位:元 样本变量 34 38 42 46 50 34 34 36 38 40 42 38 36 38 40 42 44 42 38 40 42 44 46 46 40 42 44 46 48 50 42 44 46 48 50 27 从上表容易看出样本的平均数及其次数,可以整理列出样本平均数的分布表以及图示如下: 根据以上资料,可以计算样本日工资平均数的平均数Ex和样本日工资平均 2x数的方差。 xfExf1(34×1+36×2+38×3+40×4+42 25 ×5+44×4+46×3+48×2+50×1) =42(元) 表4-2 样本日平均数工资分布 样本日平均工资(元) 频 数 频 率 34 1 1/25 36 2 2/25 38 3 3/25 40 4 4/25 42 5 5/25 44 4 4/25 46 3 3/25 48 2 2/25 50 1 1/25 合 计 25 1 Px 5/25 4/25 3/25 2/25 1/25 34 36 38 40 42 44 46 48 50 xExxf2图4-6样本日平均工资分布图 2f = 1[(34-42)²+(36-42)²×2+(38-42)²×3 25+(40-42)²×4+(44-42)²×4+(46-42)²×3 +(48-42)²×2+(50-42)²] 28 =16(元)² xx2164(元) 从以上计算,可以得到两个重要的结论: 第一,重置抽样的样本平均数x的平均数等于总体平均数,即: ExX (4.37) 上例两者都等于42元。这说明虽然每个样本平均数的取值可能与总体平均数有一定离差,但总体看来,所有样本平均数说来和总体平均数是没有离差的。 抽样平均数的标准差x反映样本平均数与总体平均数的平均误差程度,这 是因为: ExEx2ExX2 所以,称之为抽样平均误差,或抽样标准误差,以表示。重置抽样的抽样平均误差等于总体标准差除以样本单位数的平方根。即: xXn (4.38) 在本例中,直接以总体标准差σ(X)和样本单位数代n入上式得: Xxn2324(元) 2所得结果和上面计算的结果完全一致。它表明所有样本日平均工资和总体日平均工资的平均离差为4元。 以上的结论具有普遍的意义,现在加以一般的推导。 X设总体变量X:X1,X2,…,N,其中平均数为X,标准差为X。样 本容量为n的变量x,x1,x2,…xn。 xxx12xnn 1. 按照平均数的定义和它的数学性质。 x1x2xnExE n1Ex1Ex2Exn n重置抽样条件下,由于x1,x2,…,xn是相互的,而且都是从X1,X2,…,XN中抽取,每个中选机会相等,概率均为1/N。 29 Ex1=Ex2=…=Exn =XiPii1N1NXX12XX N所以,Ex1EExEx (4.39) nx11XXXnXX (4.39) nn12n2. 按照方差的定义以及它的数学性质。 x22x1x2xn n121n2xx2xn 221n22xxx (4.40) 12n在重置抽样条件下,由于x1,x2,…,xn是相互的,而且都是从总体X1, X2,…,Xn中抽取,所以变量xi与总体X是同分布的,因而有: xx2xX 22222n所以 x= 121n222xxx 2212n12n2X2X2X 2= n2nXXn xXn (2)样本成数的抽样分布 可以把是非标志作为(0,1)分布,其中总体平均数就是总体成数本身, XPP,总体方差PP1P。现在从总体中用重置抽样方法抽取个n单 2位计算样本成数p,当然p也是随机变量,其分布实质上就是(0,1)样本平均数的分布。 样本平均数分布的性质可以推广到抽样成数的分布,即有 30 EpXpP (4.42) 上式表示样本成数的p平均数等于总体成数平均数,即总体成数本身。 pppnP1P (4.43) n上式表示样本成数的抽样平均误差亦即样本成数的标准差等于总体成数的方差除以样本单位数之商的平方根。 【例4-6】已知某批零件的一级品率为80%,现在用重置抽样方法从中抽取100件,求样本一级品率的抽样平均误差。 pP1Pn0.80.24% 100这表明样本成数与总体成数的抽样误差平均说来达到4%。随着样本单位数的增加,抽样平均误差也将减少。 三、统计量的标准误 抽样平均误差是反映抽样误差一般水平的指标,它的实质含义是指抽样 平均数(或成数)的标准差。即它反映了抽样指标与总体指标的平均离差程度。抽样平均误差的作用首先表现在它能够说明样本指标代表性的大小。平均误差大,说明样本指标对总体指标的代表性低;反之则说明样本指标对总体指标的代表性高。 抽样平均误差的计算: p(1p)重复抽样: x p n2np(1p)nn(1) 不重复抽样: x(1) pnNnN 31 第4章 抽样与参数估计 教学目的和要求:通过本章学习,要对抽样推断的特点、作用及一些基本概念有正确的理解。掌握抽样推断的抽样平均误差、极限误差的计算方法。在此基础上,能运用抽样推断的一般原理,对全及总体的指标值作出具有一定概率保证程度的估计。 教学重点和难点:样本统计量的抽样分布、总体参数的区间估计 教学手段:启发教学法、案例讨论法 教学时量:3课时 一、抽样极限误差 基于理论上的要求,抽样极限误差需要用抽样平均误差x或p为标准单位来衡量。即把极限误差 △x或 △p相应除以x或p,得出相对的误差程度t倍,t称为抽样误差的概率度。于是有: xtx ptp 二、抽样估计方法 抽样估计就是利用实际调查计算的样本指标值来估计相应的总体指标数值。抽样估计有点估计和区间估计两种。 (一)参数点估计的基本特点:根据总体指标的结构形式设计样本指标作为总体参数的估计量,并以样本指标的实际值直接作为相应总体参数的估计值。 点估计的优良标准是无偏性、一致性和有效性。 抽样估计的置信度是表明抽样指标和总体指标的误差不超过一定范围的概率有多大。 (二)参数区间估计的基本特点 根据给定的概率保证程度的要求,利用实际抽样资料,指出总体被估计值的上限和下限,即指出总体参数可能存在的区间范围,而不是直接给出总体参数的估计值。总体参数区间估计根据给定的概率保证程度的要求,利用实际抽样资料,指出被估计值的上限和下限,即指出总体参数可能存在的区间范围。总体参数区间估计必须同时具备估计值、抽样误差范围和概率保证程度三个要素。 区间估计的内容包括总体平均数和总体成数的估计。 1、置信水平和置信区间的理解 我们已经讨论了参数的点估计,但是对于一个估计量,人们在测量或计算时, 32 常不以得到近似值为满足,还需估计误差,即要求知道近似值的精确程度。因此, ˆ外,我们还希望估计出一个范围,并希对于未知参数,除了求出它的点估计望知道这个范围包含参数真值的可信程度。 ˆ为未知参数的估计量,其误差小于某个正数的概率为 设1(01)ˆ|}1 P{|,即 或 ˆˆ)1 P(ˆ,ˆ)包含参数真值的概率(可信程度)为1,则这表明,随机区间(ˆ,ˆ)就称为置信区间,1称为置信水平。 这个区间(定义 设总体X的分布中含有一个未知参数。若对于给定的概率 1(01),存在两个统计量11(X1,X2,,Xn)与22(X1,X2,,Xn), 使得 P{12}1 则随机区间(1,2)称为参数的置信水平为1的置信区间,1称为置信下限, 2称为置信上限,1称为置信水平。 注(1)置信区间的含义:若反复抽样多次(各次的样本容量相等,均为n),每一组样本值确定一个区间(1,2),每个这样的区间要么包含的真值,要么不包含的真值。按伯努利大数定理,在这么多的区间中,包含真值的约占 100(1)%,不包含真值的约仅占100%。例如:若0.01,反复抽样1000 次,则得到的1000个区间中,不包含真值的约为10个。 (2)置信区间的长度表示估计结果的精确性,而置信水平表示估计结果的可靠性。对于置信水平为1的置信区间(1,2),一方面置信水平1越大,估计的可靠性越高;另一方面区间(1,2)的长度(2)越小,估计的精确性越好。但这两方面通常是矛盾的,提高可靠性通常会使精确性下降(区间长度变大),而提高精确性通常会使可靠性下降(1变小),所以要找两方面的平衡点。 在学习区间估计方法之前,我们先介绍标准正态分布的分位点概念。 33 设X~N0,1,若z满足条件则称点z为标准正态分PXz,01, 布的分位点。例如求z0.01。按照分位点定义, 我们有PXz0.010.01,则PXz0.010.99,即(z0.01)0.99。查表可得 z0.012.327. 又由(x)图形的对称性知z1z。下面列出了几个常用的z值: z 0.001 3.090 0.005 2.576 0.01 2.327 0.025 1.960 0.05 1.5 0.10 1.282 2、总体均值的参数估计 研究一个总体时,所关心的参数主要有总体均值、总体比例和总体方差等。在对总体均值进行区间估计时,需要考虑总体是否为正太分布、总体方差是否已知、用于构造统计量的样本是大样本还是小样本等几种情况。 (1)正态总体、方差已知,或非正态总体、大样本 我们知道X是的无偏估计,且有统计量上分位点的定义,有 X~N0,1 。由标准正态分布的/nXPz/21 /n即 PXz/2Xz/21 nn这样,我们就得到了的一个置信水平为1的置信区间 Xz/2,Xz/2 nn这样的置信区间常写成 Xz/2 n【案例1】从某厂生产的滚珠中随机抽取10个,测得滚珠的直径(单位:mm) 如下: 34 14.6 15.0 14.7 15.1 14.9 14.8 15.0 15.1 15.2 14.8 若滚珠直径服从正态分布N(,2),并且已知0.16(mm),求滚珠直径均值的置信水平为95%的置信区间。 解 计算样本均值x14.92,置信水平1=0.95,0.05,查表得 z/2z0.0251.96(可利用zt()查表)。由此得的置信水平为95%的置信区 间为 0.16 Xz/214.921.96 n10即 14.920.099, 14.920.099(14.821, 15.019) 【练习1】某学校进行一次英语测验,为了解学生的考试情况,随机抽选部分学生进行调查,所得资料如下: 1、 考试成绩 60以下2 、 60-70 70-80 80-90 90- 90-100 3、 学生人数4 、 10 5、 20 6、 22 7、 40 8、 8 试以95。45%的可靠性估计该校学生英语考试的平均成绩的范围。 解:(1)该校学生英语考试的平均成绩的范围: xf7660x76.6 f100σ= (xx)2ff11.377x1.1377 100n1294411.377 100△x = tμx=2×1.1377=2.27 该校学生考试的平均成绩的区间范围是: x - △x≤X≤ x+△x 76.6-2.27≤X≤76.6+2.27 74.32≤X≤78. 2、正态总体、方差未知、小样本 此时不能使用Xz/2,因为其中 n包含了未知参数。考虑到S2是2的无偏 35 估计,将上述区间中的换成SS2。我们已知统计量X~t(n1),可得 S/nXPt/2(n1)t/2(n1)1 S/n即 SSPXt/2(n1)Xt/2(n1)1 nn于是得到的一个置信水平为1的置信区间 S Xt/2(n1) n【案例2】 在例1中,若未知,求滚珠直径均值的置信水平为95%的置信区间。 解 计算样本均值x14.92,样本标准差s0.193;置信水平1=0.95,自由度n11019,查表得t/2(n1)t0.025(9)2.26。 由此得0.05, 的置信水平为95%的置信区间为 S0.193 Xt/2(n1)14.922.26 n10即 (14.92-0.138,14.92+0.138)=(14.782,15.058) 注 比较例1和例2中的置信区间,可以发现当2未知时,的置信区间区间长度要比2已知时的置信区间区间长度大,这表明当未知条件增多时,估计的精确程度变差,这也符合我们的直观感觉。 【练习2】从某年级学生中按简单随机抽样方式抽取40名学生,对公共理论课的考试成绩进行检查,得知其平均分数为78.75分,样本标准差为12.13分,试以95.45%的概率保证程度推断全年级学生考试成绩的区间范围。 解:n=40 x=78.56 σ=12.13 t=2 12.131.92 x= n40△x = tμx=2×1.92=3.84 全年级学生考试成绩的区间范围是:x - △x≤X≤ x+△x 78.56-3.84≤X≤78.56+3.84 即74.91≤X≤82.59 36 第4章 抽样与参数估计 教学目的和要求:通过本章学习,要对抽样推断的特点、作用及一些基本概念有正确的理解。掌握抽样推断的抽样平均误差、极限误差的计算方法。在此基础上,能运用抽样推断的一般原理,对全及总体的指标值作出具有一定概率保证程度的估计。 教学重点和难点:样本统计量的抽样分布、总体参数的区间估计 教学手段:启发教学法、案例讨论法 教学时量:3课时 一、总体比例的区间估计 这里只讨论大样本情况下总体比例的估计问题。当样本量足够大时,比例P的抽样分布可用正态分布近似。方法跟总体均值的区间估计方法类似。 (1)已知,求F(t) (2)已知F(t),求区间(实值求) x、p根据样本资料,求x、p根据样本资料,求求ux、up求ux、up步骤: 步骤:F(t)已知,则可知t值 利用tu,求出据t,求出t,求出F(t)u作区间估计并求出参数的区间范围【案例】某学校进行一次英语测验,为了解学生的考试情况,随机抽选部分学生进行调查,所得资料如下: 9、 考试成绩 60以下10 、 60-70 70-80 80-90 90- 90-100 11、 学生人数12 、 10 13、 20 14、 22 15、 40 16、 8 试以95。45%的可靠性估计该校学生成绩在80分以上的学生所占的比重的范围。 解:该校学生成绩在80分以上的学生所占的比重的范围 n48p148% n100p(1p)0.48(10.48)p0.04996 n100△p=tμp=2×0.04996=0.09992 80分以上学生所占的比重的范围: P=p±△p=0.48±0.09992 37 0.3801≤P≤0.5799 在95.45%概率保证程度下,该校学生成绩在80分以上的学生所占的比重的范围在38.01%—57.99%之间。 二、样本量的确定 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 1、估计总体均值时样本量的确定 已知期望调查结果的精度(E), 期望调查结果的置信度(L),以及总体的标准差估计值σ的具体数据,总体单位数N。 计算公式为: n=σ2/(e2/Z2+σ2/N) 特殊情况下,如果是很大总体,计算公式变为: n= Z2σ2/e2 【案例】希望平均收入的误差在正负人民币30元之间,调查结果在95%的置信范围以内,其95%的置信度要求Z的统计量为1.96。根据估计总体的标准差为150元,总体单位数为1000。 样本量:n=150*150/(30*30/(1.96*1.96))+150*150/1000)=88 38 2、估计总体比例时样本量的确定 对于已知数据为总体比例,一般根据下列步骤计算样本量。已知调查结果的精度值百分比(E),以及置信度(L),比例估计(P)的精度,即样本变异程度,总体数为N。 则计算公式为: n=P(1-P)/(e2/Z2+ P(1-P)/N) 同样,特殊情况下如果不考虑总体,公式为:n= Z2P(1-P)/e2 一般情况下,我们不知道P的取值,取其样本变异程度最大时的值为0.5。 【案例】 希望平均收入的误差在正负0.05之间,调查结果在95%的置信范围以内,其95%的置信度要求Z的统计量为1.96,估计P为0.5,总体单位数为1000。样本量为:n=0.5*0.5/(0.05*0.05/(1.96*1.96)+0.5*0.5/1000)=278 【练习】课后习题 39 第5章 假设检验 教学目的和要求:通过本章学习,要对假设检验的特点、作用及一些基本概念有正确的理解。掌握假设检验的计算方法。在此基础上,能运用假设检验的一般原理,对总体参数作出具有的判断。 教学重点和难点:假设检验的基本原理、假设检验的计算方法 教学手段:启发教学法、案例讨论法 教学时量:3课时 【引导案例】 某车间用一台包装机包装葡萄糖。包得的袋装葡萄糖重是一个随机变量,它服从正态分布。当机器正常时,其均值为0.5公斤,标准差为0.015公斤。某日开工后为检验包装机是否正常工作,随机的抽取了9袋,称得净重为 0.497 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512 问机器只否正常? 一、假设检验的基本原理 以引导案例为题,以,分别表示这一天袋装葡萄糖重总体x的均值和标准差。标准差比较稳定,设0.015。于是xN,0.0152,这里未知。问题 是根据样本值来判断0.5还是0.5。为此,我们提出假设 H0:00.5 和 H1:0 这是两个对立的假设。然后,我们给出一个合理的法则,根据这一法则,利用已知样本作出判断是接受H0,还是拒绝H0。如果接受H0则认为0,即认为机器工作是正常的,否则,认为是不正常的。 由于要检验的假设涉及总体均值,故首先想到是否可借助样本均值x这一统计量来进行判断。我们知道,x是的无偏估计,x的观察值在一定程度上反映了的大小。因此,如果假设H0为真,则观察值x和的偏差x一般不能太大。如果x过分的大,我们就怀疑假设H0的正确性而拒绝H0,并考虑 40 x0到当H0为真的 /nN0,1。而衡量x的大小可归结为衡量x0/nx0的大 小。基于上面的想法。我们可适当选定一正数k,使的当观察值x满足时就拒绝H0,反之就接受H0。 /nk然而,由于作出判断的依据是一个样本,当实际上H0为真时仍可作出拒绝 H0的判断,这是第一类错误,犯这类错误的概率为 P拒绝H0H0为真。 我们无法排除犯这类错误,因此希望将犯这类错误的概率控制在一定的限度之内,即给出一个较小的数01,使犯这类错误的概率不超过,即使得 P拒绝H0H0为真,(9.1) x0引入上式之后,就能确定k了。令(9.1)式取等号,即P0k /n由于当H0为真时,kz/2 x0/nN0,1,于是 因此若观察值满足 x0/n则拒绝H0,而若 kz/2, x0/n则接受H0。 二、假设检验的基本概念 kz/2 通过引例我们可以看到当样本容量固定时,选定后,数k是检验假设的一个门槛值。数称为显著性水平,上面关于x和0有无显著差异的判断是在显著性水平下作出的。 41 统计量zx0称为检验统计量。 /n前面的检验问题通常叙述为:在显著性水平下,检验 假设 H0:0;H1:0 (9.2) H0称为原假设,H1称为备择假设。我们就是要根据样本,按上述检验方法作出 决定在H0和H1之间接受其一。 当检验统计量取某个区域C中的值时,我们拒绝原假设H0,则称区域C为拒绝域,拒绝域的边界点称为临界点。 总结:关于小概率的值并没有统一的规定,是根据实际问题的要求,规定一个界限(01),若一个事件的概率不大于时,即认为是小概率事件。 在假设检验中,称为显著性水平。否定域:否定原假设H0的区域称为否定域。临界值:否定域和接受域之间的界限值。 三、假设检验的基本思想及步骤 假设检验的基本思想——小概率原理:认为小概率事件在一次试验中实际上不会发生,若小概率事件在一次试验中发生了,就被认为不合理,判原来假设不成立。 参数的检验问题的步骤如下: 1.根据实际问题的要求,提出原假设H0及备择假设H1 2.给定显著性水平及样本容量n; 3.确定检验统计量以及拒绝域; 4.按P拒绝H0H0为真求出拒绝域; 5.取样,根据样本观察值确定接受还是拒绝H0. 【重点强调】假设怎么建立? 42 第5章 假设检验 教学目的和要求:通过本章学习,要对假设检验的特点、作用及一些基本概念有正确的理解。掌握假设检验的计算方法。在此基础上,能运用假设检验的一般原理,对总体参数作出具有的判断。 教学重点和难点:假设检验的基本原理、假设检验的计算方法 教学手段:启发教学法、案例讨论法 教学时量:3课时 复习知识要点: 1、假设检验的基本思想 2、假设检验的基本概念 3、假设检验的基本步骤 一、假设检验的两类错误 由于检验法则是根据样本作出的,总有可能作出错误的判断。正如上述所提,在假设H0实际为真时,我们可能犯拒绝H0的错误,称这类“弃真”的错误为第一类错误。又当假设H0实际为假时,我们可能犯接受H0的错误,称这类“取伪”的错误为第一类错误。犯第二类错误的概率为 P接受H0H0不真 为此,在确定检验法则时,我们应尽可能使犯两类错误的概率都较小。一般说来,当样本容量固定时,若减小犯第一类错误的概率,则会加大犯第二类错误的概率。若要使犯量类错误的概率都减小,除非增加样本容量。 总之: I 类错误——弃真,发生的概率为,II类错误——纳伪,发生的概率为 与之间的关系:当n固定时,大就小,小就大。对于固定的,可以通过增大样本容量n来减小,在减小的同时,增大样本容量,可以使两类错概率同时减小。 二、单侧检验 有时,我们只关心总体均值是否增大,这时,我们需要检验假设 H0:0;H1:0 (9.3) 形如(1.3)的假设检验,称为右边检验。类似的有时我们也需要检验假设 43 H0:0;H1:0 (9.4) 形如(1.4)的假设检验,称为左边检验。右边检验和左边检验统称为单边检验。 双侧检验:否定域位于接受域的两侧 单侧检验:(1)右侧检验:否定域位于接受域的右侧 (2)左侧检验:否定域位于接受域的左侧 双侧检验 右侧检验 左侧检验 下面来讨论单边检验的拒绝域。 设总体X~N(,2),x1,x2,先来检验问题 H0:0;H1:0 ,xn是来自总体x的样本。给定显著性水平。 的拒绝域。 取检验统计量zx0,当H0为真时,z不应该太大,而在H1为真时z往/n往偏大,因而拒绝域的形式为 zx0k, k待定。 /nx0/nN0,1由 因为当H0为真时, x0P0k /nx0z. 得kz,则拒绝域为z/n类似地,可得左边检验问题 H0:0;H1:0 的拒绝域为z x0z. /n44 第5章 假设检验 教学目的和要求:通过本章学习,要对假设检验的特点、作用及一些基本概念有正确的理解。掌握假设检验的计算方法。在此基础上,能运用假设检验的一般原理,对总体参数作出具有的判断。 教学重点和难点:假设检验的基本原理、假设检验的计算方法 教学手段:启发教学法、案例讨论法 教学时量:3课时 单个总体N(,2)均值的检验 设总体x~N(,2),x1,x2,,xn是来自总体X的样本。 一、当2已知时,关于的检验 在第一节中,我们已经讨论过正态总体N(,2)当2已知时关于0的检验问题。在这些检验问题中,我们都是在利用在H0为真时服从N(0,1)分布的统计量xu0n来确定拒绝域的。这种检验法常称为u检验法。 下面还将给出一个有用的结果。 我们看到,在上节例2中,如将需要检验的问题写为以下的形式,看来更为合理: H0:0,H1:0. (9.7) 取显著性水平为,现在我们来检验问题(1.7)的拒绝域。因为H0中的全部都比H1中的要小,从直观上看,较合理的检验法则应是:若观察值x与0的差x0过分大,即x0k,则我们拒绝H0而接受H1,因此拒绝域的形式为 x0k, (k待定)。 由标准正态分布的分布函数()的单调性得到 0kkP拒绝H0H0为真0. /n/n所以要控制P拒绝H0H0为真,只需令 45 k=, /n即得k/nz,从而得检验问题(1.7)的拒绝域为 x0/nz,即 x0z. n这和我们以前得到的结论是一致的。 比较正态总体N(,2)在方差2已知时对均值的两种检验问题 H0:0,H1:0. H0:0,H1:0. 我们看到尽管两者原假设H0的形式不同,实际意义也不一样,但对于相同的显著性水平,它们的拒绝域是相同的。因此遇到形如(1.7)的检验问题,可归结为(1.3)来考虑。 二、当2未知时,关于的检验 设总体x~N(,2),其中,2未知,我们来检验问题 H0:0,H1:0. 的拒绝域(显著性水平为) 设x1,x2,,xn是来自总体X的样本,由于2未知,现在不能利用x0来确sn定拒绝域了,注意到s2是2的无偏估计,我们采用tx0作为检验统计量。 sntx0x0k 过大时就拒绝H0,拒绝域的形式为tsnsnx0sntn1 由第六章定理2我们知道,当H0为真时,故由P拒绝H0H0为真得kt/2n1,即得拒绝域为 46 tx0t/2n1 (9.8) sn上述利用t统计量得出的检验法成为t检验法. 【案例1】假设某产品的重量服从正态分布,现在从一批产品中随机抽取16件,测得平均重量为820克,标准差为60克,试以显著性水平=0.01与=0.05,分别检验这批产品的平均重量是否是800克。 解:假设检验为 H0:0800,H1:0800 (产品重量应该使用双侧检验)。 t采用t分布的检验统计量 x0/n。 查出=0.05和0.01两个水平下的临界值(df=n-1=15)为2.131和2.947。 t8208001.66760/16。 t因为<2.131<2.947, 所以在两个水平下都接受原假设。 【练习】课后习题 47 第6章 相关与回归分析 教学目的和要求:通过本章学习,要对相关分析的特点、作用及一些基本概念有正确的理解。掌握相关系数的计算方法。 教学重点和难点:相关分析的计算方法 教学手段:启发教学法、案例讨论法 教学时量:3课时 一、相关分析的概念 相关分析就是研究两个或两个以上变量之间相关程度大小以及用一定函数来表达现象相互关系的方法。 一般来说现象之间的相互关系可以分为两种,一种是函数关系,一种是相关关系。函数关系是指变量之间存在的相互依存的关系,它们之间的关系值是确定的。相关关系是两个现象数值变化不完全确定的随机关系,是一种不完全确定的依存关系。相关关系是相关分析的研究对象,而函数关系则是相关分析的工具。 【思考】相关关系与函数关系有什么不同? 【强调】相关关系与函数关系的不同之处表现在: (1)函数关系指变量之间的关系是确定的,而相关关系的两变量的关系则是不确定的。可以在一定范围内变动; (2)函数关系变量之间的依存可以用一定的方程y=f(x)表现出来,可以给定自变量来推算因变量,而相关关系则不能用一定的方程表示。函数关系是相关关系的特例,即函数关系是完全的相关关系,相关关系是不完全的相关关系。 2、相关的种类 (1)按相关的程度分,有完全相关、不完全相关和不相关。 相关分析的主要对象是不完全的相关关系。 (2)按相关的性质分,有正相关和负相关。正相关指的是因素标志和结果标志变动的方向一致,负相关指的是因素标志和结果标志变动的方向相反。 (3)按相关的形式分,有线性相关和非线性相关。 (4)按影响因素多少分,有单相关和复相关。 二、相关系数的计算 1、相关系数的特点 相关系数是测定变量之间相关密切程度和相关方向的代表性指标。相关系数用符号“γ”表示,其特点表现在:(1)参与相关分析的 48 两个变量是对等的,不分自变量和因变量,因此相关系数只有一个。(2)相关系数有正负号反映相关关系的方向,正号反映正相关,负号反映负相关。(3)计算相关系数的两个变量都是随机变量。 2、利用相关系数判别相关密切程度的方法: 3、相关系数的计算 利用相关系数的基本公式计算相当繁琐,但利用代数推演的方法可得到许多计算相关系数的简化式,如: nxyxy2nx(x)ny(y)222 【案例】某公司10个企业的销售收入和销售利润的资料如下: 表5-1 企业销售收入与销售利润相关表 单位:万元 企业编号 1 2 3 4 5 6 7 8 9 10 第一步,画相关图 相关图也称散点图,是在平面直角坐标系中,以横轴表示变量X,以纵轴表示变量Y,将相关表中对应的资料数值在图上标出坐标点所形成的图形,图中的坐标点会显示一定的相关关系。通过相关图可以大致看出两个变量之间有没有关系,是什么样的关系(正相关或负相关),相关的密切程度如何。将表5-1中的 销售利润(万元)销售收入X1 10 20 24 30 30 40 50 56 60 60 销售利润X2 1.8 2.0 2.4 3.5 4.4 5.0 5.0 5.6 6.0 6.4 资料绘制成相关图,能较直观地看出两个变量间的线性关系。 7 6321001020 图5-1 企业销售收入与销售利润相关图 49 3040 销售收入(万元)506070第二步,计算两者之间的相关系数 相关表和相关图都只能让我们了解现象之间相关关系的粗略情况,还不能进行“量化”,为了更有效、更具普适性地表示现象之间相关关系的密切程度,还需要计算相关系数。 相关系数是用于测定两个变量之间线性相关程度和相关方向的统计分析指标,用字母r表示。 相关系数从原理上说,可根据两个变量与其算术平均数的离差乘积来计算,这种计算方法称为“积差法”,是计算相关系数的基本方法。其计算公式为: 式中:n表示相关变量的项数; σxy代表两个变量离差乘积的平均数,也称为变量x与y的协方差; 其他符号的意义同前 相关系数的积差法公式表明,在直线相关条件下,协方差σxy为正值时,相关系数也为正值,表示正相关;σxy为负值时,相关系数也为负值,表示负相关;σxy为零时,相关系数为0,表示两个变量不相关。相关系数的变动范围在-1到+1之间,即|r|≤1,|r|的大小表示相关程度的高低。 nxyxy2nx(x)ny(y)222=0.923 习惯上——而不是严格意义上,我们还可以根据相关系数的值把相关关系的强度赋予一定的“名称”,即相关系数的绝对值|r|在: 0.3以下,称为微弱线性相关; 0.3—0.5,称为低度线性相关; 0.5—0.8,称为显著线性相关; 0.8以上,称为高度线性相关。 如果计算相关系数时,使用的数据量较小,容易受偶然现象的影响,相关系数的可信度就比较低,这时需要对相关系数进行检验,检验样本相关系数r对总体相关系数ρ的代表性。 【练习】课后习题 50 第6章 相关与回归分析 教学目的和要求:通过本章学习,要对回归分析的特点、作用及一些基本概念有正确的理解。掌握回归方程的计算方法。 教学重点和难点:回归方程的建立,回归系数的含义 教学手段:启发教学法、案例讨论法 教学时量:3课时 一、回归分析的概念 如果现象之间存在着相关关系,比如,变量X增长了,经常能发现变量Y也在增长,变量Y下降的时候,变量X也经常在下降(这表现的就是相关关系),这时,不管人们能否解释X和Y之间的逻辑关系或内在的确定性,他已经知道,可以在某种程度上利用这个规律。一个问题接踵而至——当X增加1%时,Y会增加多少?这就涉及了回归的问题。 “回归”一词不如“相关”一词更直观。Regession意为“衰退”,其最早是用于“特异现象向普通现象复原或倒退”意义上的“回归”,或者说,是“从特异回归到平常”。 .. 【思考】回归分析与相关分析的区别与联系 【讲解】回归与相关的区别与联系 回归和相关都是研究两个变量相互关系的分析方法。 相关分析研究两个变量之间相关的方向和相关的密切程度。但是相关分析不能指出两变量相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化关系。回归方程则是通过一定的数学方程来反映变量之间相互关系的具体形式,以便从一个已知量来推测另一个未知量。为估算预测提供一个重要的方法。 二、回归方程的拟合 简单线性回归方程的建立 简单线性回归方程式为: y=a+bx 式中:y是y的估计值,a代表直线在y轴上的截距,b表示直线的斜率,又称为回归系数。回归系数的涵义是,当自变量x每增加一个单位时,因变量y的平均增加值。当b的符号为正时,表示两个变量是正相关,当b的符号为负时,表示两个变量是负相关。a、b都是待定参数,可以用最小平方法求得。 51 【案例】例如,某企业上半年产品产量与单位成本资料如下: 月 份 产 量(千件) 单位成本(元) 1 2 73 2 3 72 3 4 71 4 3 73 5 4 69 6 5 68 要求: (1)计算相关系数,说明两个变量相关的密切程度。 (2)配合回归方程,指出产量每增加1000件时,单位成本平均变动多少? (3)假定产量为6000件时,单位成本为多少元? 解:(1) nxyxy2nx(x)ny(y)222 6148121426679216302684260.9091 0.9091说明产量和单位成本之间存在高度负相关。 (2)配合回归方程 y=a+bx bnxyxynx(x)22 =-1.82 aybx=77.37 回归方程为:y=77.37-1.82x (3)当产量为6000件时,即x=6,代入回归方程: y=77.37-1.82×6=66.45(元) 【练习】 根据某部门8个企业 产品销售额和销售利润的资料得出以下计算结果: 22xyx=1127 =2969700 =4290 =121.11 y=260.1 xy要求: (1)计算产品销售额与利润额的相关关系; (2)建立以利润额为因变量的直线回归方程并说明回归系数的经济意义; (3)计算估计标准误差。 52 解:(1)计算相关系数 nxnxyxy2(x)ny(y)222=0.9934 (2)配合回归方程 y=a+bx bnxyxynx(x)22 =0.742 aybx=-7.2773 回归方程为:y=-7.2772+0.742x (3)估计标准误:syy2aybxyn2=2.8493 4、估计标准误差分析 估计标准误差是衡量因变量的估计值与观测值之间的平均误差大小的指标。利用此指标可以说明回归方程的代表性。 【加强练习】课后习题 53 第7章 时间序列分析和预测 教学目的和要求:通过本章学习,了解时间序列及其分解,掌握时间序列的描述性分析,了解时间序列的预测步骤和预测方法。 教学重点和难点:时间序列的描述性分析 教学手段:启发教学法、案例讨论法 教学时量:3课时 一、时间数列的概念和作用 时间数列就是将反映社会经济现象数量特征的统计指标值按时间的先后顺序排列所形成的数列,又称动态数列。 时间数列由两个基本要素组成:现象所属时间(t)和各个时间所对应的统计指标值(Y)。即时间数列由两个互相对应的两个数列构成:时间顺序变化数列和统计指标变化数列。 编制时间数列的主要目的是用于开展时间数列分析:了解现象过去的活动过程,评价当前的状况和对未来的决策,因而是统计的重要方法之一。 (一)通过编制动态数列,可以反映社会经济现象的发展变化及历史状况,还可以根据动态数列计算各种时间动态指标数值,以便具体深入地揭示现象发展变化的数量特征。 (二)通过动态数列,可以揭示社会经济现象的数量变化趋势,以便进一步研究确定这种趋势和波动是否有规律性的反映。当有季度或月份资料的动态数列时,可以确定是否存在季节变动和季节变动的数量表现。 (三)通过动态数列,可以对某些社会经济现象进行动态趋势预测,是统计预测方法的一个重要内容。 (四)利用不同的动态数列进行对比,或不同国家(或地区)间的相同动态数列对比是对社会经济现象进行统计分析的重要方法之一。 二、时间数列的种类 时间数列按其指标性质不同,可以分为绝对数时间数列、相对数时间数列和平均数时间数列三大类。其中绝对数时间数列又称之为总量指标时间数列,是基本数列,其余两种是派生数列。 1.总量指标时间数列是由总量指标按时间的顺序排列而成的数列。如表5-1。总量指标时间数列按指标所反映的时间状况不同又可分为时期数列和时点数列。 时期数列是时期时间数列的简称,其数列指标是反映现象在一段时间数列内发展过程的总量,如:总产量、总产值等。 时期数列有以下几个特点:(1)数列中各个时期的指标数值可以相加。 (2)数列中每一个指标数值的大小与其所包括的时期和长短有直接关系。 (3)时期数列具有连续统计的特点。 时点数列有如下几个特点:(1)数列中每个指标数值是不能相加的。 (2)数列中每个指标数值的大小与其时间隔长短没有直接联系。 (3)时点数列指标值不具有连续统计的特点。 2.相对指标时间数列数列和平均指标时间数列数列,是分别由相对指标和平均指标按时间数列顺序排列而形成的数列。由于相对指标和平均指标是由两个总量指标派生而来的,总量指标有时期指标和时点指标,从而相应构成不同的时间数列数列。在相对数列动态数列中,各个指标数值是不能相加的。 3.平均数动态数列中各个指标值也是不能相加的。因为各平均数相加后是毫无意义。 三、时间数列数列的编制原则 编制时间数列的目的,是通过各个时期指标值的对比,来研究社会经济现象的发展变化及其规律性。因而各时期指标值的可比性乃是编制时间数列数列的基本条件。其可比性具体如下: (一)时间长短统一。不论时期数列还是时点数列都应尽量保持时间数列的时间的可比性,包括时期数列的时期跨度和时点数列的时点间隔的一致性。否则就很难从数列的指标数值变化上直接作出判断和比较或更准确地反映现象的发展趋势和变化规律。但这个原则不能绝对化,有时在特殊的研究目的下,可将时期不同的指标编成为动态数列进行比较。例如,为反映我国钢产量的发展情况,可以把“六五”、“七五”计划时期的钢产量同第一个五年计划和前旧中国几十年的钢产量总和进行对比分析。 (二)总体范围统一。在同一时间数列中总体范围前后应该一致,若有变化,指标数值就不能直接对比,而必须经过调整后才能进行比较。 (三)计算方法、价格和计量单位的统一。计算方法有时也可以叫做计算口径。例如要研究企业劳动生产率的变动,产量指标是用实物量指标还是用价值量指标,人数指标是用全部职工人数还是用生产工人数,若进行动态对比,前后应一致。再如,要把不同时期的工业产值进行对比,就要注意到价格水平的变动,是 55 采用不变价,还是用现行价格,在前后时期对比时,价格应一致。 (四)指标的经济含义统一。即使经济指标的名称是相同的,其所包含的经济含义有可能是不一样。在实际工作中应注意不同历史时期、不同国家或地区的同一指标的经济内容的一致性。如农业总产值指标,在1984年前包含村办工业产值,而在1984年以后则不包含这一部分内容。这样1984年后的农业总产值的内容就不尽相同,在进行动态分析时要注意这一点,对指标适当调整后,才可对比。 56 第7章 时间序列分析和预测 教学目的和要求:通过本章学习,了解时间序列及其分解,掌握时间序列的描述性分析,了解时间序列的预测步骤和预测方法。 教学重点和难点:时间序列的描述性分析 教学手段:启发教学法、案例讨论法 教学时量:3课时 在编制时间数列的基础上,为了反映社会经济现象在不同时间条件下的发展变化、研究事物的发展变化规律,需要进行各种动态分析,其中基础的方法就是通过对比分析计算各种动态分析指标,来反映社会经济现象在不同时间条件下的发展变化。常见的动态分析指标有: 水平分析指标:发展水平、平均发展水平、增长量、平均增长量; 速度分析指标:发展速度、平均发展速度、增长速度、每增长1%的绝对值、平均增长速度。 一、时间数列的水平指标(一)发展水平 发展水平是时间数列中具体时间条件下的指标数值,又称时间数列水平。是计算其他动态分析指标的基础,多用ai表示。 (二)平均发展水平 平均发展水平又称之为序时平均数,它是将整个时间数列作为一个整体,反映这个整体的一般水平。序时平均数与一般的算术平均数虽然都是通过具体数值计算,反映整体的一般水平,但两者也存在着明显的差异,主要表现在: 1.序时平均数平均的是事物在不同时间上的数量差异;算术平均数平均的是总体各单位某一数量标志在同一时间上的数量差异。 2.序时平均数是从动态上说明某一事物在不同时间上发展的一般水平;算术平均数是从静态上说明同一事物总体不同单位在同一时间上的一般水平。 3.序时平均数是根据时间数列计算的;算术平均数是根据变量数列计算的。序时平均数的计算,由于不同时间数列具有不同特点需要用不同的方法,现分别讨论如下: (1)根据绝对数时间数列计算序时平均数。 由前述可知,在绝对数时间数列中主要是由总量指标所构成的时间数列,而 57 总量指标根据其时间状况不同又可分为时期指标与时点指标,并分别构成时期数列与时点数列。时期数列与时点数列各自所具有的不同特点,使得在平均指标的计算上具有明显的差异。 ①由时期数列计算序时平均数。 由于时期数列中的各项指标数值都是反映社会经济现象在一定时期内的过程总量,具有可加性,因此我们可以采用简单算术平均的方法计算序时平均数,即将时期数列中研究范围内的各项指标数值之和除以时期项数来得到。计算公式为: aani ②时点数列序时平均数。要精确计算时点数列序时平均数就应该有每一瞬间都登记的资料。这在实际中几乎是不可能的,所以习惯上以天为单位作为瞬间即一时点。即使这样也较繁杂。通常的作法有两种:一是每隔一段时间登记一次,时点定在月(季、年)初或末,每次登记的间隔相等;二是只当现象的数量发生变化时登记,每次登记的间隔不等。两种情况下计算序时平均数的方法有所不同: “首尾折半法”——用于间隔相等的时点数列: 11a0a1......an1an2a2 N1“两两平均法”——用于间隔不等的时点数列: a0a1a1a2aa......n1n22a2 n (2)由相对指标或平均指标计算序时平均数。 相对指标或平均指标时间数列是由互相联系的两个总量指标时间数列加以计算的在相对指标或平均指标背后掩藏着与之相适应的绝对数,我们不能象总量指标时间数列那样直接计算序时平均数。只能按照数列的性质,分别计算分子、分母两个基本点总量指标时间数列的序时平均数,然后加以对比。所以,总量指标时间数列的序时平均数是基本方法,从相对指标或平均指标时间数列计算序时平均数,也应以此为基础。其算式一般写为: acb 58 式中“=”左边代表相对指标或平均指标的序时平均数,右边分子、分母分别代表子项和母项总量指标的序时平均数。在这里a、b作为总量指标时间数列(时点或时期)有三种可能: ①a、b均为时期数列。②a、b均为时点数列。③a、b一个为时点数列一个为时期数列。 (三)增长量 增长量就是报告期水平与基期水平之差,用公式表示为:增长量=报告期水平-基期水平=a1-a0 在增长量的计算中,由于报告期水平可以大于基期水平,也可以等于或小于基期水平,所以增长量可以是正值,也可以是零或负值,它们分别表示正增长、零增长或负增长。 由于基期的确定方法不同,增长量可分为逐期增长量与累计增长量。逐期增长量是报告期水平减去基期水平说明现象逐期增长的数量;累计增长量或累积增长量则是报告期水平与某一固定期水平(通常为a0)的差额,说明事物某一时期内的总增长量: 逐期增长量=a1-a0,a2-a1,……,an-an-i累计增长量=a1-a0,a2-a0,……,an-a0 我们不难得出如下结论:①累计增量等于逐期增量之和,即:(a1-a0)+( a2-a1)+……+(an-an-i )= an-a0 ②相邻两期累计增长量之差等于相应的逐期增量 在实际统计分析工作中,为了消除季节变动的影响,增加可比性,常计算本期发展水平与上年同期水平的增减数量,称为年距增长量。 四、平均增长量 平均增长量是增长量的序时平均数,说明现象在一定时期内平均每期增长的数量,较常用的方法有两种:一是水平法,它是将各个逐期增长量相加之后除以逐期增长量的个数,或累计增量除以时间数列项数减1,用公式表示为: 水平法:平均增长量=逐期增长量之和除以逐期增长量个数总和法:要求用平均增长量Δ推算的各期理论水平之和等于各期实际水平之和 59 第7章 时间序列分析和预测 教学目的和要求:通过本章学习,了解时间序列及其分解,掌握时间序列的描述性分析,了解时间序列的预测步骤和预测方法。 教学重点和难点:时间序列的描述性分析 教学手段:启发教学法、案例讨论法 教学时量:3课时 一、发展速度 发展速度是指某种社会经济现象报告期水平与基期水平之比。反映某种现象的发展方向和程度。其计算公式为: 发展速度= 报告期水平 基期水平发展速度通常以百分数表示,发展速度大于100%表示上升,小于100%表示下降。当发展速度很大时也可以以倍数表示,比如我们常说的“翻两番”就是以倍数关系表示的。由于对比基期的不同,发展速度又可分为定基发展速度和环比发展速度。 定基发展速度是动态数列中各报告期水平与某一固定基期水平(固定基期一般是最初水平a0,有时可以是某一特殊水平)之比,反映现象在一个较长时期内的发展变动程度。因此,定基发展速度又称为总发展速度。其计算公式为: 定基发展速度= 报告期水平 固定基期水平aaa1a,2,3,…,n a0a0a0a0用符号表示为: 例如表5-10某企业商品零售总额的定基发展速度,就是由2000-2004年各期发展水平分别与1999年的发展水平对比而得的。 环比发展速度是动态数列中报告期水平与前一期水平之比。反映现象逐期发展变动的程度。如果计算的单位时间为一年,这个指标也可叫做年速度。其计算公式为: 环比发展速度= 报告期水平 前一期水平aaaa1,2,3,…,n a0a1a2an1用符号表示为: 60 上述两种发展速度之间存在着一定的数量关系: 第一、定基发展速度等于各相应时期环比发展速度的连乘积,即 aana1aa=×2×3×…×n a0a0an1a1a2aia0ai1ai= a0ai1第二,两个相邻时期的定基发展速度之比等于相应时期的环比发展速度,即 为了消除季节因素对社会经济现象发展变化的影响,在计算月份或季度发展速度时,可选用上年同期作为对比的基期,计算年距发展速度。此外,还可以选用历史最高水平的时间作为对比的基期,以反映在报告期超过或不及历史最高水平的程度。见表5-10。 二、增长速度 增长速度又称为增减速度,是报告期增长量与基期发展水平之比。它是表明社会经济现象增长程度的相对指标。其计算公式为: 增长速度= 增长量报告期水平基期发展水平= 基期水平基期水平=发展速度-1 增长速度通常用百分数表示。当发展速度大于100%时,增长速度为正值,表示现象增加的程度;当发展速度小于100%时,增长速度为负值,表示现象减少的程度。 增长速度由于采用基期不同,也分为定基增长速度和环比增长速度。 定基增长速度是报告期的累计增长量与某一固定基期(通常为最初水平)之比,表明某种现象在一段时期内总的增长速度。其计算公式为: 累计增长量 某一固定基期水平报告期水平某一固定基期水平= 某一固定基期水平定基增长速度= =定基发展速度-1 用符号表示为: a1a0aaaaaa,20,30,…,n0 a0a0a0aaaa1a20或 -1, -1, 3-1,…,n-1 a0a0a0a0见表5-10资料。 环比增长速度是指逐期增长量与前一期水平之比,表明某种现象逐期的增长速度。其计算公式为: 环比增长速度= 逐期增长量 前一期水平 61 = 报告期水平前一期水平 前一期水平=环比发展速度-1 用符号表示为: aaaaa1a0aa,21,32,…,nn1 aa0a1a2aaa2n1a1或 -1, -1, 3-1,…,n-1 aa0a1a2见表5-10资料。 n1值得注意的是,定基增长速度和环比增长速度之间没有量的直接乘除关系,就是说,环比增长速度的连乘积不等于定基增长速度。如需推算,必须将增长速度转化为发展速度,利用发展速度的关系互相推算,再转化为增长速度。 为了把速度指标、水平指标结合起来,深入分析环比增长速度与逐期增长量之间的关系,进一步反映增长速度的实际效果,有必要计算环比增长速度每增加一个百分点所代表的绝对量,通常称为增长1%的绝对量。其计算公式为: 增长1%的绝对量逐期增长量前一期水平 环比增长速度100100例如上年的销售额为1030万元,今年要增加5%,今年的销售额目标是1081.5万元,所对应的增长1%绝对量就是10.3万元。 请思考:下面是上海市2003年上半年外贸进出口情况,请指出各指标属于动态数列分析中的那项指标?2003年1-6月上海市外贸进出口总额为496.95亿美元,比去年同期增长57.2%。其中出口额218.39亿美元,增长62.8%。 三、平均发展速度与平均增长速度 社会经济现象在不同时期的发展速度是不同的,为了说明社会经济现象在一段较长时期内发展变化的一般程度,必须将现象在这个时期内的发展速度差异加以抽象,计算平均速度指标。平均速度指标有平均发展速度和平均增长速度两种。 平均发展速度是某种社会经济现象各环比发展速度的序时平均数,说明在发展期内平均发展变化的程度。平均增长速度又称平均增减速度,说明现象在较长时期内平均每期增长或降低的速度,是根据它与平均发展速度的关系推算出来的。其计算公式为: 平均增长速度=平均发展速度-1(或100%) 平均发展速度的计算方法有两种,一是水平法(或称几何平均法),另一种是累计法。 62 (一)、水平法 由于社会经济现象发展的总速度不等于各年发展速度之和,而等于各年环比发展速度的连乘积,所以平均发展速度不能用算术平均法计算,而要用几何平均法计算,这种方法称为水平法。其计算公式为: x=nx1x2x3xn=nx 式中,x代表平均发展速度,x代表各期环比发展速度,n全代表环比发展速度的项数,代表连乘符号。 由于动态数列中定基发展速度等于各环比发展速度的连乘积,所以,计算平均发展速度的公式又可以表示为: x=naaa1a2......n=nn a0a1an1a0一段时期的定基发展速度即为现象的总速度。如果用R表示总速度,则平均发展速度的公式还可以表示为: x=nR 以上计算平均发展速度的三个公式,虽然形式不同,但其实质内容与计算结果完全相同。计算平均发展速度,究竟采用哪个公式,主要取决于所掌握的资料。利用几何平均法求现象的平均发展速度,可以借助对数计算,也可以直接用多功能电子计算器计算。现以表5.10中的资料,将平均发展速度的几种算法分别举例如下: 例: 已知某企业商品零售总额2000-2004年各年的环比发展速度分别为:115.3%,118.7%,120.4%,128.6%,134.3%;求年平均发展速度。 x=nx =5115.3%118.7%120.4%128.6%134.3% =123.2% 例: 如果已知该企业消费品零售额1999年为7250.3亿元,2004年为20620.0亿元,求年平均发展速度。 x=nan520620.0==123.2% a07250.3【案例】 如果已知我国社会消费品零售额1990-1995年的总发展速度是284.4%,求年平均发展速度。 x=nR=5284.4%=123.2% 计算结果表明,用以上三种公式对同一现象计算平均发展速度,其计算结果 63 相同(有时出现小数不一致的情况,属计算过程中四舍五入情况造成的误差)。但是这种方法不能准确反映中间水平的起伏状况。从理论上讲,用水平法计算的平均发展速度,是对一定发展阶段各期环比发展速度的平均,受各个时期发展水平的影响;但从计算公式中观察,它只突出了最初水平和最末水平的影响,不能全面反映现象在整个发展阶段各期发展快慢的差别。 因此,在运用这一指标时,应注意最初水平与最末水平是否受特殊因素影响;同时,要联系各期环比发展速度加以分析,必要时用分段平均发展速度补充总平均发展速度,以对现象的发展作出更加全面、客观、科学地评价。 (二)累计法 累计法是以各期发展水平的总和与某一基期水平之比为基础,利用一元高次方程计算平均发展速度的方法。计算公式为: xxx......x23naa0i 解出这个高次方程的正根,就是所求的平均发展速度。在实际中,计算比较麻烦,一般根据事先编好的《平均发展速度表》来计算。 请思考:为什么说高水平难以高速度,低水平却可以高速度呢?为什么中国国内生产总值可以以每年大于7%的速度增长,美国国民生产总值每年增长不到4%,而美国仍然发展很快呢? 四、时间数列的构成分析 时间数列的构成可以分成四类:长期趋势、循环变动、季节变动和不规则变动。把这些变动与时间数列的关系用一定的数学关系式表示,就构成了时间数列的分解模型。其种类有很多,其中加法模型和乘法模型是最基本的。 加法模型Y=T+C+S+I 乘法模型Y=T×C×S×I 式中Y表示时间数列(总变动),T表示长期趋势,C表示循环变动,S表示季节变动,I表示不规则变动。 (一)长期趋势测定 长期趋势是指现象在较长时期内持续发展变化的方向和状态。研究长期趋势,对正确认识事物发展变化的数量规律有中要意义。 长期趋势是现象在一段较长的时间内,由于普遍的、持续的、决定性的基本因素的作用,使发展水平沿着一个方向,逐渐向上或向下变动的趋势。 在一个长时期的动态数列中,影响数列中指标数值升降变动的因素是多方面 的,除了长期趋势外,另有一些因素短期起作用,造成短期的波动,还有一些偶然性因素,造成不规则的偶然变动,在按月或按季资料中,有不少现象还存在季节变动。在一个动态数列中,这几种变动往往是互相交织在一起的。现象变动的长期趋势就体现在这种多因素相互交织作用所形成的波动中,只有把波动修匀之后,才能体现出趋势的状态和走向。 长期趋势的测定,就是用一定的方法对动态数列进行修匀,使修匀后的数列排除季节变动,偶然变动等因素的影响,显示出现象变动的基本趋势,作为预测的依据。 1、移动平均法 移动平均法是通过对原有的时间数列进行修匀,以测定长期趋势的一种比较简单的方法。即对时间数列采用逐项移动的办法按一定时期分别计算一系列序时平均数,形成一个派生的时间数列。 所谓移动平均,就是从动态数列的第一位数值开始,按一定项数求序时平均数,逐项移动,边移动边平均。这样就可以得到一个由移动平均数构成的新的动态数列,这个派生的新动态数列把原数列中的某些不规则变动加以修匀,变动更平滑,趋势倾向更明显,可以更深刻地描述现象发展的基本趋势。 移动平均项数的确定是一个重要问题,因为移动项数多少直接影响修匀的程度。一般说来,移动项数越多,修匀的作用就越大,而所得出的移动平均数的项数也就越少;反之,移动项数越少,修匀的作用就越小,所得出的移动平均数的项数也就越多。移动项数的确定应注意动态数列水平波动的周期性。一般要求移动项数与周期变动的时距相吻合,或为它的整倍数。比如,对于具有季度或月份水平资料的时期数列,经受每年季节性的涨落,主要必须清除季节变动因素,以运用4项或移动平均为宜。在以年为单位的数据所形成的动态数列中,所要清除的是循环变动和不规则变动因素,这时,可借助于动态数列水平的观察,看一看循环周期大体是几年,就相应采用几年移动平均。而且宜用奇数项较简便,每次移动平均值应对准所平均时期的正中间,奇数项平均数正好对着中间时期,一次平均即可,偶数项移动平均因为中点错了半期,需要再作一次两项移动平均才能正过来。可见,偶数项移动平均,计算较繁,故一般多用奇数移动平均。采用移动平均法测定事物发展的长期趋势,其优点是简单易行,便于操作,同时它的局限性亦很明显。 2、长期趋势法 最小二乘法是测定长期趋势的常用方法,又称数学模型法。是利用趋势方程 65 来描绘数列长期趋势进而进行未来预测的一种统计方法。 Yc=a+bt Yc时间数列的趋势值 a、b直线趋势方程的截距、斜率t 时间标号 据∑(y-yc)2=最小值,利用微分求极值原理,可得到 ntyty b22nt(t)aybt 若t0 ,意味着实际中的原点是随着研究的范围的变化而不同,趋势方程的原点的移动,给计算带来了较大的便利。若数列为奇数项,中间项的时间序号t被设为0,则数列的时间顺序分别为……-3,-2,-1,0,1,2,3,……那末,∑t=0。若数列为偶数项,原点可设在中间两项的中点,则t值分别为……-5,-3,-1,(0)1,3,5,……如此,同样可使∑t=0。于是系数a、b的计算式便可得到简化: ty bt2ay 尽管两方程原点不一样,但预测的结果完全一致。 现实生活中,大量的现象是非线性发展的,因此,研究长期趋势变动的各种曲线类型是十分必要的。当客观现象的发展呈曲线变动时,仍然可以用最小平方配合曲线,求趋势值。曲线种类很多,这里就不介绍了。 3、季节变动及测定 季节变动是指现象随着季节的变动而引起的比较有规则的变动。认识和掌握这种变动规律,对于组织生产、安排人民生活等都具有重要意义。研究季节变动,对于正确认识现象整体的发展变化规律性,也具有重要意义。例如,农牧业生产就是典型的季节性生产,并且也影响以农牧业产品为原料的加工工业的生产、商业部门对农牧产品的购销以及交通运输部门的货运量方面,使得它们的生产经营也带有季节性。又如在北方,建筑业的生产冬季就要受到影响,日常生活人们对四季服装的需求季节性也很明显。季节变动的原因,主要是自然季节、气候的影响,同时也与人们的生活习惯、作息制度有关。自然季节的更替不以人们的意志为转移,人们的生活习俗、作息制度也较稳定,因而季节性变动是规律性较强的 66 变动。这主要表现在季节变动通常以一年为周期有规律地重复变动,而且各周期的变动幅度大致相同。 季节变动对某些部门的生产经营活动和人们的经济生活有一定的影响,所以要对它进行测定,看看它的规律性和变化情况。测定季节变动对实际工作有重要意义。首先,掌握了季节变动的规律性,有利于指导工作。我们研究社会经济现象的季节变动的主要目的,就是在于考察在一定历史条件下已经形成的季节变动的规律性,掌握其变动的幅度,不仅有助于有关部门和企业制定计划、合理组织货源,准备原料进行生产,有效地使用资金,取得较好的经济效益,而且可以提高为人民经济生活服务的质量。其次,可根据季节变动规律性进行经济预测。季节变动的规律性强,可据此进行短期预测,得到比较准确的结果;同时,利用季节变动规律配合长期趋势进行长期预测,可以大大提高预测的准确性。 (一)简单平均法 简单平均法又称按月(季)平均法。计算时,首先根据历年(三年以上)同月(季)资料求出该月(季)的平均数,然后将各月(季)的平均数与总平均数相比,得到季节比率(指数)。其计算步骤与方法如下: 1、分别就每年各月的数字加总后,求各该年的月平均数;2、各年同月数字加总,求若干年内同月的平均数;3、若干年内每个月的数字总计,求总的月平均数; 4、将若干年内同月的平均数与总的平均数相比,即得季节比率,也叫季节指数。 季节比率=各月(季)的平均数除以总平均数 按月或季平均法计算季节比率要求至少三个周期以上的资料,具体来说按月平均不能少于36个月的资料;按季平均不能少于12个季的资料。 (二)趋势剔除法 这种方法的特点是将移动平均数作为长期趋势加以剔除,再测定季节变动。 67 第8章 指 数 教学目的和要求:了解指数的概念和分类,掌握各种指数编制的方法。 学习重点:主要讲授统计指数的概念和分类,总指数的综合形式,总指数的平均形式,指数体系与因素分析等。关键是讲清楚各种指数(指数体系)编制的基础、编制的原则、编制的方法和应用的条件。 教学手段:案例教学法 教学时量:3课时 一、统计指数的概念 广义上说,指数是指用来反映研究所研究社会经济现象总体数量变动状况的相对数。 狭义上说,指数是指用来综合反映所研究社会经济现象复杂总体数量变动状况的相对数。 二、统计指数的分类 按所反映的对象范围不同,统计指数分为个体指数和总指数。 按所表明现象的数量特征不同,统计指数分为数量指标指数和质量指标指数。 总指数按其所采用的指标形式不同,可以分为综合指数与平均指数。 按比较对象不同,统计指数可分时间性指数、地区性指数和计划完成指数。 在指数数列中按所采用的基期不同,统计指数可分为定基指数和环比指数。 三、综合指数的概念及计算的一般原理 指数方主要是研究总指数的计算问题,总指数的编制方法,其基本形式有两种:一是综合指数,二是平均指数。两种方法有一定的联系,但各有其特点。 综合指数是对两个时期范围相同的复杂现象总体总量指标对比形成的指数,在总量指标中包含两个或两个以上的因素,将其中被研究因素以外的一个或一个以上的因素固定下来,仅观察被研究因素的变动,这样编制的指数,称为综合指数。 综合指数的重要意义,是它能够比较全面、准确地反映所研究的现象总体总的变动程度和随之产生的绝对数效果。 它的特点是先综合后对比。其编制方法是:首先引入同度量因素,解决复杂总体在研究指标上不能直接综合的困难,使其可以计算出总体的综合总量;其次, 68 将同度量因素固定,以消除同度量因素变动的影响;最后将两个时期的总量对比,其结果即为综合指数,也就综合地反映了复杂总体研究指标的变动。 例如甲乙两种产品,由于使用价值不同,计量单位不同,其产量是不能直接相加的,但不同产品的价值量可以相加。因此,我们可以利用产值与产量和价格之间的联系,将产量乘以各自的价格,得到产值,则两种产品便可以加总了。这里,价格起到将不同产品同度量的作用,被称为同度量因素。我们所要研究的指标——产量,被称为指数化指标。如果我们的任务是研究甲乙两种产品的价格变动情况,同样的道理,则可把价格作为指数化指标,仍然依据产值、价格与产量间的经济联系,把产量作为同度量因素,从而将两种产品综合起来。同时还要将同度量因素固定,消除同度量因素变动的影响。在本例中,作为同度量因素的价格,报告期对基期也可能发生变动,这样,将两个时期的产值对比,就不仅受到产品产量变动的影响,同时也受到两个时期价格变动的影响。因此,需要将价格固定,即两个时期的产值,均采用同一时期的价格计算,借以消除价格变动的影响。将采用同一时期价格计算的两个产值对比,其结果仅受到两种产品不同时期产量变动的影响,从而达到综合反映两种产品产量变动的目的。实际应用中,还有一个重要的问题需要解决,即固定的同度量因素所属时期的选择问题。究竟固定在报告期还是固定在基期,十分重要,因为同度量因素不仅起同度量的作用,而且具有加权的作用,用不同时期的同度量因素计算,会得到不同的综合指数结果。 四、数量指标综合指数的编制 现以商品销售量综合指数的编制为例来说明数量指标综合指数编制的一般原则和方法。 现以Iq代表销售量总指数,于是有: (1)用基期价格为同度量因素(加权),公式为: q1p0 Iqqp00 (2)用报告期价格为同度量因素(加权),公式为:q1p1Iq qp01上述公式又称拉氏数量指数公式,它是18年由德国学者拉斯贝尔提出的。 这个公式又称派氏数量指数公式,它是1874年德国学者派许提出的。 69 从理论上讲上述两个公式均可成立,但在实际工作中,编制销售量综合指数时,一般均采用基期价格作为同度量因素。这是因为编制销售量综合指数的目的,是在于要排除价格因素的影响,单纯反映销售量的总变动。为此,必须将价格固定在基期上,这才符合经济现象的客观实际。 编制数量指标综合指数的一般原则是采用基期的质量指标作同度量因素。这一原则有两层含义:一是编制数量指标指数应以质量指标作同度量因素,二是将同度量因素固定在基期。 五、质量指标综合指数的编制 与计算商品销售量综合指数相似,计算价格综合指数时,也需要把作为同度量因素的商品销售量所属的时期固定。同样有拉氏与派氏两种指数公式可供使用。 以Ip代表价格综合指数,则有: (1)用基期销售量为同度量因素(加权),得出拉氏价格指数公式为: p1q0 Ipp0q0(2)用报告期价格为同度量因素(加权),得出派氏价格指数公式为: p1q1 Ippq01 从实际效果来看,人们更关心的是在报告期现实销售量的条件下,价格变动的幅度和所产生的经济效果,因此,把销售量固定在报告期用派氏价格指数计算更有实际意义。据此,可以得出:编制质量指标综合指数的一般原则是采用报告期的数量指标作同度量因素。这一原则有两层含义:一是编制质量指标指数应以数量指标作为同度量因素;二是将同度量因素固定在报告期。 六、综合指数的应用 综合指数的应用很广,在我国和其他各国,都有很多指数采用这种方法计算。下面来考察常用的几个方面。(一)工业产量(产值)指数 我国现行统计制度规定,工业总产值按统一规定的不变价格计算。于是,把不同年份的工业总产值对比所确定的动态指标,就是工业产量指数。它是以不变价格为权数(同度量因素)的固定加权综合的指数,用公式表示如下: 70 Iqqpqp10nn pn表示不变价格; qpn表示按不变价格计算的工业总产值。 用按不变价格计算的工业总产值来编制工业产量指数,具有如下优点: (1) 便于长时期工业产量动态分析,观察工业产值增长变化趋势及其规律性。 (2) 环比指数数列的连乘积等于定基指数,因而便于定基指数和环比指数之间的相互换算。 (二)地区物价比较指数 前已述及,指数理论主要应用于现象变动的动态研究,但是随着社会经济的发展和科学技术的进步,它已拓展到应用地区之间的综合比较。物价是经济领域中最富有敏感性的现象,因此需要编制物价对比的地区性指数。凡是在企业之间、地区之间甚至国家与国家之间相互比较的指数,都可称为地区性指数。编制地区性指数,人们所关心的是从对比中找出差距,以便挖掘潜力,为领导决策提供依据。因此,在编制物价的地区性指数时,一般以对比基准地区的物量为同度量因素,即编制对比基准地区物量加权综合指数。例如,比较甲乙两个城市全部商品的物价水平,甲城市为对比的城市,乙城市作为对比基准的城市,则物价地区性指数的计算公式为: q乙p甲 Ipq乙p乙 71 第8章 指 数 教学目的和要求:了解指数的概念和分类,掌握各种指数编制的方法。 学习重点:主要讲授统计指数的概念和分类,总指数的综合形式,总指数的平均形式,指数体系与因素分析等。关键是讲清楚各种指数(指数体系)编制的基础、编制的原则、编制的方法和应用的条件。 教学手段:案例教学法 教学时量:3课时 一、指数体系的概念与作用(一)指数体系的概念 由三个或三个以上具有内在联系的指数构成的有一定数量对等关系的整体,叫指数体系。指数体系的形式不是随意的,它是由现象间客观存在的必然联系决定的。 例如: 商品销售额=商品销售量×商品价格产品产值=产品产量×产品价格 上述这些现象在数量上存在的联系,表现在动态变化上,就可以形成如下指数体系: 商品销售额指数=商品销售量指数×商品价格指数 产品产值指数=产品产量指数×产品价格指数 在指数体系中,包括的指数分为两大类:一类是反映现象总变动的指数,通常表现为广义的总指数,这类指数在一个指数体系中只有一个,一般放在算式的左边。另一类是反映某一因素变动的指数,称为因素指数,这类指数在一个指数体系中可以是多个,一般放在等式的右边。 (二)指数体系的作用1.可以进行因素分析。 2.可以进行指数间的互相推算。 二、总量指标变动的指数分析(一)总量指标的两因素分析 对复杂现象总体的总量指标进行因素分析,要在编制综合指数的基础上进行。例如,要分析多种商品销售额的变动,就要编制出商品销售额指数用来反映总的变动情况,以商品销售量综合指数和商品价格综合指数为因素指 72 数,分别反映销售量和价格两个因素的变动对销售额变动的影响。 (二)总量指标的多因素分析 客观现象是比较复杂的,有时某一现象的变动可能要受到三个或三个以上因素的影响。当一个总量指标可以表示为三个或三个以上因素指标的连乘积时,同样可以利用指数体系测定各因素变动对总变动的影响,这种分析就是对总量指标的多因素分析。例如:位原材料价格 qmp=q×m×p 原材料费用总额=总产量×单位产品原材料消耗量×单 在运用多因素分析法时,一定要注意各因素的排列顺序。各因素之间的排列顺序,要符合它们之间相互联系的客观情况,一般是数量指标在前,质量指标在后;各因素的替换必须依据它们之间的客观经济联系,由数量指标到质量指标,按顺序逐次替换。在分析各因素的变动时,可以按综合指数确定同度量因素的一般原则进行,即分析质量指标的变动时将数量指标固定在报告期,分析数量指标的变动时将质量指标固定在基期。 根据这个原则,原材料费用总额指数可以分解为由三个指数构成的指数体系。 原材料费用总额指数=生产量指数×单位产品原材料消耗指数×单位原材料价格指数 qmpqmp1100110qmpqmpqmpqmpqmpqmp100110110001001100010 qmpqmp(qmpqmp)(qmpqmp)(qmpqmp1111100011010011111 0)三、平均指标变动因素分析 (一)平均指标变动因素分析的意义 平均指标是表明社会经济总体一般水平的指标。总体一般水平决定于两个因素:一个是总体内部各部分(组)的水平,另一个是总体的结构,即各部分(组)在总体中所占的比重。总体平均指标的变动是这两个因素变动的综合结果。平均指标变动的因素分析,就是利用指数因素分析方法,从数量上分析总体各部分水平与总体结构这两个因素变动对总体平均指标变动的影响。例如,一个部门的劳动生产率水平决定于部门内各单位(组)的劳动生产率水平和不同劳动生产率水平的单位(组)在部门内的比重两个因素。通过因素分析,可以弄清这两个因素 73 各自影响的方向程度和数量,从而对部门劳动生产率的变动能有深入地认识。 平均指标变动的因素分析是一种重要的统计分析方法,对经济管理与研究有重要的意义。影响总体平均指标变动的上述两类因素具有不同的性质。总体各部分的水平,主要取决于各部分内部的状况,反映了各部分内部各种因素的作用。而总体结构则是一种与总体全局完全有关的因素,总体结构状况确定着总体的一些基本特征。经济管理与研究的一项重要任务就是优化结构,使结构合理化。平均指标的因素分析,为这方面的深入研究提供了重要依据。 (二)平均指标变动因素分析的方法 依据指数因素分析法的一般原理,便可列出平均指标变动因素分析的指数体系。其指数体系为: 相对数: x1x0xffxff100110xffxff101111xffxff01001 0绝对数: x1f1x1f1(x1f1x0f1)(x0f1f1f1f1f1f1令xn明: xx1x1n x0xnx0x1x0(x1xn)(xnx0) xff1xff000) 01则平均指标变动因素分析的指数体系可用如下简明形式表 上述列出的指数体系包括了三个指数,依次被称为可变组成指数、固定构成指数、结构影响指数。 1.可变组成指数,简称可变指数是根据报告期和基期总体平均指标的实际水平对比计算的,包括了总体各部分(组)水平和总体结构两个因素变动的综合影响。它全面地反映了总体平均水平的实际变动状况。在结构影响较大的情况下,可变构成指数的数值有可能超出各个部分的变动程度范围。也就是说,与各个部分(组)的指数相比较,有可能比最大的部分指数还大,也有可能比最小的部分指数还小。 2.结构影响指数,它是将各部分(组)水平固定在基期条件下计算的总平均 74 指标指数,用以反映总体结构变动对总体平均指标变动的影响。 3.固定构成指数,它是将总体构成(即各部分比重)固定在报告期计算的总平均指标指数。该指数消除了总体结构变动的影响,专门用以综合反映各部分(组)水平变动对总体平均指标变动的影响。因而,在其数值表现上,它总是介乎于各部分(组)指数的范围内。事实上,固定构成指数是各个部分(组)指数的加权算术平均数。 75 因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- huatuo2.com 版权所有 湘ICP备2023021991号-2
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务