miss樱桃小米虫
判别分析是在分组已知的情况下,根据已经确定分类的对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法。 下面我们主要从下面四个方面来解说: [if !supportLineBreakNewLine] [endif] 实际应用 理论思想 建立模型 [if !supportLineBreakNewLine] [endif] 分析结果 [if !supportLineBreakNewLine] [endif] 一、实际应用 判别分析最初应用于考古学, 例如要根据挖掘出来的人头盖骨的各种指标来判别其性别年龄等.。慢慢的成为一种常用的分类分析方法,其通过已知的分类情况,根据数据的特征对其他研究对象进行预测归类。在实际生活中,判别分析也被广泛用于预测事物的类别归属。 [if !supportLineBreakNewLine] [endif] 企业营销中,营销人员可通过已有的客户特征数据(如消费金额、消费频次、购物时长、购买产品种类等),预测当前的消费者属于哪种类型的顾客(款式偏好型、偏重质量型、价格敏感型...),并根据其特点有针对性的采取有效的营销手段。或是根据各成分含量指标,判断白酒的品牌或水果的产地等。 除此以外,判别分析还可与聚类分析结合使用。比如,银行的贷款部门想要在发放贷款之前,可通过此方法判断申请人是否具有良好的信用风险。[if !supportLineBreakNewLine] [endif] 二、理论思想 判别分析首先需要对研究的对象进行分类,然后选择若干对观测对象能够较全面描述的变量,接着按照一定的判别标准建立一个或多个判别函数,使用研究对象的大量资料确定判别函数中的待定系数来计算判别指标。对一个未确定类别的个案只要将其代入判别函数就可以判断它属于哪一类总体。 [if !supportLineBreakNewLine] [endif] 常用的判别分析方法有距离判别法、费舍尔判别法和贝叶斯判别法。 [if !supportLineBreakNewLine] [endif] 费舍尔判别法: 费舍尔判别法利用投影的方法使多维问题简化为一维问题来处理。其通过建立线性判别函数计算出各个观测量在各典型变量维度上的坐标并得出样本距离各个类中心的距离,以此作为分类依据。 [if !supportLineBreakNewLine] [endif] 贝叶斯判别法: 贝叶斯判别法通过计算待判定样品属于每个总体的条件概率并将样本归为条件概率最大的组。其主要思想如下:首先利用样本所属分类的先验概率通过贝叶斯法则求出样本所属分类后验概率,并依据该后验概率分布作出统计推断。 [if !supportLineBreakNewLine] [endif] 距离判别法: 距离判别思想是根据各样品与各母体之间的距离远近作出判别的。其通过建立关于各母体的距离判别函数式,得出各样品与各母体之间的距离值,判别样品属于距离值最小的那个母体。 [if !supportLineBreakNewLine] [endif] [if !supportLineBreakNewLine] [endif] 三、建立模型 [if !supportLineBreakNewLine] [endif] 一般判别分析法的思路: 首先建立判别函数; 然后通过已知所属分类的观测量确定判别函数中的待定系数; 最后通过该判别函数对未知分类的观测量进行归类。 逐步判别分析法的思路: 逐步判别分析分为两步 首先根据自变量和因变量的相关性对自变量进行筛选, 然后使用选定的变量进行判别分析。 逐步判别分析是在判别分析的基础上采用有进有出的办法,把判别能力强的变量引入判别式的同时,将判别能力最差的变量别除。最终在判别式中只保留数量不多而判别能力强的变量。 数据条件: [if !supportLists]§ [endif]用户使用的分组变量必须含有有限数目的不同类别,且编码为整数。名义自变量必须被重新编码为哑元变量或对比变量。 [if !supportLists]§ [endif]个案独立的 [if !supportLists]§ [endif]预测变量应有多变量正态分布,组内方差-协方差矩阵在组中应等同。 [if !supportLists]§ [endif]组成员身份假设为互斥的(不存在属于多个组的个案),且全体为穷举的(所有个案均是组成员)。如果组成员身份为真正的分类变量时,则此过程最有效;如果组成员身份基于连续变量的值(如高智商与低智商),则用户需要考虑使用线性回归以利用由连续变量本身提供的更为丰富的信息。 一般判别分析案例: [if !supportLineBreakNewLine] [endif] 题目:以下3种不同种类豇豆豆荚的质量、宽度和长度的统计表,每种类型都为20个样本,共60个样本。根据不同种类豇豆豆荚的特征,建立鉴别不同种类豇豆的判别方程。 一、数据输入 [if !vml] [endif] 二、操作步骤 1、进入SPSS,打开相关数据文件,选择“分析”|“分类 ”|“判别式”命令2、选择进行判别分析的变量。在“判别分析”对话框的左侧列表框中,选择“类型”进入“分组变量”列表框。单击“定义范围”按钮,在“最小值”和“最大值”中分别输入1和3,单击“继续”按钮返回“判别分析”对话框。分别选择“质量”“宽度”“长度”3个变量进入“自变量”列表框,选中“使用步进法”单选按钮。 [if !vml] [endif] 3、设置判别分析的统计输出结果。 单击“判别分析”对话框中的“统计”按钮。在“函数系数”选项组中,选中“费希尔”和“未标准化”复选框;在“矩阵”选项组中,选中“组内协方差”复选框。设置完毕后,单击“继续”按钮返回“判别分析”对话框。 [if !vml] [endif] 4、设置输出到数据编辑窗口的结果。单击“保存”按钮,选中“预测组成员”复选框。 [if !vml] [endif] 5、其余设置采用系统默认值即可。单击“确定”按钮,等待输出结果。 [if !supportLineBreakNewLine] [endif] 四、结果分析 1、组统计量表可以看出,每一种豇豆豆荚的质量、宽度和长度的均值和标准差,也可以知道总样本的均值和标准差。 [if !vml] [endif]2、汇聚的组内矩阵表可以知道,各因素之间的协方差和相关系数。可以发现,各因素之间的相关性都较小,因此在判别方程中不需要剔除变量。 [if !vml] [endif] 3 、输入和删除变量情况统计表可以知道,第一步纳入的变量是质量,到第三步所有变量全部纳入,且从显著性值均为0可以看出,逐步判别没有剔除变量。 [if !vml] [endif] 4、典型判别方程的特征值可以知道,特征根数为2,其中第一个特征根为77.318,能够解释所有变异的89.4%。 [if !vml] [endif] 5、判别方程的有效性检验可以看出,显著性均为0,因此两个典型方程的判别能力都是显著的。 [if !vml] [endif] 6、标准化的典型判别方程可以知道,本例中的两个标准化的典型判别方程表达式分别为:Y1=0.681*质量-0.674*宽度+0.612*长度Y2=0.363*质量+0.777*宽度+0.302*长度 [if !vml] [endif] 7、未标准化的典型判别方程可以知道,本例中的两个未标准化的典型判别方程表达式为:Y1=-11.528+0.210*质量-1.950*宽度+0.186*长度Y2=-15.935+0.112*质量+2.246*宽度+0.092*长度 [if !vml] [endif] 8、贝叶斯的费希尔线性判别方程可以得到3个分类方程。在这里我们只写出第一个分类方程。Y1=-90.708+2.557*质量+18.166*宽度+1.922*长度[if !vml] [endif]9、判别分析在数据编辑窗口的输出结果新产生的变量记录是每一样品的判别分类结果,可以看出,样品判别分类结果与实际类别是一致的。 [if !vml] [endif] 分析结论: [if !supportLineBreakNewLine] [endif] 通过判别分析可以知道,在本案例中,3种豇豆豆荚的样品判别分类结果与实际类别是一致的。另外,我们可以得到不同的判别方程,分别包括标准化的典型判别方程、未标准化的典型判别方程和贝叶斯的费希尔线性判别方程,方程的表达式见上面的结果分析。[if !supportLineBreakNewLine] [endif] 参考案例数据: [if !supportLineBreakNewLine] [endif] 【1】spss统计分析与行业应用案例详解(第四版) 杨维忠,张甜,王国平 清华大学出版社 (获取更多知识,前往gz号程式解说) 原文来自
陌茉默墨
相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。 [if !supportLineBreakNewLine] [endif]相关分析是不考虑变量之间的因果关系而只研究分析变量之间的相关关系的一种统计分析方法,包括简单相关分析、偏相关分析、距离分析等。 下面我们主要从下面四个方面来解说: [if !supportLineBreakNewLine] [endif] 实际应用 理论思想 操作过程 分析结果 [if !supportLineBreakNewLine] [endif] 一、实际应用 [if !supportLineBreakNewLine] [endif] 相关性不等于因果性,也不是简单的个性化,相关性所涵盖的范围和领域几乎覆盖了我们所见到的方方面面,相关性在不同的学科里面的定义也有很大的差异。 1、简单相关分析 [if !supportLineBreakNewLine] [endif] 生活中常需要我们对 两个变量间的相关关系 进行分析,即通过计算两个变量之间的相关系数,是否显著相关作出判断。 2、偏相关分析相关分析通过计算两个变量之间的相关系数分析变量间线性相关的程度。在多元相关分析中,由于受到其他变量的影响,两变量相关系数只是从表面上反映了两个变量的性质,往往不能真实地反映变量间的线性相关程度,此时就需要用到偏相关分析,这时候就 需要把其他变量控制住,然后输出控制其他变量影响后的相关系数,得以从中剔除其他变量的线性影响 。3、距离分析偏相关分析通过控制一些被认为次要的变量的影响得到两个变量间的实际相关系数,但实际问题中,变量可能会多到无法一一关心的地步,每个变量都携带了一定的信息,但彼此又有所重叠,此时 最直接的方法就是将所有变量按照一定的标准进行分类,即进行聚类分析。 [if !supportLineBreakNewLine] [endif][if !supportLineBreakNewLine] [endif] 二、理论思想 相关分析研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向及相关程度,是研究随机变量之间相关关系的一种统计方法。 现象与现象之间的依存关系,从数量联系上看,可以分为两种不同的类型,即函数关系和相关关系。 [if !supportLineBreakNewLine] [endif] 函数关系是从数量上反映现象间严格的依存关系,即当一个或几个变量取一定的值时,另一个变量有确定值与之相对应。相关关系是现象间不严格的依存关系,即各变量之间不存在确定性的关系。 [if !supportLineBreakNewLine] [endif] 在相关关系中,当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量值也相应发生变化,但其关系值不是固定的,往往按照某种规律在一定的范围内变化。 [if !supportLineBreakNewLine] [endif] 回归方程的确定系数在一定程度上反映了两个变量之间关系的密切程度,并且确定系数的平方根就是相关系数。但确定系数一般是在拟合回归方程之后计算的,如果两个变量间的相关程度不高,拟合回归方程便没有意义, 因此相关分析往往在回归分析前进行。 [if !supportLineBreakNewLine] [endif] 对不同类型的变量,相关系数的计算公式也不同。在相关分析中,常用的相关系数主要有皮尔逊简单相关系数、斯皮尔曼等级相关系数、肯德尔等级相关系数和偏相关系数。 [if !supportLineBreakNewLine] [endif] 皮尔逊简单相关系数适用于等间隔测度,而斯皮尔曼等级相关系数和肯德尔等级相关系数都是非参测度。 一般用ρ和r分别表示总体相关系数和样本相关系数。 (1)皮尔逊简单相关系数简单相关系数r有如下性质:①-1≤r≤1,r绝对值越大,表明两个变量之间的相关程度越强。②0
优质会计资格证问答知识库