lylzzz
统计是要分析数据的,但首先需要考察的是,数据的是否合适,实验采集的数据是否符合分析的目的和要求。 所谓实验设计就是指设计实验的合理程序,使得收集得到的数据符合统计分析方法的要求,以便得出有效的客观的结论。它主要适用于自然科学研究和工程技术领域的统计数据搜集。 实验设计要遵循的三个基本原则: (1)重复性原则:即允许在相同条件下重复多次实验。好处是:其一可以获得更加精确的有效估计量;其二,可以获得实验误差的估计量。这些都是提高估计精度或缩小误差范围所需要的。 (2)随机化原则:是指在实验设计中,对实验对象的分配和实验次序都是随机安排的。是实验设计的重要原则。 (3)区组化原则:即利用类型分组技术,对实验对象按有关标志顺序排除,然后依次将各单位随机地分配到各处理组,使各处理组组内标志值的差异相对扩大,而处理组组间的差异相对缩小,这种实验设计安排称为随机区组设计。 
统计分析方法从根本上说有两大类,一是逻辑思维方法,二是数量关系分析方法逻辑思维方法是指辩证唯物主义认识论的方法。统计分析必须以马克思主义哲学作为世界观和方法论的指导。唯物辩证法对于事物的认识要从简单到复杂,从特殊到一般,从偶然到必然,从现象到本质。坚持辨证的观点、发展的观点,从事物的发展变化中观察问题,从事物的相互依存、相互制约中来分析问题,对统计分析具有重要的指导意义。数量关系分析方法是运用统计学中论述的方法对社会经济现象的数量表现,包括社会经济现象的规模、水平、速度、结构比例、事物之间的联系进行分析的方法。如对比分析法、平均和变异分析法、综合评价分析法、结构分析法、平衡分析法、动态分析法、因素分析法、相关分析法等。
常用统计方法:1、统计表(单式和复式)。2、统计图(条形、折线、扇形)。
感知机 二分类二分类的线性分类模型,也是判别模型。目的是求出把训练数据进行线性划分的分离超平面。感知机是神经网络和支持向量机的基础。学习策略:极小化损失函数。损失函数对应于误分类点到分离超平面的总距离。基于随机梯度下降法对损失函数的最优化算法,有原始形式和对偶形式。K近邻法 K-nearest neighbor, K-NN 多分类和回归是一种分类和回归方法,有监督学习。在训练数据集中找到和新的输入实例最接近的K个实例,这k个实例的多数类别就是这个新实例的类别。三要素:K的选择,距离度量,分类决策规则。实现方法:kd树(二叉树)快速搜索K个最近邻的点。K值选择:反映了对近似误差和估计误差的权衡。交叉验证选择最优的K值,K小,模型复杂,K大,模型简答。朴素贝叶斯法 多分类 用于NLP朴素贝叶斯法是基于贝叶斯定理和特征条件独立假设的分类方法。首先学习输入输出的联合概率分布,然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。后验概率最大等价于0-1损失函数的期望风险最小化。是典型的生成学习方法,由训练数据求出联合概率分布,再求出条件概率分布(后验概率)。概率估计方法是:极大似然估计或者贝叶斯估计。基本假设是条件独立性决策树 decision tree 多分类,回归是一种分类和回归算法。包括三个步骤:特征选择,决策树生成和决策树的修剪,常用算法:ID3,C5,CART逻辑斯地回归和最大熵模型 多分类本质就是给线性回归添加了对数函数它的核心思想是,如果线性回归的结果输出是一个连续值,而值的范围是无法限定的,那我们有没有办法把这个结果值映射为可以帮助我们判断的结果呢。而如果输出结果是 (0,1) 的一个概率值,这个问题就很清楚了。我们在数学上找了一圈,还真就找着这样一个简单的函数了,就是很神奇的sigmoid函数(如下):逻辑回归用于二分类和多分类逻辑斯地分布是S型曲线最大熵模型:熵最大的模型是最好的模型。X服从均匀分布时候,熵最大最大熵模型的学习等价于约束最优化问题。对偶函数的极大化等价于最大熵模型的极大似然估计。模型学习的最优化算法有:改进的迭代尺度法IIS,梯度下降法,牛顿法,或者拟牛顿法支持向量机 二分类线性可分支持向量机利用间隔最大化求最优分离超平面。函数间隔