• 回答数

    5

  • 浏览数

    279

zhijuan0628
首页 > 英语培训 > 总体数据英文

5个回答 默认排序
  • 默认排序
  • 按时间排序

装修徐工

已采纳

你给中文,我可以帮你翻译。

总体数据英文

114 评论(9)

歪歪悠爱福喔

统计是对数据进行收集、分析、展示和解读的科学和艺术,这句话听起来很高深,但其实也没必要非要把统计想得过于复杂和深奥,一个简单的把数据按照从高到低的顺序整理的过程也可以称为统计。

采用一定的工具如图表、图形和计算,对被观察对象的数据进行整理,得到诸如均值 Mean/ Expectation,方差 Variance,频数 Frequency,交叉表 Crosstabulation,直方图 Histogram,柱状图 Bar Chart 等形式,并借助这些整理的结果来对数据进行解读的统计学应用称为描述统计 Descriptive statistics。

在统计学中,被研究的对象的所有可能的结果的集合称为总体 Population,之所以采用这个词是因为正是人口普查 census 催生了现代统计学的很多研究结果,所以总体这个英文单词最常用的翻译是“人口”。

在实际应用中,想统计全部的人口或任何一个研究对象的总体都是不容易的,因此常常需要通过统计学知识利用从总体中抽取的样本数据中观测到的统计值来对总体数据的相应特征进行推断,这一统计学应用称为推理统计 Inferential statistics。在推理统计中,为了使得他人可以了解推断的质量和准确性,除了点对点的给出总体的某些描述统计特征(点估计 Point estimate)外,还会同时给出这些总体特征的可能的取值区间(区间估计 Interval estimate),实验者对于这个区间包含总体特征的置信程度 confidence level 等来进一步对结果进行说明。

由于被研究的对象的某些特征的取值很可能是事先难以确定的,因此是可以说取值是一些变量 variable,所以我们常用变量符号如 x,y 来表示,而为了便于定量的研究这些变量而严格限制每一个变量的结果都采用数值的形式加以表示时,这些变量在统计学的语境中就被命名为随机变量 Random variables。

最基本的描述统计就是以表格的形式对数据进行整理归类,在分类的基础上进行频次统计、相对频率、频率百分比和其他描述统计指标的计算,在这个过程中还可以将统计的结果可视化,从而在杂乱无章的数据中找出隐含的信息,如数据的分布形态,集中程度等。

在进行频数统计时,从更有效的数据可视化的角度,对于类别型数据 Categorical data 和个别离散型数值数据 Quantitative data 可以通过柱状图 bar chart 来将数据分类,而对于大多数数值数据,尤其是连续型数值数据来说应该用直方图 Histogram 来进行统计。并且如果采用横轴做量值的分类,纵轴做频数统计的话,除非数据本身有空位,否则不应该为了区分不同类别而人为的改变横轴的度量比例,而是应该使用紧邻的直方图,并保留数据原有的分布形状,因为在很多情况下这些形状本身就蕴含着很多信息。关于在数据可视化中的图形选择原则,可以参考 Data Visualization: Rules for Encoding Values in Graph 。

上述列表分析和可视化都是针对单个随机变量而言的,如果针对两个随机变量,则在归类时可以使用交叉表 Crosstabulation 来做汇总,并重点关注列表的交叉区域,以了解这两个变量之间的关联关系。这里需要注意的是,如果数据分析中涉及多个交叉列表,有时会需要将多个交叉列表合并成一个新的汇总性的交叉列表。此时,从这个汇总的交叉列表中寻求结论时需要注意 Simpson 悖论 问题,即需要注意是否有对结果解读有影响的因素在汇总时被忽略掉了。

在可视化中,当两个变量的取值都是数值型数据时,可以通过散点图 Scatter plot 来将统计的结果可视化,从而一目了然的发现二者之间的关系:

而当这两个变量中有一个是类别数据时,则可以采用并列柱状图或累计柱状图来进行可视化:

在取得随机变量的多个不同的取值以后,在统计中每一个取值称为一个样本点,可以通过一些指标对于这些取值的位置特性进行一个度量,其中一个非常重要的指标就是均值。

均值这个指标是如此重要以至于它已经融入到我们的日常表达中,我们常说某个事情的平均水平是某个值,就代表如果从样本集中获取一个样本,可以预期其取值应该在平均水平附近,因此均值也被称为期望 Expectation。

为了区分总体和样本,总体的均值用 μ 来表示,总体中所包含的样本点的数量用 N 表示,样本的均值用 x̄ 来表示,样本中所包含的样本点的数量用 n 表示。

总体的均值为:

样本均值为:

下面这张图形象的描述了均值的“位置”描述能力,即均值取值的位置会随着样本集中不同的样本点的取值的变化而变化。

在一般的均值计算中,可以认为对于各个样本点的权重都是相等的,即都等于 1/n,在一些情况下也需要给予不同的样本点不同的权重,这样的均值计算称为加权平均,其计算公式为:

下图这个多次以不同价格采购不同数量的产品,如果想要了解所有被采购产品的平均价格,就需要采用加权平均,其最终平均价格为:

严格意义上讲,前面的均值计算应该称为算数平均数,还有一种均值的计算方式称为几何平均数,其计算公式为:

其典型应用场合为对于变化速率的计算,如复利计算、年增长率计算等。例如如果一笔投资第一年利率为 0.06,第二年利率为 0.08,第三年利率为 0.10,那么这三年的平均利率应该为 0.0799,也即是说如果每年的利率是 0.0799,那么在期初投资同一笔钱,三年后两种模式下的收益是一样的。

将样本集中的所有样本点按照从小到大的顺序排成一个数列后,位于这个数列中间位置的那个数称为中位数,当样本集中包含的样本的个数为偶数时,取中间两个值的平均值。在描述样本集的位置情况时,中位数相比均值不容易受到异常值 outlier 的影响。

将样本点做频数统计后,频数最高的那个数就称为众数 Mode,这个数值反映了一种取值的倾向性,所以对应的在英文中用的是 Mode,这个英文单词比较令人熟知的翻译是“趋势”。

百分位数提供了样本集中样本取值的相对位置信息,其正式的定义为:

百分位数最常用的一个特例是将样本集的取值由 25%,50%,75% 百分位数分成 4 个部分,常用 Q 1 ,Q 2 ,Q 3 来表示。

除了对随机变量取值的位置进行度量以外,我们还需要了解这些取值的变动或分布情况。

最简单的衡量取值变动程度的指标就是取值范围,也即最大值与最小值之差。

由于取值范围容易受到异常的极大和极小值的影响,因此对于数据的整体分布情况的度量能力有限,一个更进一步的度量方式是采用 IQR = Q 3 - Q 1 ,也即 75 百分位数与 25 百分位数之差来给出中间 50% 的数字的取值范围。

与前几个分布指标相比,方差充分考虑到了数据集中每一个随机变量的取值与数据集的均值的偏差值 deviation ,并以此来计算数据分布情况。

同样地,总体的均值用 μ 来表示,总体中所包含的样本点的数量用 N 表示,样本的均值用 x̄ 来表示,样本中所包含的样本点的数量用 n 表示。

总体的方差计算公式为:

样本的方差计算公式为:

样本方差的分母为 n - 1 是因为样本集的数据离散程度大概率上是小于总体的离散程度的,并且在现实应用中总体的数据是很难获得的,都是需要用样本的方差来近似总体的方差,此时就需要将样本的方差做一个校正,校正方式为将原方差公式中的 n 替换成 n - 1 将样本的方差做一个放大。

在计算样本集中每个样本的取值与均值的偏差时,由于对于任何数据集都有 Σ(x i - x̄) == 0,因此方差计算中采用的是偏差的平方和 Σ(x i - x̄) 2 。对于量值数据来说,方差的单位是原有随机变量量纲的平方,而将方差做开方后得到的值则和随机变量具有相同的量纲,这就使得通过这个统计值来和原有随机变量的取值进行比较成为了可能,这个开方的结果称为标准差。

由于标准差与随机变量的取值以及均值都具有相同的量纲,因此可以直接进行比较,我们将标准差与均值的比值定义为变动系数:

变动系数比较了标准差与均值之间的关系,可以直观的了解随机变量取值的变动程度。

在之前的内容里曾提到了直方图对于分布形状的描述能力,最简单对于分布形状的一个描述就是总体取值的偏斜程度 Skewness,其不仅可以定性的描述为“左偏”,“右偏”,还可以通过定量的计算来获得,其计算公式为:

其绝对值越大代表偏斜程度越高,并且右偏结果为正值,左偏结果为负值。当数据右偏时,均值一般会大于中值,当数据左偏时,均值会小于中值,所以中值在数据偏斜程度比较高的时候可以比均值更好的衡量数据分布的位置。

除了样本集总体的分布情况外,对于每一个样本的取值都可以通过定义一个 z-score,也称标准值 standardized value ,来了解它在数据集中的相对位置,对于第 i 个样本点,其标准值为:

标准值可以理解为样本点的取值与均值的偏离程度可以用多少个标准差的值来衡量,伟大的 Chebyshev 对于数据分布情况和标准值之间的关系给出了一个定理,使得我们可以大致的计算在均值附近的某一个范围内的数据分布的量:

注意这个定理只针对 z ≥ 1 时才有效,但对于数据整体的分布形状没有要求,对应这个定理有:

当数据整体上呈对称分布时,基于切比雪夫定理可以对于数据的分布情况给出一个经验法则 Empirical rule,即在对称分布中:

在数据集中如果出现了一个或多个数值极大或极小的异常值,就会对一些位置描述指标的计算,如均值产生较大的影响,这些异常值应该在数据分析的过程中予以检查,并酌情考虑剔除。常用的检测标准为:

有了前面的这些描述指标,可以通过以下 5 个数字来对一组数据进行描述,简称 5 数描述法:

这 5 个数字可以将即便很大的数据集做一个很好的划分,如下图所示:

更进一步地,在获得了四分位差 Q 3 - Q 1 后,前面的 5 数描述法还可以使用盒型图来可视化:

在实际的数据分析中,在进行均值和方差计算前可以先通过对于数字进行排序后通过 5 数法和盒型图来了解数据的分布情况,并检查异常值,之后再做进一步的计算。

上述指标的定义都是针对单一随机变量的,而协方差衡量则可以衡量两个随机变量之间的线性相关性。对于随机变量 x,y 来说,

总体的协方差计算公式为:

样本协方差计算公式为:

从这个计算过程可知:

尽管一定程度上协方差的绝对值对于相关性可以做一个判断,但由于相关性的计算与相应的变量的量纲有关,因此同样的一组数据,采用不同的量纲计算得到的协方差的结果不同,因此为了消除掉量纲的影响,定义了相关系数。例如当其中一个变量为身高,另外一个变量为体重时,协方差的量纲则难以被定义。

总体的相关系数计算公式为:

两个随机变量样本集中 x,y 的相关系数计算公式为:

相关系数的计算剔除了两个随机变量各自的标准差在协方差中的影响,使得相关系数只衡量两个随机变量的多个取值围绕各自均值的变化方向的相关性,其取值范围为 [-1, 1]:

再做一个类比,在线性代数中已知两个 n 维向量 a , b ,则有:

这个夹角也称为余弦距离,常被用来判定两个向量之间的相关关系。仔细对比相关系数和余弦距离这两个公式可以发现二者讨论的其实是同一个问题:只需要将随机变量 x 的取值结果向量化为 x ,并令 a = x - x̄,如此则相关系数和余弦之间只间隔一个向量化的距离:

数学原理本身是不分学科和专业的,它们被分离在不同的课本和学科内是为了方便的在一个领域内形成一个体系,但在理解数学的时候完全可以突破学科和课本的限制,这样才能形成一个更加广阔的图景。

相关系数也被称为 Pearson's Correlation,以表彰 Karl Pearson 在统计领域所做出的贡献。这个统计量在两个变量不具有线性相关性时会忽视二者之间的关系,且其计算容易收到异常值的影响,为了克服这一缺点,引入了 Spearman's rank correlation,后者的计算方法为首先先将两个变量按照数值大小进行排序,在排序的基础上再计算二者的相关系数。

这一部分是我自己做的一个扩展,并非书上的内容,为了方便查看放在了这里,不代表原书作者的观点。

在实际的统计工作中,如果已知疑似具有线性关系的自变量 x 和因变量 y 的多个取值,我们可以通过最小二乘法来构建一个线性回归模型 ŷ = mx + b 来对新的 x 生成一个具有预测作用的 y 的取值。在这个过程中,我们可以通过最小平方误差 MSE 来衡量模型的预测值与实际取值之间的差异。

但假如我们只有一系列的 y 的值而没有对应的 x 的取值,此时,如果需要构建 y 的预测值,最好的办法就是通过计算 y 的均值,并且用这个值来作为未来所有 y 值的预测值。在这个过程中引入的误差值如果在 x 与 y 具有线性关系的时候会大于上述回归得到的误差值。

这两个误差值之间的相对差异被成为决定系数 Coefficient of Determination,因为这个值也是相关系数 r 的平方,因此也称为 R 2 。对应上面这个例子,R 2 = (41.1879 - 13.7627) / 41.1879 = 0.6659,也即 R 2 衡量了线性回归在 y 的预测过程中对于误差的减少的量。

如果我们仔细观察上述两个计算过程,就可以知道针对 y 均值的计算过程实际上获取的是 y 的方差值,或变动值,因此,我们也可以说 R 2 衡量的是 x 值的变动情况对于 y 的变动情况的影响。

我写这个笔记是为了系统的复习概率论中的一些概念,阅读的是 Statistics for Business and Economics, 12th Edition 英文原版,这是一本非常经典的参考书,毫无保留的满分推荐。尽管书名暗示了是在商业和经济学中的统计学,但根本的统计学知识是不变量,并且和很多优秀的原版书一样,作者时刻注意用实例来讲解统计学概念,基本上每一个新的概念的定义都建立在日常生活的实例的基础上,在此基础上还保留了精美的排版和精心设计的插图,十分便于理解。

163 评论(8)

Bulabula789

A abscissa横坐标 absence rate缺勤率 absolute number绝对数 absolute value绝对值 accident error偶然误差 accumulated frequency累积频数 alternative hypothesis备择假设 analysis of data分析资料 analysis of variance(ANOVA)方差分析 arith-log paper算术对数纸 arithmetic mean算术均数 assumed mean假定均数 arithmetic weighted mean加权算术均数 asymmetry coefficient偏度系数 average平均数 average deviation平均差 B bar chart直条图、条图 bias偏性 binomial distribution二项分布 biometrics生物统计学 bivariate normal population双变量正态总体 C cartogram统计图 case fatality rate(or case mortality)病死率 census普查 chi-sguare(X2) test卡方检验 central tendency集中趋势 class interval组距 classification分组、分类 cluster sampling整群抽样 coefficient of correlation相关系数 coefficient of regression回归系数 coefficient of variability(or coefficieut of variation)变异系数 collection of data收集资料 column列(栏) combinative table组合表 combined standard deviation合并标准差 combined variance(or poolled variance)合并方差 complete survey全面调查 completely correlation完全相关 completely random design完全随机设计 confidence interval可信区间,置信区间 confidence level可信水平,置信水平 confidence limit可信限,置信限 constituent ratio构成比,结构相对数 continuity连续性 control对照 control group对照组 coordinate坐标 correction for continuity连续性校正 correction for grouping归组校正 correction number校正数 correction value校正值 correlation相关,联系 correlation analysis相关分析 correlation coefficient相关系数 critical value临界值 cumulative frequency累积频率 D data资料 degree of confidence可信度,置信度 degree of dispersion离散程度 degree of freedom自由度 degree of variation变异度 dependent variable应变量 design of experiment实验设计 deviation from the mean离均差 diagnose accordance rate诊断符合率 difference with significance差别不显著 difference with significance差别显著 discrete variable离散变量 dispersion tendency离中趋势 distribution分布、分配 E effective rate有效率 eigenvalue特征值 enumeration data计数资料 equation of linear regression线性回归方程 error误差 error of replication重复误差 error of type IIⅡ型错误,第二类误差 error of type IⅠ型错误,第一类误差 estimate value估计值 event事件 experiment design实验设计 experiment error实验误差 experimental group实验组 extreme value极值 F fatality rate病死率 field survey现场调查 fourfold table四格表 freguency频数 freguency distribution频数分布 G Gaussian curve高斯曲线 geometric mean几何均数 grouped data分组资料 H histogram直方图 homogeneity of variance方差齐性 homogeneity test of variances方差齐性检验 hypothesis test假设检验 hypothetical universe假设总体 I incidence rate发病率 incomplete survey非全面调检 indepindent variable自变量 indivedual difference个体差异 infection rate感染率 inferior limit下限 initial data原始数据 inspection of data检查资料 intercept截距 interpolation method内插法 interval estimation区间估计 inverse correlation负相关 K kurtosis coefficient峰度系数 L latin sguare design拉丁方设计 least significant difference最小显著差数 least square method最小平方法,最小乘法 leptokurtic distribution尖峭态分布 leptokurtosis峰态,峭度 linear chart线图 linear correlation直线相关 linear regression直线回归 linear regression eguation直线回归方程 link relative环比 logarithmic normal distribution对数正态分布 logarithmic scale对数尺度 lognormal distribution对数正态分布 lower limit下限 M matched pair design配对设计 mathematical statistics数理统计(学) maximum value极大值 mean均值 mean of population总体均数 mean square均方 mean variance均方,方差 measurement data讲量资料 median中位数 medical statistics医学统计学 mesokurtosis正态峰 method of least squares最小平方法,最小乘法 method of grouping分组法 method of percentiles百分位数法 mid-value of class组中值 minimum value极小值 mode众数 moment动差,矩 morbidity患病率 mortality死亡率 N natality出生率 natural logarithm自然对数 negative correlation负相关 negative skewness负偏志 no correlation无相关 non-linear correlation非线性相关 non-parametric statistics非参数统计 normal curve正态曲线 normal deviate正态离差 normal distribution正态分布 normal population正态总体 normal probability curve正态概率曲线 normal range正常范围 normal value正常值 normal kurtosis正态峰 normality test正态性检验 nosometry患病率 null hypothesis无效假设,检验假设 O observed unit观察单位 observed value观察值 one-sided test单测检验 one-tailed test单尾检验 order statistic顺序统计量 ordinal number秩号 ordinate纵坐标 P pairing data配对资料 parameter参数 percent百分率 percentage百分数,百分率 percentage bar chart百分条图 percentile百分位数 pie diagram园图 placebo安慰剂 planning of survey调查计划 point estimation点估计 population总体,人口 population mean总体均数 population rate总体率 population variance总体方差 positive correlation正相关 positive skewness正偏态 power of a test把握度,检验效能 prevalence rate患病率 probability概率,机率 probability error偶然误差 proportion比,比率 prospective study前瞻研究 prospective survey前瞻调查 public health statistics卫生统计学 Q quality eontrol质量控制 quartile四分位数 R random随机 random digits随机数字 random error随机误差 random numbers table随机数目表 random sample随机样本 random sampling随机抽样 random variable随机变量 randomization随机化 randomized blocks随机区组,随机单位组 randomized blocks analysis of variance随机单位组方差分析 randomized blocks design随机单位组设计 randomness随机性 range极差、全距 range of normal values正常值范围 rank秩,秩次,等级 rank correlation等级相关 rank correlation coefficent等级相关系数 rank-sum test秩和检验 rank test秩(和)检验 ranked data等级资料 rate率 ratio比 recovery rate治愈率 registration登记 regression回归 regression analysis回归分析 regression coefficient回归系数 regression eguation回归方程 relative number相对数 relative ratio比较相对数 relative ratio with fixed base定基比 remainder error剩余误差 replication重复 retrospective survey回顾调查 Ridit analysis参照单位分析 Ridit value参照单位值 S sample样本 sample average样本均数 sample size样本含量 sampling抽样 sampling error抽样误差 sampling statistics样本统计量 sampling survay抽样调查 scaller diagram散点图 schedule of survey调查表 semi-logarithmic chart半对数线图 semi-measursement data半计量资料 semi-guartile range四分位数间距 sensitivity灵敏度 sex ratio性比例 sign test符号检验 significance显著性,意义 significance level显著性水平 significance test显著性检验 significant difference差别显著 simple random sampling单纯随机抽样 simple table简单表 size of sample样本含量 skewness偏态 slope斜率 sorting data整理资料 sorting table整理表 sources of variation变异来源 square deviation方差 standard deviation(SD)标准差 standard error (SE)标准误 standard error of estimate标准估计误差 standard error of the mean均数的标准误 standardization标准化 standardized rate标化率 standardized normal distribution标准正态分布 statistic统计量 statistics统计学 statistical induction统计图 statistical inference统计归纳 statistical map统计推断 statistical method统计地图 statistical survey统计方法 statistical table统计调查 statistical test统计表 statistical treatment统计检验 stratified sampling统计处理 stochastic variable分层抽样 sum of cross products of随机变量 deviation from mean离均差积和 sum of ranks秩和 sum of sguares of deviation from mean离均差平方和 superior limit上限 survival rate生存率 symmetry对称(性) systematic error系统误差 systematic sampling机械抽样 T t-distributiont分布 t-testt检验 tabulation method划记法 test of normality正态性检验 test of one-sided单侧检验 test of one-tailed单尾检验 test of significance显著性检验 test of two-sided双侧检验 test of two-tailed双尾检验 theoretical frequency理论频数 theoretical number理论数 treatment处理 treatment factor处理因素 treatment of date数据处理 two-factor analysis of variance双因素方差分析 two-sided test双侧检验 two-tailed test双尾检验 type I error第一类误差 type II error第二类误差 typical survey典型调查 U u testu检验 universe总体,全域 ungrouped data未分组资料 upper limit上限 V variable变量 variance方差,均方 variance analysis方差分析 variance ratio方差比 variate变量 variation coefficient变异系数 velocity of development发展速度 velocity of increase增长速度 W weight权数 weighted mean加权均数 Z zero correlation零相关

122 评论(14)

永远幸福66

statistical data

273 评论(15)

魔都魔都

要解释吗? 还是就单词Population Histogram Mean Median Mode Range Average Deviation Variance Standard Deviation Random Sample Parameter Statistic Sample Mean (X Bar) s square (Sample Variance Estimate) Sampling Distribution Unbiased Estimate Central Limit Theorem Standard Error Normal Distribution Transformation Rules Z Score Statistical Test Critical Region Critical Value Two-Tailed Test One-Tailed Test The Statistic Z Null Hypothesis Statistical Hypothesis Statistical Significance Alpha Type I Error Alternative Hypothesis Beta Type II Error Power Relationship between Alpha, Beta, & Power Degrees of Freedom The Statistic t t Test The Statistic F F Test Sum of Squares Related Measures Correlation Coefficient Regression Regression Toward the Mean Prediction Confounding Factor Chi square ANOVA Mean Square

311 评论(9)

相关问答