蔡zhong凯
中文名叫霍夫曼树/霍夫曼编码,是个二叉树(注意 不是 二叉搜索树),这部分内容比较简单, 维基百科 上也说的非常清楚, 下面搬运一下维基百科上的例子 : 示例: 霍夫曼树常处理符号编写工作。根据整组数据中符号出现的频率高低,决定如何给符号编码。 如果符号出现的频率越高,则给符号的码越短,相反符号的号码越长 。假设我们要给一个英文单字"F O R G E T"进行霍夫曼编码,而每个英文字母出现的频率分别列在Fig.1。
演算过程:
(一)进行霍夫曼编码前,我们先创建一个霍夫曼树。
最后产生的树状图就是霍夫曼树,参考Fig.2。
(二)进行编码
word2vec Parameter Learning Explained这篇论文中介绍了 Continuous Bag-of-Word Model(连续词袋模型)和skip-gram model(跳字模型),分别对应了词向量的两种训练方法:利用context预测中心词以及利用中心词去预测context。对于连续词袋模型(CBOW)来说,一般的做法(如下图所示)是先对每个单词进行one-of-N编码(one-hot encoded),作为训练网络的输入,接着构建一层hidden layer,最后构建输出层,这一层是一个softmax层,每个context单词到中心单词的事件都被认为是 独立的 ,所以将这些事件发生的 概率相乘 ,最后构建损失函数,即:将输出概率分布和实际选中的词概率分布进行Corss Entropy计算,接下来使用SGD对参数进行更新。这里,hidden layer的训练结果就是最终的 word vector 了。
上述方法看起来是没毛病的,问题是计算量有点大,尤其是进行反向传播更新参数的时候:
式(1)说明,参数更新的时候,对于每一个单词每一次迭代都 至少 有 的计算量,如此大的计算量是由于softmax引用了词典中的所有单词。
在skip-gram模型中也是一样的:
为了减少计算量,作者提出了两种近似计算方法,第一种叫做 Negative Sampling (负采样),该方法就是对词典中的特定属性的单词进行特定分布的采样,将计算的数据量降低了(详见论文);第二种就是 Hierarchical Softmax (分层softmax/层次softmax),该方法将 softmax层 替换成了 分层softmax层 。 分层softmax 的计算过程如下图所示:
图片来自 这里
从图中可以看出,hidden layer到output layer的连接原本是一个简单的softmax,有 V个神经元 和所有的hidden layer两两连接,现在变成了一个树,有 V-1个神经元 和所有的hidden layer两两连接。计算概率的方法也发生了变化:
其中,当 时,中括号内为1,否则为-1,这是用到了一个sigmoid函数的小trick: 。所以式(2)的意思就是从根节点到目标单词,有且仅有一条路径可以到达,在这条路径上往左走的概率是 ,往右走的概论自然就是 , 逻辑回归 那篇也介绍过,sigmoid函数是用来做二分类的,在这里正好合适;当路径上的所有二分类的概率都连乘后,得到的就是预测单词的概率,可以证明,词典中所有单词被预测到的概率和为1。这也是这个方法被叫做分层softmax的原因了。
如此一来,计算某个单词被预测的概率就仅仅和该单词到hidden layer的神经元连接的唯一路径相关了,更新参数的时候计算量一下子降到了O(log(n))。
关于这方面的源码编写可以参考 这个美国老哥的博客 。
王小虎呦
1) layering分层1.This paper studies the layering in tensile test of 10CrNiCu plate by ionizing impurities,metallographic and EPMA.通过电解夹杂、金相组织和电子探针等分析测试手段对10CrNiCu钢拉伸试验中出现的分层现象进行了分析。2.Exemplified by northern Tarim area of Xinjiang,the paper has also illustrated the achievements gained in layering,calculation of argillaceous material conten.本文概述了主分量分析法PCA的基本原理和自编的分析程序流程,并以新疆塔北地区为例,说明了分层、计算泥质含量及孔隙度的成果。3.The application of laterolog-3 apparent resistivity to lithologic layering is discribed.从三侧向测井基本原理和三侧向视电阻率的主要影响因素等方面探讨了三侧向视电阻率在岩性分层中的应用。2) stratification分层1.Water column samples taken from the northern and the southern lake centers in Hongfeng lake in summer stratification were measured about their water temperature,pH,the concentration of HCO3,DO,Chla,NH+4,NO-3、and PO3-4.在夏季分层期间对红枫湖南、北湖湖心的水样进行分层采集,同时测定了分层水样的温度、pH、HCO3-浓度、溶解氧(DO)、叶绿素a(Chl-a)及铵根离子(NH4+)、硝酸根离子(NO3-)、磷酸根离子(PO43-)的浓度,水体中CO2的分压(pCO2)由化学平衡及亨利定律求得。2.Liquefied Natural Gas(LNG) is a kind of high quality and clean energy,but many accidents have taken places since it was widely used,and stratification is the necessary condition for rollover.液化天然气(LNG)作为一种优质洁净的能源兴起以来,发生过多起储运失稳事故,其中分层是导致涡旋的必要条件。3.To calculate the stratification of liquid natural gas(LNG) in storage tank under temperature differential or density differential,the density current model has been established.针对储罐中液化天然气(LNG)在温度差和密度差下的分层行为,建立LNG分层的异重流模型,并利用Lorenz方程描述异重流下层的热对流状态。3) delamination分层1.The present work aims at developing a fiber optic based technique to detect delamination at the web/flange junction of a GFRP I-beam based on the frequency domain analysis of ultrasonic echoes.介绍了一种在超声回弹波频谱分析基础上用光纤干涉仪来检测I形复合材料梁腹板/翼缘连接处分层的方法,利用超声发射器在I形梁中产生应力波,用表面粘贴的光纤干涉仪来接收应力波产生的输出信号,对此信号进行频谱分析可找到I形梁的分层位置。2.Experimental studies and theoretical analysis on compressive properties of composite laminates with the edge rectangular delamination defect were carried out.对含矩形边缘分层缺陷层合板的压缩性能进行试验研究和理论分析,考察了层合板厚度(含铺层形式)、分层位置、形状、面积以及环境等因素对压缩强度的影响,并采用分层扩展以及软化夹杂两种模型对含分层层合板的压缩强度进行了计算和破坏机理分析。3.Experimental study and theoretical analysis on compressive properties of composite laminates with center delamination defect were carried out.通过考察层合板厚度(含铺层形式)、分层位置与大小等因素对压缩强度的影响,并采用局部屈曲、分层扩展以及软化夹杂等3种模型对含分层层合板的压缩强度进行了计算和破坏机理分析。4) inner and outer delamirnation内分层与外分层5) layer-by-layer coal charging分层给煤1.The contact pattern of boiler auxiliary machinery was modified with the adoption of layer-by-layer coal charging technology,realizing secondary dedusting,improving the heat efficiency and reliability of boiler.采用分层给煤技术,改造锅炉辅机连接方式,实现二次除尘,提高锅炉热效率和可靠性。
优质英语培训问答知识库