• 回答数

    5

  • 浏览数

    86

超越经典65
首页 > 工程师考试 > 大数据工程师培训词频统计

5个回答 默认排序
  • 默认排序
  • 按时间排序

切尔西爱吃鱼

已采纳

大数据开发工程师课程体系——Java部分。第一阶段:静态网页基础1、学习Web标准化网页制作,必备的HTML标记和属性2、学习HTML表格、表单的设计与制作3、学习CSS、丰富HTML网页的样式4、通过CSS布局和定位的学习、让HTML页面布局更加美观5、复习所有知识、完成项目布置第二阶段:JavaSE+JavaWeb1、掌握JAVASE基础语法2、掌握JAVASE面向对象使用3、掌握JAVASEAPI常见操作类使用并灵活应用4、熟练掌握MYSQL数据库的基本操作,SQL语句5、熟练使用JDBC完成数据库的数据操作6、掌握线程,网络编程,反射基本原理以及使用7、项目实战 + 扩充知识:人事管理系统第三阶段:前端UI框架1、JAVASCRIPT2、掌握Jquery基本操作和使用3、掌握注解基本概念和使用4、掌握版本控制工具使用5、掌握easyui基本使用6、项目实战+扩充知识:项目案例实战POI基本使用和通过注解封装Excel、druid连接池数据库监听,日志Log4j/Slf4j第四阶段:企业级开发框架1、熟练掌握spring、spring mvc、mybatis/2、熟悉struts23、熟悉Shiro、redis等4、项目实战:内容管理系统系统、项目管理平台流程引擎activity,爬虫技术nutch,lucene,webService CXF、Tomcat集群 热备 MySQL读写分离以上Java课程共计384课时,合计48天!大数据开发工程师课程体系——大数据部分第五阶段:大数据前传大数据前篇、大数据课程体系、计划介绍、大数据环境准备&搭建第六阶段:CentOS课程体系CentOS介绍与安装部署、CentOS常用管理命令解析、CentOS常用Shell编程命令、CentOS阶段作业与实战训练第七阶段:Maven课程体系Maven初识:安装部署基础概念、Maven精讲:依赖聚合与继承、Maven私服:搭建管理与应用、Maven应用:案列分析、Maven阶段作业与实战训练第八阶段:HDFS课程体系Hdfs入门:为什么要HDFS与概念、Hdfs深入剖析:内部结构与读写原理、Hdfs深入剖析:故障读写容错与备份机制、HdfsHA高可用与Federation联邦、Hdfs访问API接口详解、HDFS实战训练、HDFS阶段作业与实战训练第九阶段:MapReduce课程体系MapReduce深入剖析:执行过程详解、MapReduce深入剖析:MR原理解析、MapReduce深入剖析:分片混洗详解、MapReduce编程基础、MapReduce编程进阶、MapReduc阶段作业与实战训练第十阶段:Yarn课程体系Yarn原理介绍:框架组件流程调度第十一阶段:Hbase课程体系Yarn原理介绍:框架组件流程调度、HBase入门:模型坐标结构访问场景、HBase深入剖析:合并分裂数据定位、Hbase访问Shell接口、Hbase访问API接口、HbaseRowkey设计、Hbase实战训练第十二阶段:MongoDB课程体系MongoDB精讲:原理概念模型场景、MongoDB精讲:安全与用户管理、MongoDB实战训练、MongoDB阶段作业与实战训练第十三阶段:Redis课程体系Redis快速入门、Redis配置解析、Redis持久化RDB与AOF、Redis操作解析、Redis分页与排序、Redis阶段作业与实战训练第十四阶段:Scala课程体系Scala入门:介绍环境搭建第1个Scala程序、Scala流程控制、异常处理、Scala数据类型、运算符、Scala函数基础、Scala常规函数、Scala集合类、Scala类、Scala对象、Scala特征、Scala模式匹配、Scala阶段作业与实战训练第十五阶段:Kafka课程体系Kafka初窥门径:主题分区读写原理分布式、Kafka生产&消费API、Kafka阶段作业与实战训练第十六阶段:Spark课程体系Spark快速入门、Spark编程模型、Spark深入剖析、Spark深入剖析、SparkSQL简介、SparkSQL程序开发光速入门、SparkSQL程序开发数据源、SparkSQL程序开DataFrame、SparkSQL程序开发DataSet、SparkSQL程序开发数据类型、SparkStreaming入门、SparkStreaming程序开发如何开始、SparkStreaming程序开发DStream的输入源、SparkStreaming程序开发Dstream的操作、SparkStreaming程序开发程序开发--性能优化、SparkStreaming程序开发容错容灾、SparkMllib 解析与实战、SparkGraphX 解析与实战第十七阶段:Hive课程提体系体系结构机制场景、HiveDDL操作、HiveDML操作、HiveDQL操作、Hive阶段作业与实战训练第十八阶段:企业级项目实战1、基于美团网的大型离线电商数据分析平台2、移动基站信号监测大数据3、大规模设备运维大数据分析挖掘平台4、基 于互联网海量数据的舆情大数据平台项目以上大数据部分共计学习656课时,合计82天!0基础大数据培训课程共计学习130天。以上是大数据开发培训内容,加米谷是线下面授小班教学!

大数据工程师培训词频统计

327 评论(13)

永远的怀念!

编程没有捷径可言,或许天赋有点作用,但是不坚持长期练习,开发大脑,是不可能成为高手的。其次,程序语言基本上五花八门,多达上百种,到图书馆看看便知,而且很多软件自带就有一种开发语言,所以一定不可贪多。然后,主流的当然是C系语言,从C到C++到C#或者Java,这是一条基本路线,至于汇编语言除了计算机专业的人,一般不会去接触的。接下来讲讲应用范围:C语言适用于系统开发,比如操作系统,嵌入式编程,单片机编程等,比较底层;C++适用于大型桌面软件开发,几乎所有的大型桌面软件都是用C++开发出来的,由此可见,C++是一个非常强大的语言。C#适用于非计算机专业,以行业应用为主的人,因为不需要掌握太多的技巧,上手快,很受广大非计算机专业的人的欢迎,可以这么说,C#的出现改变了人们对于程序的恐惧,老少皆宜。Java就不用说了,如今风靡全球,适用于网络开发,手机开发,Java是应网络时代而生,所以学Java就是学Web开发,桌面软件还是C++的江上。,建议学习C++或者Java。

211 评论(13)

扬州灰豆子

大数据培训课程一般会涉及数据统计、数据仓库与商务智能技术、机器学习与模式识别、HADOOP技术等。培训方式大体分为视频学习、线上直播学习、线下面授学习、双元学习模式几种方式。如需大数据培训推荐选择【达内教育】。【达内教育】web阶段项目贯穿整个JavaWeb学习阶段。利用项目需求引申出知识点进行授课。需求引领思路,应用驱动学习。可以整体提升学员的编程思想、编码能力、实现对【Java】后台知识的熟练掌握,并为后续课程学习做铺垫。项目涉及HTTP协议、Tomcat服务器、静态Web资源开发技术、Java后台开发技术、数据库技术、手写基础框架、编程思想实践、在线支付、权限控制等重点功能点。感兴趣的话点击此处,免费学习一下想了解更多有关大数据的相关信息,推荐咨询【达内教育】。达内与阿里、Adobe、红帽、ORACLE、微软、美国计算机行业协会(CompTIA)、百度等国际知名厂商建立了项目合作关系。共同制定行业培训标准,为达内学员提供高端技术、所学课程受国际厂商认可,让达内学员更具国际化就业竞争力。达内IT培训机构,试听名额限时抢购。

142 评论(12)

晴天夹心

大大数据开发工程师要学习哪些课程大数据开发工程师要学习哪些大数据开发工程师要学习哪些课程

126 评论(8)

冰灵蜜蜜

大数据问题,确切来说是很大数据量下的空间限制问题,解决方法有以下7种(图源左程云基础班): 先思考用一个大的HashMap的情况。 key是某个整数,value是该整数出现的次数,这样可以统计词频,然后得出TOP10词频。计算此时使用的内存,4字节无符号整数范围是0到42亿多(如果是有符号整数范围是-21亿多到21亿多),范围是比40亿大的。最差情况下如果40亿个数都不同,此时HashMap使用的空间为40亿条记录,每条记录中key(无符号整数)是4字节,value(词频)也是4字节(int类型),总共8字节,总计320亿字节,即32G(10亿字节可估算为1G),哈希表爆掉了。 这里先补充一下哈希函数的特征: 特征1.输入域无穷大,输出域相对有限。 特征2.没有任何随机的成分,是确定规则的函数。输入相同那么输出一定相同;不同的输入可能会有相同输出(哈希碰撞)。 特征3. 输入哪怕很接近,最终的计算结果也很离散,和输入规律没有关系。这一点也是最关键的特征。 特征4.输出再模上一个数,取模的结果也是离散的 反推1G内存的HashMap可以有多少条记录,保守点1亿条,意味着该HashMap处理的包含数的种类(不是个数)不要超过1亿种,怎么处理?40亿个整数的大文件,每个数字用哈希函数处理完再取模100,只会是0到99。根据哈希函数特征3,不同输入会均匀分布到0到99上,40亿个数如果拥有的不同数的种类是K种的话,这样处理完后,每个小文件里几乎有100/k这么多种数,这样每个小文件里就不到1亿种了。再用HashMap一个一个文件去处理词频,搞出100个文件各自的TOP10,哈希函数相同输入则相同输出,所以不会出现一个数字落到不同文件里的情况。对文件的TOP10合并,就得到全局TOP10。 上面取模取40其实就可以了,40亿个数种类数K小于等于40亿,所以K/40小于等于1亿,符合上面要求的1G内存,但取的是100而不是40是为了更保险。 使用位图,用某个bit表示某个数出现过还是没出现过。如果是哈希表,表示一个数出现与否需要用一个键值对,键和值都占4字节,那么一条记录所占的空间就是64bit(8字节)。用位图的话,1bit表示1个数,数范围多大就用多少位bit;42亿多bit/8 = 5亿多byte = 500多M(10亿byte=1G);在1G空间内拿下。 用两个bit位表示某个数字出现的频率。00表示出现0次;01表示出现1次;10表示出现2次;11表示出现3次,如果出现次数更多大于3次,11不变。这样最后统计下来就可以知道所有出现2次的数字,与原来相比就多了一倍空间,1G空间拿下。 位图不能用了,3KB空间太小了。先计算3KB能做多长的无符号数组,一个无符号数大小为4B,3KB/4B=750,然后750距离2的某次方哪个最近,512,那就申请一个长度为512的无符号整型数组arr(arr占用空间大小显然不超过3KB)。题目中数字范围是0到2的32次方减一(一共有2的32次方这么多个数),因为和512一样都是2的某次方,所以2的32次方一定可以均分成512份(每一份大小是8388608);arr[0]表示512份里的第0份(范围0~8388607),表示这一份上的词频统计;而且因为一共只有40亿个数,那么arr[0]统计的数字一定不会溢出(40亿 2的32次方减一 = 42亿多,一无符号数是32位);如果统计所有数出现的频率到对应范围的份上,一定有某一份词频不够83888608;假设不足的那一份是第a份,那么下次把3KB在第a份这个范围上再分512份,最终往下分,总能找到哪个数字没出现。 总体时间复杂度:以 512 为底的 2的32次方 的对数。这是个很小的数。且按行读文件占用内存是很少的,读文件并不是一次性把所有文件都load到内存里去,而是在硬盘文件里用偏移量找到某一行数据,读下一行的时候前一行的空间就可以被释放了;所以维持一个句柄句尾还有偏移量就可以按行读文件了。 整个范围是0到2的32次方减一。计算出中点Mid并统计0到Mid范围出现多少个数记为a,统计Mid+1到结尾范围出现多少数记为b个;a和b中一定有一个不满,不满的那个再二分,最终一定能定位到某个数字没出现,遍历次数以 2 为底 2的32次方 对数次,即32次 面对空间限制类题目,从范围数据状况入手,分区间统计的思想。 用哈希函数把URL分配到很多机器上去,每台机器上的文件再用哈希函数分成小文件,每个小文件分区间统计之后,找到重复的URL 利用堆、外排序来做多个处理单元的结果合并 通过1G内存分流文件,这1G用于存储哈希表。哈希函数特性是同样的URL会进到一个文件里去,文件大小为分流到1G可以统计下为止,从而把100亿个URL的大文件分流成小文件。哈希表的key是64字节(URL大小),value是long类型(因为是100亿个,无符号整数不够用)8字节。然后算1G内存最多可以放多少条这种记录,就可以知道小文件容忍的的不同的URL最多有多少条;从而反推出假设100亿个URL都是不同的,需要多少个小文件保证1G不超。 计算:64+8=72字节,哈希表内部可能有索引空间的占用,可以算的富裕一点,算作一条记录要100字节;1G=10亿字节,得出哈希表最多放1千万条记录,即记录1千万种不同的URL;最坏情况100亿个URL都不同,100亿/1千万得需要1千个小文件,那么原来的URL大文件用哈希函数算完再模上1千,分到对应的小文件里(根据哈希函数的性质,每个小文件里种类差不多是均分的,而且每个文件里记录数差不多1千万左右,不会超出多少)。然后在这1G空间里统计每个小文件里词频的TOP100,1千个文件有1千个TOP100,然后在每个文件里建立用词频作为排序的大根堆。 把每个堆的堆顶再组成一个大根堆,构成堆上堆,二维堆(即上图中的二叉树结构);例如上图里包含甲、乙、丙;a、b、c;α、β、θ三个堆,现在堆顶元素甲、a、α构成大根堆 如上图所示,假如调整完发现α是最大的,那么α与a交换时是α这一串与a这一串交换,就输出了α作为整个词频中TOP1。 如上图所示,α输出后β顶上来,但β未必是全局最大值,所以堆顶元素组成的大根堆开始heapify;假如甲此时是全局最大值,那么甲这一串与β那一串交换......如此循环往复,每次堆上堆输出一个最大值,下面的元素顶上来,然后堆上堆再调整,整个串交换;二维堆每次输出一个,输出100次就是TOP100。 如果是遍历,时间代价O(100);用堆结构可以加速到O(log100)。从这里可以看出外排每次决定一个东西是遍历一遍每个堆堆顶并比较大小。 假设给的空间限制为3KB,和前面一样分成512份且每一份都能统计下词频,第一份假设这些数出现a个,第二份假设这些数出现b个,第三份假设这些数出现c个,所有段的词频都有,然后把a、b、c……加起来,看在哪个范围上刚超20亿或刚好20亿,就把第20亿定位在这个范围上了。 举例假如第 i 份加完是19亿个,第 i + 1份加完是21亿个,那么20亿就在第 i + 1份上且是第 i + 1份上的第1亿个,接下来在第 i + 1份上再分512份去词频统计,看哪一份是刚超1亿或刚好到1亿,如此下去,总有统计出来的时候。

331 评论(13)

相关问答