• 回答数

    9

  • 浏览数

    296

心海若冰
首页 > 考试培训 > 大数据etl培训

9个回答 默认排序
  • 默认排序
  • 按时间排序

啃鲍鱼的螺丝

已采纳

1.大数据工程师工作中会做什么?集群运维:安装、测试、运维各种大数据组件数据开发:细分一点的话会有ETL工程师、数据仓库工程师等数据系统开发:偏重Web系统开发,比如报表系统、推荐系统等这里面有很多内容其实是十分重合的,下面大致聊一下每一块内容大致需要学什么,以及侧重点。2.集群运维数据工程师,基本上是离不开集群搭建,比如hadoop、Spark、Kafka,不要指望有专门的运维帮你搞定,新组件的引入一般都要自己来动手的。因此这就要求数据工程师了解各种大数据的组件。由于要自己的安装各种开源的组件,就要求数据工程师要具备的能力: Linux 。要对Linux比较熟悉,能各种自己折腾着玩。由于现在的大数据生态系统基本上是 JVM系的,因此在语言上,就不要犹豫了,JVM系的Java和Scala基本上跑不掉,Java基本上要学的很深,Scala就看情况了。3. ETLETL在大数据领域主要体现在各种数据流的处理。这一块一方面体现在对一些组件的了解上,比如Sqoop、Flume、Kafka、Spark、MapReduce;另一方面就是编程语言的需要,Java、Shell和Sql是基本功。4.系统开发我们大部分的价值最后都会由系统来体现,比如报表系统和推荐系统。因此就要求有一定的系统开发能力,最常用的就是 Java Web这一套了,当然Python也是挺方便的。需要注意的是,一般数据开发跑不掉的就是各种提数据的需求,很多是临时和定制的需求,这种情况下, Sql就跑不掉了,老老实实学一下Sql很必要。如何入门?前面提到了一些数据工程师会用到的技能树,下面给一个入门的建议,完全个人意见。1.了解行业情况刚开始一定要了解清楚自己和行业的情况,很多人根本就分不清招聘信息中的大数据和数据挖掘的区别就说自己要转行,其实是很不负责的。不要总是赶热点,反正我就是经常被鄙视做什么大数据开发太Low,做数据就要做数据挖掘,不然永远都是水货。2.选择学习途径如果真是清楚自己明确地想转数据开发了,要考虑一下自己的时间和精力,能拿出来多少时间,而且在学习的时候最好有人能多指点下,不然太容易走弯路了。在选择具体的学习途径时,要慎重一点,有几个选择:自学报班找人指点别的不说了,报班是可以考虑的,不要全指望报个辅导班就能带你上天,但是可以靠他帮你梳理思路。如果有专业从事这一行的人多帮帮的话,是最好的。不一定是技术好,主要是可沟通性强。3.学习路线学习路线,下面是一个大致的建议:第一阶段先具备一定的Linux和Java的基础,不一定要特别深,先能玩起来,Linux的话能自己执行各种操作,Java能写点小程序。这些事为搭建Hadoop环境做准备。学习Hadoop,学会搭建单机版的Hadoop,然后是分布式的Hadoop,写一些MR的程序。接着学学Hadoop生态系统的其它大数据组件,比如Spark、Hive、Hbase,尝试去搭建然后跑一些官网的Demo。Linux、Java、各种组件都有一些基础后,要有一些项目方面的实践,这时候找一些成功案例,比如搜搜各种视频教程中如何搞一个推荐系统,把自己学到的用起来。第二阶段到这里是一个基本的阶段了,大致对数据开发有一些了解了。接着要有一些有意思内容可以选学。数据仓库体系:如何搞数据分层,数据仓库体系该如何建设,可以有一些大致的了解。用户画像和特征工程:这一部分越早了解越好。一些系统的实现思路:比如调度系统、元数据系统、推荐系统这些系统如何实现。第三阶段下面要有一些细分的领域需要深入进行,看工作和兴趣来选择一些来深入进行分布式理论:比如Gossip、DHT、Paxo这些构成了各种分布式系统的底层协议和算法,还是要学一下的。数据挖掘算法:算法是要学的,但是不一定纯理论,在分布式环境中实现算法,本身就是一个大的挑战。各种系统的源码学习:比如Hadoop、Spark、Kafka的源码,想深入搞大数据,源码跑不掉。

大数据etl培训

169 评论(8)

西尔米奥奈

可以。不过看你的基础怎么样了,如果有过数据库操纵基础,3个月是可以的,否则先学习数据库知识吧。ETL工程师又叫数据库工程师。ETL工程师的主要工作内容有:从事系统编程、数据库编程与设计。ETL原本是作为构建数据仓库的一个环节,负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。因为以前经常是将业务系统的数据取出来放到数仓中,按照星型或雪花型建模。

172 评论(9)

奔跑吧笑笑

首先我们要了解Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。

Java :只要了解一些基础即可,做大数据不需要很深的Java 技术,学java SE 就相当于有学习大数据基础。

Linux:因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩很多坑,学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

Hadoop:这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapReduce是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快所以它叫数据的批处理。

Zookeeper:这是个万金油,安装Hadoop的HA的时候就会用到它,以后的Hbase也会用到它。它一般用来存放一些相互协作的信息,这些信息比较小一般不会超过1M,都是使用它的软件对它有依赖,对于我们个人来讲只需要把它安装正确,让它正常的run起来就可以了。

Mysql:我们学习完大数据的处理了,接下来学习学习小数据的处理工具mysql数据库,因为一会装hive的时候要用到,mysql需要掌握到什么层度那?你能在Linux上把它安装好,运行起来,会配置简单的权限,修改root的密码,创建数据库。这里主要的是学习SQL的语法,因为hive的语法和这个非常相似。

Sqoop:这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个,直接把Mysql数据表导出成文件再放到HDFS上也是一样的,当然生产环境中使用要注意Mysql的压力。

Hive:这个东西对于会SQL语法的来说就是神器,它能让你处理大数据变的很简单,不会再费劲的编写MapReduce程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。

Oozie:既然学会Hive了,我相信你一定需要这个东西,它可以帮你管理你的Hive或者MapReduce、Spark脚本,还能检查你的程序是否执行正确,出错了给你发报警并能帮你重试程序,最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的,不然你看着那一大堆脚本,和密密麻麻的crond是不是有种想屎的感觉。

Hbase:这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且key是唯一的,所以它能用来做数据的排重,它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

Kafka:这是个比较好用的队列工具,队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理,这样与你协作的其它同学不会叫起来,你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来,你别怪他因为他不是搞大数据的,你可以跟他讲我把数据放在队列里你使用的时候一个个拿,这样他就不在抱怨了马上灰流流的去优化他的程序去了,因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS,这时你可以与一个叫Flume的工具配合使用,它是专门用来提供对数据进行简单处理,并写到各种数据接受方(比如Kafka)的。

Spark:它是用来弥补基于MapReduce处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它,因为它们都是用JVM的。

282 评论(14)

轻舞迷影

大数据培训,目前主要有两种:1、大数据开发数据工程师建设和优化系统。学习hadoop、spark、storm、超大集群调优、机器学习、Docker容器引擎、ElasticSearch、并发编程等;2、数据分析与挖掘一般工作包括数据清洗,执行分析和数据可视化。学习Python、数据库、网络爬虫、数据分析与处理等。大数据培训一般是指大数据开发培训。大数据技术庞大复杂,基础的技术包含数据的采集、数据预处理、分布式存储、数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。

301 评论(15)

伊泽瑞言

你好,分两个方面来回答你的问题。

一、大数据培训费用

1、大数据培训的学费一般在2-3万左右,相对于一些学生来说比较贵了。

2、大数据开发岗位薪资目前在15K以上,按照投入产出比来说不贵。

二、大数据学习需要多长时间?

1、脱产全日制学习6个月。

255 评论(13)

520贝基清净果

大数据学习课程图

第1阶段 Java

第2阶段 JavaEE核心

第3阶段 Hadoop生态体系

第4阶段 大数据spark生态体系

269 评论(8)

我的猫叫毛毛

这主要看个人能力,学习IT技术并不晚,如果有一个系统的学习规划,完全可以在大数据领域走得更远。学习大数据技术应该根据自身的知识基础、能力特点和兴趣爱好来选择学习方向,不同的学习方向需要组织不同的知识结构,同时也需要有相应的学习(实践)场景支撑;其次,自己要制定一个学习路线,看看学习曲线是否陡峭,如果陡峭话,建议再好好斟酌一下,因为生活中有太多人都是半路放弃。期间消耗了大量的时间、金钱成本。零基础的人在学习的时候一定要主动的提升技能,还要有很好的学习能力,遇到问题的时候就需要不断的去钻研,那么这样就能够成功的转入这个大数据的行业当中,如果决定了这样的转型,那么就需要放手去做。有的人因为确实没有任何基础,因此想要投入这个行业当中还是需要下一番功夫的。因为这一个行业发展的前景好,薪资待遇也是比较不错的,所以很多人都想进入到大数据的行业中发展。千锋教育拥有多年IT培训服务经验,采用全程面授高品质、高体验培养模式,合作企业达20000余家,覆盖全国一线二线城市大中小型公司,成功帮助20000余名人才实现就业。

173 评论(14)

猫与老虎

大数据开发程序员根据不同具体岗位,需要掌握以下技能,参考下

334 评论(12)

菜菜~小

课纲不一样,看是大数据开发还是大数据分析了,我学的大数据分析可视化,学的主要有Python入门、sql、oracle、tableau、帆软、Informatica、Excel等等我刚出来半年,视频录播可能还不算落后,有视频可***

156 评论(9)

相关问答