• 回答数

    11

  • 浏览数

    224

天秤座dan
首页 > 工程师考试 > 大数据工程师培训路线图

11个回答 默认排序
  • 默认排序
  • 按时间排序

我们的季节e

已采纳

如果要学习大数据,不管你是零基础,还是有一定的基础,都是要懂至少一种计算机编程语言,因为大数据的开发离不开编程语言,不仅要懂,还要精通!但这门编程语言不一定是java。比如说,如果你主攻Hadoop开发方向,是一定要学习java的,因为Hadoop是由java来开发的。如果你想要主攻spark方向,是要学习Scala语言的,每个方向要求的编程语言是不同的。如果你是想要走数据分析方向,那你就要从python编程语言下手,这个也是看自己未来的需求的。大数据是需要一定的编程基础的,但具体学习哪一门编程,自己可以选择的。其实只要学会了一门编程语言,其他编程语言也是不在话下的。

大数据工程师培训路线图

251 评论(8)

caroline2900

对于Java程序员,大数据的主流平台hadoop是基于Java开发的,所以Java程序员往大数据开发方向转行从语言环境上更为顺畅,另外很多基于大数据的应用框架也是Java的,所以在很多大数据项目里掌握Java语言是有一定优势的。当然,hadoop核心价值在于提供了分布式文件系统和分布式计算引擎,对于大部分公司而言,并不需要对这个引擎进行修改。这时候除了熟悉编程,你通常还需要学习数据处理和数据挖掘的一些知识。尤其是往数据挖掘工程师方向发展,则你需要掌握更多的算法相关的知识。对于数据挖掘工程师而言,虽然也需要掌握编程工具,但大部分情况下是把hadoop当做平台和工具,借助这个平台和工具提供的接口使用各种脚本语言进行数据处理和数据挖掘。因此,如果你是往数据挖掘工程方向发展,那么,熟练掌握分布式编程语言如scala、spark-mllib等可能更为重要。Java程序员转大数据工程师的学习路线图:第一步:分布式计算框架掌握hadoop和spark分布式计算框架,了解文件系统、消息队列和Nosql数据库,学习相关组件如hadoop、MR、spark、hive、hbase、redies、kafka等;第二步:算法和工具学习了解各种数据挖掘算法,如分类、聚类、关联规则、回归、决策树、神经网络等,熟练掌握一门数据挖掘编程工具:Python或者Scala。目前主流平台和框架已经提供了算法库,如hadoop上的Mahout和spark上的Mllib,你也可以从学习这些接口和脚本语言开始学习这些算法。第三步:数学补充数学知识:高数、概率论和线代第四步:项目实践1)开源项目:tensorflow:Google的开源库,已经有40000多个star,非常惊人,支持移动设备;2)参加数据竞赛3)通过企业实习获取项目经验如果你仅仅是做大数据开发和运维,则可以跳过第二步和第三步,如果你是侧重于应用已有算法进行数据挖掘,那么第三步也可以先跳过。

214 评论(11)

s290443260

主要分为 7 个阶段:入门知识 → Java 基础 → Scala 基础 → Hadoop 技术模块 → Hadoop 项目实战 → Spark 技术模块 → 大数据项目实战。

阶段一:学习入门知识

这一部分主要针对的是新手,在学习之前需要先掌握基本的数据库知识。MySQL 是一个 DBMS(数据库管理系统),是最流行的关系型数据库管理系统(关系数据库,是建立在关系数据库模型基础上的数据库,借助于集合代数等概念和方法来处理数据库中的数据)。

MongoDB 是 IT 行业非常流行的一种非关系型数据库(NoSQL),其灵活的数据存储方式备受当前 IT 从业人员的青睐。

而 Redis 是一个开源、支持网络、基于内存、键值对存储数据库。两者都非常有必要了解。

1、Linux 基础入门(新版)

2、Vim编辑器

3、Git 实战教程

4、MySQL 基础课程

5、MongoDB 基础教程

6、Redis基础教程

阶段二:Java基础

Java 是目前使用最为广泛的编程语言,它具有的众多特性,特别适合作为大数据应用的开发语言。

Java 语言具有功能强大和简单易用两个特征,跨平台应用能力比 C、C++ 更易用,更容易上手。同时还具有简单性、面向对象、分布式、健壮性、安全性、平台独立与可移植性、多线程、动态性等特点。最重要的一点是 Hadoop 是用 Java 编写的。

1、Java编程语言(新版)

2、Java进阶之设计模式

3、J2SE核心开发实战

4、JDK 核心 API

5、JDBC 入门教程

6、Java 8 新特性指南

阶段三:Scala基础

Scala 是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。由于 Scala 运行于 Java 平台(Java 虚拟机),并兼容现有的Java 程序,所以 Scala 可以和大数据相关的基于 JVM 的系统很好的集成。

1、Scala 开发教程

2、Scala 专题教程 - Case Class和模式匹配

3、Scala 专题教程 - 隐式变换和隐式参数

4、Scala 专题教程 - 抽象成员

5、Scala 专题教程 - Extractor

6、Scala 开发二十四点游戏

阶段四:Hadoop技术模块

Hadoop 是一款支持数据密集型分布式应用并以 Apache 许可协议发布的开源软件框架,它能搭建大型数据仓库,PB 级别数据的存储、处理、分析、统计等业务。编程语言你可以选,但 Hadoop 一定是大数据必学内容。

1、Hadoop入门进阶课程

2、Hadoop部署及管理

3、HBASE 教程

4、Hadoop 分布式文件系统--导入和导出数据

5、使用 Flume 收集数据

阶段五:Hadoop项目实战

当然,学完理论就要进行动手实战了,Hadoop 项目实战可以帮助加深对内容的理解,并锻炼动手能力。

1、Hadoop 图处理--《hadoop应用框架》

阶段六:Spark技术模块

Spark 和 Hadoop 都是大数据框架。Hadoop 提供了 Spark 所没有的功能特性,比如分布式文件系统,而 Spark 为需要它的那些数据集提供了实时内存处理。所以学习 Spark 也非常必要。

1、Spark

2、x 快速入门教程

2、Spark 大数据动手实验

3、Spark 基础之 GraphX 图计算框架学习

4、Spark 基础之 DataFrame 基本概念学习

5、Spark 基础之 DataFrame 高阶应用技巧

6、Spark 基础之 Streaming 快速上手

7、Spark 基础之 SQL 快速上手

8、Spark 基础之使用机器学习库 MLlib

9、Spark 基础之 SparkR 快速上手

10、流式实时日志分析系统--《Spark 最佳实践》

11、使用 Spark 和 分析航班大数据

阶段七:大数据项目实战

最后阶段提供了大数据实战项目,这是对常用技能的系统运用,例如使用常用的机器学习进行建模、分析和运算,这是成为大数据工程师过程中的重要一步。

1、Ebay 在线拍卖数据分析

2、流式实时日志分析系统--《Spark 最佳实践》

3、大数据带你挖掘打车的秘籍

4、Twitter数据情感分析

5、使用 Spark 进行流量日志分析

6、Spark流式计算电商商品关注度

7、Spark的模式挖掘-FPGrowth算法

扩展资料:

大数据技术的具体内容:

分布式存储计算架构(强烈推荐:Hadoop)

分布式程序设计(包含:Apache Pig或者Hive)

分布式文件系统(比如:Google GFS)

多种存储模型,主要包含文档,图,键值,时间序列这几种存储模型(比如:BigTable,Apollo, DynamoDB等)

数据收集架构(比如:Kinesis,Kafla)

集成开发环境(比如:R-Studio)

程序开发辅助工具(比如:大量的第三方开发辅助工具)

调度协调架构工具(比如:Apache Aurora)

机器学习(常用的有Apache Mahout 或 H2O)

托管管理(比如:Apache Hadoop Benchmarking)

安全管理(常用的有Gateway)

大数据系统部署(可以看下Apache Ambari)

搜索引擎架构( 学习或者企业都建议使用Lucene搜索引擎)

多种数据库的演变(MySQL/Memcached)

商业智能(大力推荐:Jaspersoft )

数据可视化(这个工具就很多了,可以根据实际需要来选择)

大数据处理算法(10大经典算法)

213 评论(15)

zcp1211小窝

推荐去千锋,同样的价格千锋课程面授学起来更容易。

175 评论(10)

茶痴吃茶去

主要学习一些Java语言的概念,如字符、bai流程控制、面向对象、进程线程、枚举反射等,学习MySQL数据库的安装卸载及相关操作,学习JDBC的实现原理以及Linux基础知识,是大数据刚入门阶段。

主要讲解CAP理论、数据分布方式、一致性、2PC和3PC、大数据集成架构。涉及的知识点有Consistency一致性、Availability可用性、Partitiontolerance分区容忍性、数据量分布、2PC流程、3PC流程、哈希方式、一致性哈希等。

主要讲解协调服务ZK(1T)、数据存储hdfs(2T)、数据存储alluxio(1T)、数据采集flume、数据采集logstash、数据同步Sqoop()、数据同步datax()、数据同步mysql-binlog(1T)、计算模型MR与DAG(1T)、hive(5T)、Impala(1T)、任务调度Azkaban、任务调度airflow等。

主要讲解数仓仓库的历史背景、离线数仓项目-伴我汽车(5T)架构技术解析、多维数据模型处理kylin()部署安装、离线数仓项目-伴我汽车升级后加入kylin进行多维分析等;

主要讲解计算引擎、scala语言、spark、数据存储hbase、redis、kudu,并通过某p2p平台项目实现spark多数据源读写。

主要讲解数据通道Kafka、实时数仓druid、流式数据处理flink、SparkStreaming,并通过讲解某交通大数让你可以将知识点融会贯通。

主要讲解elasticsearch,包括全文搜索技术、ES安装操作、index、创建索引、增删改查、索引、映射、过滤等。

主要讲解数据标准、数据分类、数据建模、图存储与查询、元数据、血缘与数据质量、Hive Hook、Spark Listener等。

主要讲解Superset、Graphna两大技术,包括基本简介、安装、数据源创建、表操作以及数据探索分析。

主要讲解机器学习中的数学体系、Spark Mlib机器学习算法库、Python scikit-learn机器学习算法库、机器学习结合大数据项目。

112 评论(8)

宝贝baby996

第一阶段Java第二阶段JavaEE核心第三阶段Hadoop生态体系第四阶段大数据spark生态体系

123 评论(8)

天空海阔999

:一、整体了解数据分析——5小时 新人们被”大数据“、”人工智能“、”21世纪是数据分析师的时代“等等信息吸引过来,立志成为一名数据分析师,于是问题来了,数据分析到底是干什么的?数据分析都包含什么内容? 市面上有很多讲数据分析内容的书籍

116 评论(13)

我叫马三顺

大数据学习主要分为7个阶段:入门知识、Java基础、Scala基础、Hadoop技术模块、Hadoop项目实战、Spark技术模块、大数据项目实战。如需学习大数据,推荐选择【达内教育】。阶段一:学习入门知识。在学习之前需要先掌握基本的数据库知识。阶段二:【Java基础】。Java是目前使用最为广泛的编程语言,适合作为大数据应用的开发语言。阶段三:Scala基础。Scala是一种多范式的编程语言。阶段四:Hadoop技术模块。Hadoop是一款支持数据密集型分布式应用并以许可协议发布的开源软件框架,它能搭建大型数据仓库,PB级别数据的存储、处理、分析、统计等业务。阶段五:Hadoop项目实战。Hadoop项目实战可以帮助加深对内容的理解,并锻炼动手能力。阶段七:大数据项目实战。检测对常用技能的系统运用。感兴趣的话点击此处,免费学习一下想了解更多有关大数据的相关信息,推荐咨询【达内教育】。该机构致力于面向IT互联网行业,培养软件开发工程师、测试工程师、UI设计师、网络营销工程师、会计等职场人才,拥有行业内完善的教研团队,强大的师资力量,确保学员利益,全方位保障学员学习;更是与多家企业签订人才培养协议,全面助力学员更好就业。达内IT培训机构,试听名额限时抢购。

96 评论(13)

sy2009Jason

大数据前景是很不错的,像大数据这样的专业还是一线城市比较好,师资力量跟得上、就业的薪资也是可观的,学大数据面授班的时间大约半年,学大数据可以按照路线图的顺序,

126 评论(12)

那一朵云啊

你好,推荐给你大数据学习的路线图,按照顺序学习就可以了。

129 评论(14)

姹紫嫣红NEI

大数据只是 一个大体方向,,,,,,要看是做分析、还是依然写代码~~~~~~~~~

215 评论(14)

相关问答