学堂大数据工程师培训

8个回答默认排序

默认排序

按时间排序

yoyoubaobao

已采纳

编程没有捷径可言，或许天赋有点作用，但是不坚持长期练习，开发大脑，是不可能成为高手的。其次，程序语言基本上五花八门，多达上百种，到图书馆看看便知，而且很多软件自带就有一种开发语言，所以一定不可贪多。然后，主流的当然是C系语言，从C到C++到C#或者Java，这是一条基本路线，至于汇编语言除了计算机专业的人，一般不会去接触的。接下来讲讲应用范围：C语言适用于系统开发，比如操作系统，嵌入式编程，单片机编程等，比较底层；C++适用于大型桌面软件开发，几乎所有的大型桌面软件都是用C++开发出来的，由此可见，C++是一个非常强大的语言。C#适用于非计算机专业，以行业应用为主的人，因为不需要掌握太多的技巧，上手快，很受广大非计算机专业的人的欢迎，可以这么说，C#的出现改变了人们对于程序的恐惧，老少皆宜。Java就不用说了，如今风靡全球，适用于网络开发，手机开发，Java是应网络时代而生，所以学Java就是学Web开发，桌面软件还是C++的江上。，建议学习C++或者Java。

学堂大数据工程师培训

266 评论（8） 1小时前发布

菜菜～小

可以参考一下以道教育的课程体系第一阶段 WEB 开发基础HTML基础1、Html基本介绍2、HTML语法规范3、基本标签介绍4、HTML编辑器/文本文档/WebStrom/elipse5、HTML元素和属性6、基本的HTML元素标题段落样式和style属性链接图像表格列表 ul/ol/dl7、 HTML注释8、表单介绍9、Table标签10、DIV布局介绍11、HTML列表详解HTML布局和Bootstrap1、 HTML块元素（block）和行内元素(inline)2、使用div实现网页布局3、响应式WEB设计（Responsive Web Design）4、使用bootstrap实现响应式布局HTML表单元素1、HTML表单 form2、HTML表单元素3、 HTML input的类型 type4、 Html input的属性CSS基础1、CSS简介及基本语法2、在HTML文档中使用CSS3、CSS样式4、CSS选择器5、盒子模型6、布局及定位CSS高级/CSS31、尺寸和对齐2、分类（clear/cursor/display/float/position/visibility）3、导航栏4、图片库5、图片透明6、媒介类型 @media7、CSS38、CSS3动画效果JavaScript基础1、JavaScript简介2、基本语法规则3、在HTML文档中使用JS4、JS变量5、JS数据类型6、JS函数7、JS运算符8、流程控制9、JS错误和调试JavaScript对象和作用域1、数字 Number2、字符串String3、日期 Date4、数组5、数学 Math6、DOM对象和事件7、BOM对象8、Window对象9、作用域和作用域链10、JSONJavascript库1、Jquery2、Prototype3、Ext JsJquery1、Jquery基本语法2、Jquery选择器3、Jquery事件4、Jquery选择器5、Jquery效果和动画6、使用Jquery操作HTML和DOM7、Jquery遍历8、Jquery封装函数9、Jquery案例表单验证和Jquery Validate1、用Js对HTML表单进行验证2、Jquery Validata基本用法3、默认校验规则和提示信息4、debug和ignore5、更改错误信息显示位置和样式6、全部校验通过后的执行函数7、修改验证触发方式8、异步验证9、自定义校验方法10、radio 和 checkbox、select 的验证Java基础1、关于Java2、Java运行机制3、第一个Java程序，注释4、Javac,Java,Javadoc等命令5、标识符与关键字6、变量的声明，初始化与应用7、变量的作用域8、变量重名9、基本数据类型10、类型转换与类型提升11、各种数据类型使用细节12、转义序列13、各种运算符的使用流程控制1、选择控制语句if-else2、选择控制语句switch-case3、循环控制语句while4、循环控制语句do-while5、循环控制语句for与增强型for6、break，continue，return7、循环标签8、数组的声明与初始化9、数组内存空间分配10、栈与堆内存11、二维（多维）数组12、Arrays类的相关方法13、main方法命令行参数面向对象1、面向对象的基本思想2、类与对象3、成员变量与默认值4、方法的声明，调用5、参数传递和内存图6、方法重载的概念7、调用原则与重载的优势8、构造器声明与默认构造器9、构造器重载10、this关键字的使用11、this调用构造器原则12、实例变量初始化方式13、可变参数方法访问权限控制1、包 package和库2、访问权限修饰符private/protected/public/包访问权限3、类的访问权限4、抽象类和抽象方法5、接口和实现6、解耦7、Java的多重继承8、通过继承来扩展接口错误和异常处理1、概念：错误和异常2、基本异常3、捕获异常 catch4、创建自定义异常5、捕获所有异常6、Java标准异常7、使用finally进行清理8、异常的限制9、构造器10、异常匹配11、异常使用指南数据库基础（MySQL）数据库基础（MySQL）JDBC1、Jdbc基本概念2、使用Jdbc连接数据库3、使用Jdbc进行crud操作4、使用Jdbc进行多表操作5、Jdbc驱动类型6、Jdbc异常和批量处理7、Jdbc储存过程Servlet和JSP1、Servlet简介2、Request对象3、Response对象4、转发和重定向5、使用Servlet完成Crud6、Session和Coolie简介7、ServletContext和Jsp8、El和Jstl的使用Ajax1、什么是Ajax2、XMLHttpRequest对象（XHR）3、XHR请求4、XHR响应5、readystate/onreadystatechange6、Jquery Ajax7、JSON8、案例：对用户名是否可用进行服务器端校验综合案例1、项目开发一般流程介绍2、模块化和分层3、DButils4、QueryRunner5、ResultSetHandle6、案例：用户登录/注册，从前端到后端第二阶段 Java SE访问权限和继承1、包的声明与使用2、import与import static3、访问权限修饰符4、类的封装性5、static（静态成员变量）6、final（修饰变量，方法）7、静态成员变量初始化方式8、类的继承与成员继承9、super的使用10、调用父类构造器11、方法的重写与变量隐藏12、继承实现多态和类型转换13、instanceof抽象类与接口1、抽象类2、抽象方法3、继承抽象类4、抽象类与多态5、接口的成员6、静态方法与默认方法7、静态成员类8、实例成员类9、局部类10、匿名类11、eclipse的使用与调试12、内部类对外围类的访问关系13、内部类的命名Lambda表达式与常用类1、函数式接口2、Lambda表达式概念3、Lambda表达式应用场合4、使用案例5、方法引用6、枚举类型（编译器的处理）7、包装类型（自动拆箱与封箱）8、String方法9、常量池机制10、String讲解11、StringBuilder讲解12、Math，Date使用13、Calendars使用异常处理与泛型1、异常分类2、try-catch-finally3、try-with-resources4、多重捕获multi-catch5、throw与throws6、自定义异常和优势7、泛型背景与优势8、参数化类型与原生类型9、类型推断10、参数化类型与数组的差异11、类型通配符12、自定义泛型类和类型擦出13、泛型方法重载与重写集合1 、常用数据结构2 、Collection接口3 、List与Set接口4 、SortedSet与NavigableSet5 、相关接口的实现类6 、Comparable与Comparator7、Queue接口8 、Deque接口9 、Map接口10、NavigableMap11、相关接口的实现类12、流操作（聚合操作）13、Collections类的使用I/O流与反射1 、File类的使用2 、字节流3 、字符流4 、缓存流5 、转换流6 、数据流7、对象流8、类加载，链接与初始化9 、ClassLoader的使用10、Class类的使用11、通过反射调用构造器12、安全管理器网络编程模型与多线程1、进程与线程2、创建线程的方式3、线程的相关方法4、线程同步5、线程死锁6、线程协作操作7、计算机网络（IP与端口）8、TCP协议与UDP协议9、URL的相关方法10、访问网络资源11、TCP协议通讯12、UDP协议通讯13、广播 MVC2.创建Spring MVC项目 MVC执行流程和参数 MVC2.创建Spring MVC项目 MVC执行流程和参数 MVC2.创建Spring MVC项目 MVC执行流程和参数简介配置文件3.用MyBatis完成的使用关联查询6.动态缓冲编程1.网络通信和协议2.关于类型函数 MVC/WebSocket AjaxIO/异步window对象全局作用域窗口关系及框架窗口位置和大小打开窗口间歇调用和超时调用（灵活运用）系统对话框location对象navigator对象screen对象history对象NIO/AIO1.网络编程模型.同步阻塞4.同步非阻塞5.异步阻塞6.异步非阻塞与AIO基本操作8.高性能IO设计模式第三阶段 Java 主流框架框架原理分析框架入门程序编写和hibernate的本质区别和应用场景开发dao方法配置文件讲解6.输入映射-pojo包装类型的定义与实现7.输出映射-resultType、resultMap8.动态sql9.订单商品数据模型分析10.高级映射的使用11.查询缓存之一级缓存、二级缓存与spring整合13. mybatis逆向工程自动生成代码Spring/Spring MVC1. springmvc架构介绍2. springmvc入门程序3. spring与mybatis整合4. springmvc注解开发—商品修改功能分析5. springmvc注解开发—RequestMapping注解6. springmvc注解开发—Controller方法返回值7. springmvc注解开发—springmvc参数绑定过程分析8. springmvc注解开发—springmvc参数绑定实例讲解9. springmvc与struts2的区别10. springmvc异常处理11. springmvc上传图片12. springmvc实现json交互13. springmvc对RESTful支持14. springmvc拦截器第四阶段关系型数据库/MySQL/NoSQLSQL基础及主流产品的下载与安装（sinux/windows）的基本配置/配置文件4.基本的SQL操作 DDL5.基本的SQL操作 DML6.基本的SQL操作客户端工具帮助文档MySQL数据类型和运算符1 数值类型2 日期时间类型3 字符串类型4 CHAR 和 VARCHAR 类型5 BINARY 和 VARBINARY 类型6 ENUM 类型7 SET 类型8 算术运算符9 比较运算符10 逻辑运算符11 位运算12 运算符的优先级MySQL函数1 字符串函数2 数值函数3 日期和时间函数4 流程函数5 其他常用函数MySQL存储引擎支持的存储引擎及其特性.选择合适的存储引擎选择合适的数据类型1 CHAR 与 VARCHAR2 TEXT 与 BLOB3 浮点数与定点数4 日期类型选择字符集1 字符集概述2 Unicode字符集3 汉字及一些常见字符集4 选择合适的字符集 5 MySQL 支持的字符集6 MySQL 字符集的设置 .索引的设计和使用1.什么是索引2.索引的类型3.索引的数据结构 BTree B+Tree Hash4.索引的存储索引6.查看索引的使用情况7.索引设计原则视图/存储过程/函数/触发器1. 什么是视图2. 视图操作3. 什么是存储过程4. 存储过程操作5. 什么是函数6. 函数的相关操作7. 触发器事务控制/锁1. 什么是事务2. 事务控制3. 分布式事务4. 锁/表锁/行锁5. InnoDB 行锁争用6. InnoDB 的行锁模式及加锁方法77 InnoDB 行锁实现方式78 间隙锁（Next-Key 锁）9 恢复和复制的需要，对 InnoDB 锁机制的影响10 InnoDB 在不同隔离级别下的一致性读及锁的差异11 表锁12 死锁SQL Mode和安全问题1. 关于SQL Mode2. MySQL中的SQL Mode3. SQL Mode和迁移4. SQL 注入5. 开发过程中如何避免SQL注入SQL优化1.通过 show status 命令了解各种 SQL 的执行频率2. 定位执行效率较低的 SQL 语句3. 通过 EXPLAIN 分析低效 SQL 的执行计划4. 确定问题并采取相应的优化措施5. 索引问题6.定期分析表和检查表7.定期优化表8.常用 SQL 的优化MySQL数据库对象优化1. 优化表的数据类型2 散列化3 逆规范化4 使用中间表提高统计查询速度5. 影响MySQL性能的重要参数6. 磁盘I/O对MySQL性能的影响7. 使用连接池8. 减少MySQL连接次数9. MySQL负载均衡MySQL集群MySQL管理和维护MemCacheRedis在Java项目中使用MemCache和Redis第五阶段：操作系统/Linux、云架构Linux安装与配置1、安装Linux至硬盘2、获取信息和搜索应用程序3、进阶：修复受损的Grub4、关于超级用户root5、依赖发行版本的系统管理工具6、关于硬件驱动程序7、进阶：配置Grub系统管理与目录管理1、Shell基本命令2、使用命令行补全和通配符3、find命令、locate命令4、查找特定程序：whereis5、Linux文件系统的架构6、移动、复制和删除7、文件和目录的权限8、文件类型与输入输出9、vmware介绍与安装使用10、网络管理、分区挂载用户与用户组管理1、软件包管理2、磁盘管理3、高级硬盘管理RAID和LVM4、进阶：备份你的工作和系统5、用户与用户组基础6、管理、查看、切换用户7、/etc/...文件8、进程管理9、linux VI编辑器，awk，cut，grep，sed，find，unique等Shell编程1、 SHELL变量2、传递参数3、数组与运算符4、SHELL的各类命令5、SHELL流程控制6、SHELL函数7、SHELL输入/输出重定向8、SHELL文件包含服务器配置1、系统引导2、管理守护进程3、通过xinetd启动SSH服务4、配置inetd5、Tomcat安装与配置6、MySql安装与配置7、部署项目到Linux第六阶段：Hadoop生态系统Hadoop基础1、大数据概论2、 Google与Hadoop模块3、Hadoop生态系统4、Hadoop常用项目介绍5、Hadoop环境安装配置6、Hadoop安装模式7、Hadoop配置文件HDFS分布式文件系统1、认识HDFS及其HDFS架构2、Hadoop的RPC机制3、HDFS的HA机制4、HDFS的Federation机制5、 Hadoop文件系统的访问6、JavaAPI接口与维护HDFS7、HDFS权限管理8、hadoop伪分布式Hadoop文件I/O详解1、Hadoop文件的数据结构2、 HDFS数据完整性3、文件序列化4、Hadoop的Writable类型5、Hadoop支持的压缩格式6、Hadoop中编码器和解码器7、 gzip、LZO和Snappy比较8、HDFS使用shell+Java APIMapReduce工作原理1、MapReduce函数式编程概念2、 MapReduce框架结构3、MapReduce运行原理4、Shuffle阶段和Sort阶段5、任务的执行与作业调度器6、自定义Hadoop调度器7、异步编程模型8、YARN架构及其工作流程MapReduce编程1、WordCount案例分析2、输入格式与输出格式3、压缩格式与MapReduce优化4、辅助类与Streaming接口5、MapReduce二次排序6、MapReduce中的Join算法7、从MySQL读写数据8、Hadoop系统调优Hive数据仓库工具1、Hive工作原理、类型及特点2、Hive架构及其文件格式3、Hive操作及Hive复合类型4、Hive的JOIN详解5、Hive优化策略6、Hive内置操作符与函数7、Hive用户自定义函数接口8、Hive的权限控制Hive深入解读1 、安装部署Sqoop2、Sqoop数据迁移3、Sqoop使用案例4、深入了解数据库导入5、导出与事务6、导出与SequenceFile7、Azkaban执行工作流Sqoop与Oozie1 、安装部署Sqoop2、Sqoop数据迁移3、Sqoop使用案例4、深入了解数据库导入5、导出与事务6、导出与SequenceFile7、Azkaban执行工作流Zookeeper详解1、Zookeeper简介2、Zookeeper的下载和部署3、Zookeeper的配置与运行4、Zookeeper的本地模式实例5、Zookeeper的数据模型6、Zookeeper命令行操作范例7、storm在Zookeeper目录结构NoSQL、HBase1、HBase的特点2、HBase访问接口3、HBase存储结构与格式4、HBase设计5、关键算法和流程6、HBase安装7、HBase的SHELL操作8、HBase集群搭建第七阶段：Spark生态系统Spark1.什么是大数据处理框架的特点与应用场景 SQL原理和实践 Streaming原理和实践 SparkR入门的监控和调优Spark部署和运行准备开发环境编程接口体系结构通信协议4.导入Hadoop的JAR文件代码的实现6.打包、部署和运行7.打包成JAR文件Spark程序开发1、启动Spark Shell2、加载text文件3、RDD操作及其应用4、RDD缓存5、构建Eclipse开发环境6、构建IntelliJ IDEA开发环境7、创建SparkContext对象8、编写编译并提交应用程序Spark编程模型1、RDD特征与依赖2、集合（数组）创建RDD3、存储创建RDD4、RDD转换执行控制操作5、广播变量6、累加器作业执行解析1、Spark组件2、RDD视图与DAG图3、基于Standalone模式的Spark架构4、基于YARN模式的Spark架构5、作业事件流和调度分析6、构建应用程序运行时环境7、应用程序转换成DAGSpark SQL与DataFrame1、Spark SQL架构特性2、DataFrame和RDD的区别3、创建操作DataFrame4、RDD转化为DataFrame5、加载保存操作与Hive表6、Parquet文件JSON数据集7、分布式的SQL Engine8、性能调优数据类型深入Spark Streaming1、Spark Streaming工作原理2、DStream编程模型3、Input DStream4、DStream转换状态输出5、优化运行时间及内存使用6、文件输入源7、基于Receiver的输入源8、输出操作Spark MLlib与机器学习1、机器学习分类级算法2、Spark MLlib库3、MLlib数据类型4、MLlib的算法库与实例5、ML库主要概念6、算法库与实例GraphX与SparkR1、Spark GraphX架构2、GraphX编程与常用图算法3、GraphX应用场景4、SparkR的工作原理5、R语言与其他语言的通信6、SparkR的运行与应用7、R的DataFrame操作方法8、SparkR的DataFrameScala编程开发1、Scala语法基础2、idea工具安装3、maven工具配置4、条件结构、循环、高级for循环5、数组、映射、元组6、类、样例类、对象、伴生对象7、高阶函数与函数式编程Scala进阶1、柯里化、闭包2、模式匹配、偏函数3、类型参数4、协变与逆变5、隐式转换、隐式参数、隐式值6、Actor机制7、高级项目案例Python编程1、Python编程介绍2、Python的基本语法3、Python开发环境搭建4、Pyhton开发Spark应用程序第八阶段：Storm生态系统storm简介与基本知识1、storm的诞生诞生与成长2、storm的优势与应用3、storm基本知识概念和配置4、序列化与容错机制5、可靠性机制—保证消息处理6、storm开发环境与生产环境7、storm拓扑的并行度8、storm命令行客户端Storm拓扑与组件详解1、流分组和拓扑运行2、拓扑的常见模式3、本地模式与stormsub的对比4、使用非jvm语言操作storm5、hook、组件基本接口6、基本抽象类7、事务接口8、组件之间的相互关系spout详解与bolt详解1、spout获取数据的方式2、常用的spout3、学习编写spout类4、bolt概述5、可靠的与不可靠的bolt6、复合流与复合anchoring7、使用其他语言定义bolt8、学习编写bolt类storm安装与集群搭建1、storm集群安装步骤与准备2、本地模式storm配置命令3、配置hosts文件、安装jdk4、zookeeper集群的搭建5、部署节点6、storm集群的搭建7、zookeeper应用案例8、Hadoop高可用集群搭建Kafka1、Kafka介绍和安装2、整合Flume3、Kafka API4、Kafka底层实现原理5、Kafka的消息处理机制6、数据传输的事务定义7、Kafka的存储策略Flume1、Flume介绍和安装2、Flume Source讲解3、Flume Channel讲解4、Flume Sink讲解5、flume部署种类、流配置6、单一代理、多代理说明7、flume selector相关配置Redis1、Redis介绍和安装、配置2、Redis数据类型3、Redis键、字符串、哈希4、Redis列表与集合5、Redis事务和脚本6、Redis数据备份与恢复7、Redis的SHELL操作

193 评论（12） 11小时前发布

evanzheng2013

目前大数据培训机构提供的课程大约有两种：一是大数据开发，二是数据分析与挖掘。大数据培训一般指大数据开发，不需要数学和统计学基础，学习的内容大概有：

0基础：

第一阶段： Java开发·

第二阶段：大数据基础·

第三阶段： Hadoop生态体系·

第四阶段： Spark生态系统·

第五阶段：项目实战

提高班：

第一阶段：大数据基础·

第二阶段：Hadoop生态体系·

第三阶段：Spark生态系统·

第四阶段：项目实战

168 评论（15） 11小时前发布

桃源捣主

以下介绍的课程主要针对零基础大数据工程师每个阶段进行通俗易懂简易介绍，方面大家更好的了解大数据学习课程。课程框架是科多大数据的零基础大数据工程师课程。一、第一阶段：静态网页基础(HTML+CSS)1. 难易程度：一颗星2. 课时量(技术知识点+阶段项目任务+综合能力)3. 主要技术包括：html常用标签、CSS常见布局、样式、定位等、静态页面的设计制作方式等4. 描述如下：从技术层面来说，该阶段使用的技术代码很简单、易于学习、方便理解。从后期课程层来说，因为我们重点是大数据，但前期需要锻炼编程技术与思维。经过我们多年开发和授课的项目经理分析，满足这两点，目前市场上最好理解和掌握的技术是J2EE，但J2EE又离不开页面技术。所以第一阶段我们的重点是页面技术。采用市场上主流的HTMl+CSS。二、第二阶段：JavaSE+JavaWeb1. 难易程度：两颗星2. 课时量(技术知识点+阶段项目任务+综合能力)3. 主要技术包括：java基础语法、java面向对象(类、对象、封装、继承、多态、抽象类、接口、常见类、内部类、常见修饰符等)、异常、集合、文件、IO、MYSQL(基本SQL语句操作、多表查询、子查询、存储过程、事务、分布式事务)JDBC、线程、反射、Socket编程、枚举、泛型、设计模式4. 描述如下：称为Java基础，由浅入深的技术点、真实商业项目模块分析、多种存储方式的设计与实现。该阶段是前四个阶段最最重要的阶段，因为后面所有阶段的都要基于此阶段，也是学习大数据紧密度最高的阶段。本阶段将第一次接触团队开发、产出具有前后台(第一阶段技术+第二阶段的技术综合应用)的真实项目。三、第三阶段：前端框架1. 难易程序：两星2. 课时量(技术知识点+阶段项目任务+综合能力)：64课时3. 主要技术包括：Java、Jquery、注解反射一起使用，XML以及XML解析、解析dom4j、jxab、新特性、SVN、Maven、easyui4. 描述如下：前两个阶段的基础上化静为动，可以实现让我们网页内容更加的丰富，当然如果从市场人员层面来说，有专业的前端设计人员，我们设计本阶段的目标在于前端的技术可以更直观的锻炼人的思维和设计能力。同时我们也将第二阶段的高级特性融入到本阶段。使学习者更上一层楼。四、第四阶段：企业级开发框架1. 难易程序：三颗星2. 课时量(技术知识点+阶段项目任务+综合能力)3. 主要技术包括：Hibernate、Spring、SpringMVC、log4j slf4j 整合、myBatis、struts2、Shiro、redis、流程引擎activity，爬虫技术nutch,lucene，webServiceCXF、Tomcat集群和热备、MySQL读写分离4. 描述如下：如果将整个JAVA课程比作一个糕点店，那前面三个阶段可以做出一个武大郎烧饼(因为是纯手工-太麻烦)，而学习框架是可以开一个星巴克(高科技设备-省时省力)。从J2EE开发工程师的任职要求来说，该阶段所用到的技术是必须掌握，而我们所授的课程是高于市场(市场上主流三大框架，我们进行七大框架技术传授)、而且有真实的商业项目驱动。需求文档、概要设计、详细设计、源码测试、部署、安装手册等都会进行讲解。五、第五阶段：初识大数据1. 难易程度：三颗星2. 课时量(技术知识点+阶段项目任务+综合能力)3. 主要技术包括：大数据前篇(什么是大数据，应用场景，如何学习大数据库，虚拟机概念和安装等)、Linux常见命令(文件管理、系统管理、磁盘管理)、Linux Shell编程(SHELL变量、循环控制、应用)、Hadoop入门(Hadoop组成、单机版环境、目录结构、HDFS界面、MR界面、简单的SHELL、java访问hadoop)、HDFS(简介、SHELL、IDEA开发工具使用、全分布式集群搭建)、MapReduce应用(中间计算过程、Java操作MapReduce、程序运行、日志监控)、Hadoop高级应用(YARN框架介绍、配置项与优化、CDH简介、环境搭建)、扩展(MAP 端优化，COMBINER 使用方法见,TOP K,SQOOP导出,其它虚拟机VM的快照,权限管理命令,AWK 与 SED命令)4. 描述如下：该阶段设计是为了让新人能够对大数据有一个相对的大概念怎么相对呢?在前置课程JAVA的学习过后能够理解程序在单机的电脑上是如何运行的。现在，大数据呢?大数据是将程序运行在大规模机器的集群中处理。大数据当然是要处理数据，所以同样，数据的存储从单机存储变为多机器大规模的集群存储。(你问我什么是集群?好，我有一大锅饭，我一个人可以吃完，但是要很久，现在我叫大家一起吃。一个人的时候叫人，人多了呢? 是不是叫人群啊!)那么大数据可以初略的分为：大数据存储和大数据处理所以在这个阶段中呢，我们课程设计了大数据的标准：HADOOP大数据的运行呢并不是在咋们经常使用的WINDOWS 7或者W10上面，而是现在使用最广泛的系统：LINUX。六、第六阶段：大数据数据库1. 难易程度：四颗星2. 课时量(技术知识点+阶段项目任务+综合能力)3. 主要技术包括：Hive入门(Hive简介、Hive使用场景、环境搭建、架构说明、工作机制)、Hive Shell编程(建表、查询语句、分区与分桶、索引管理和视图)、Hive高级应用(DISTINCT实现、groupby、join、sql转化原理、java编程、配置和优化)、hbase入门、Hbase SHELL编程(DDL、DML、Java操作建表、查询、压缩、过滤器)、细说Hbase模块(REGION、HREGION SERVER、HMASTER、ZOOKEEPER简介、ZOOKEEPER配置、Hbase与Zookeeper集成)、HBASE高级特性(读写流程、数据模型、模式设计读写热点、优化与配置)4. 描述如下：该阶段设计是为了让大家在理解大数据如何处理大规模的数据的同时。简化咋们的编写程序时间，同时提高读取速度。怎么简化呢?在第一阶段中，如果需要进行复杂的业务关联与数据挖掘，自行编写MR程序是非常繁杂的。所以在这一阶段中我们引入了HIVE，大数据中的数据仓库。这里有一个关键字，数据仓库。我知道你要问我，所以我先说，数据仓库呢用来做数据挖掘分析的，通常是一个超大的数据中心，存储这些数据的呢，一般为ORACLE,DB2,等大型数据库，这些数据库通常用作实时的在线业务。总之，要基于数据仓库分析数据呢速度是相对较慢的。但是方便在于只要熟悉SQL，学习起来相对简单，而HIVE呢就是这样一种工具，基于大数据的SQL查询工具，这一阶段呢还包括HBASE，它为大数据里面的数据库。纳闷了，不是学了一种叫做HIVE的数据“仓库”了么?HIVE是基于MR的所以查询起来相当慢，HBASE呢基于大数据可以做到实时的数据查询。一个主分析，另一个主查询七、第七阶段：实时数据采集1. 难易程序：四颗星2. 课时量(技术知识点+阶段项目任务+综合能力)3. 主要技术包括：Flume日志采集，KAFKA入门(消息队列、应用场景、集群搭建)、KAFKA详解(分区、主题、接受者、发送者、与ZOOKEEPER集成、Shell开发、Shell调试)、KAFKA高级使用(java开发、主要配置、优化项目)、数据可视化(图形与图表介绍、CHARTS工具分类、柱状图与饼图、3D图与地图)、STORM入门(设计思想、应用场景、处理过程、集群安装)、STROM开发(STROM MVN开发、编写STORM本地程序)、STORM进阶(java开发、主要配置、优化项目)、KAFKA异步发送与批量发送时效，KAFKA全局消息有序，STORM多并发优化4. 描述如下：前面的阶段数据来源是基于已经存在的大规模数据集来做的，数据处理与分析过后的结果是存在一定延时的，通常处理的数据为前一天的数据。举例场景：网站防盗链，客户账户异常，实时征信，遇到这些场景基于前一天的数据分析出来过后呢?是否太晚了。所以在本阶段中我们引入了实时的数据采集与分析。主要包括了：FLUME实时数据采集，采集的来源支持非常广泛，KAFKA数据数据接收与发送，STORM实时数据处理，数据处理秒级别八、第八阶段：SPARK数据分析1. 难易程序：五颗星2. 课时量(技术知识点+阶段项目任务+综合能力)3. 主要技术包括：SCALA入门(数据类型、运算符、控制语句、基础函数)、SCALA进阶(数据结构、类、对象、特质、模式匹配、正则表达式)、SCALA高级使用(高阶函数、科里函数、偏函数、尾迭代、自带高阶函数等)、SPARK入门(环境搭建、基础结构、运行模式)、Spark数据集与编程模型、SPARK SQL、SPARK 进阶(DATA FRAME、DATASET、SPARK STREAMING原理、SPARK STREAMING支持源、集成KAFKA与SOCKET、编程模型)、SPARK高级编程(Spark-GraphX、Spark-Mllib机器学习)、SPARK高级应用(系统架构、主要配置和性能优化、故障与阶段恢复)、SPARK ML KMEANS算法，SCALA 隐式转化高级特性4. 描述如下：同样先说前面的阶段，主要是第一阶段。HADOOP呢在分析速度上基于MR的大规模数据集相对来说还是挺慢的，包括机器学习，人工智能等。而且不适合做迭代计算。SPARK呢在分析上是作为MR的替代产品，怎么替代呢? 先说他们的运行机制，HADOOP基于磁盘存储分析，而SPARK基于内存分析。我这么说你可能不懂，再形象一点，就像你要坐火车从北京到上海，MR就是绿皮火车，而SPARK是高铁或者磁悬浮。而SPARK呢是基于SCALA语言开发的，当然对SCALA支持最好，所以课程中先学习SCALA开发语言。在科多大数据课程的设计方面，市面上的职位要求技术，基本全覆盖。而且并不是单纯的为了覆盖职位要求，而是本身课程从前到后就是一个完整的大数据项目流程，一环扣一环。比如从历史数据的存储，分析(HADOOP,HIVE,HBASE)，到实时的数据存储(FLUME,KAFKA)，分析(STORM,SPARK)，这些在真实的项目中都是相互依赖存在的。

175 评论（11） 12小时前发布

不是我的白云

想要从零基础到入门然后再到精通的话，大概是需要5个月左右的时间，时间不算常，这个时间段可以让你更好的学到更多的东西，费用的话不贵，大概就几千块钱。

157 评论（11） 12小时前发布

么么哒哒啦

大大数据开发工程师要学习哪些课程大数据开发工程师要学习哪些大数据开发工程师要学习哪些课程

158 评论（12） 12小时前发布

大米粒圆又圆

大数据培训，目前主要有两种：

1、大数据开发

数据工程师建设和优化系统。学习hadoop、spark、storm、超大集群调优、机器学习、Docker容器引擎、ElasticSearch、并发编程等；

2、数据分析与挖掘

一般工作包括数据清洗，执行分析和数据可视化。学习Python、数据库、网络爬虫、数据分析与处理等。

大数据培训一般是指大数据开发培训。

大数据技术庞大复杂，基础的技术包含数据的采集、数据预处理、分布式存储、数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。

288 评论（11） 12小时前发布

水云间秋忆

大数据工程师要学什么课程？没接触过大数据的人也许不知道大数据工程师是什么，更别说知道大数据工程师要学什么课程了。我们先来说下大数据工程师是做什么的吧。是负责公司互联网数据分析的一个职位，对数据库进行开发和(或)维护，需要具备超强的逻辑思维，精通各种语言，需要有相当好的毅力和耐心。光环大数据的大数据培训课程分为如下几个阶段：第一阶段：java核心学习学习内容：Java核心内容学习目标：掌握数据类型与运算符，数组、类与对象；掌握IO流与反射、多线程、JDBC。完成目标：Java多线程模拟多窗口售票，Java集合框架管理。第二阶段: JavaEE课程大纲学习内容：JavaEE核心内容学习目标：Mysql数据基础知识，Jdbc 基础概念和操作掌握HTML和CSS语法、Java核心语法完成目标：京东电商网站项目、2048小游戏。第三阶段：Linux精讲学习内容：Linux命令、文件、配置，Shell、Awk、Sed学习目标：搭建负载均衡、高可靠的服务器集群，可大网站并发访问量，保证服务不间断完成目标：Linux环境搭建、shell脚本小游戏贪吃蛇。第四阶段：Hadoop生态体系学习内容：HDFS、MapReduce、Hive、Sqoop、Oozie学习目标：掌握HDFS原理、操作和应用开发，掌握分布式运算、Hive数据仓库原理及应用。完成目标：微博数据大数据分析、汽车销售大数据分析第五阶段：Storm实时开发学习内容：Zookeeper、HBase、Storm实时数据学习目标：掌握Storm程序的开发及底层原理，具备开发基于Storm的实时计算程序的能力。完成目标：实时处理新数据和更新数据库，处理密集查询并行搜索处理大集合的数据。

259 评论（11） 12小时前发布

学堂大数据工程师培训

8个回答 默认排序 默认排序 按时间排序

相关问答

工程师考试

向你推荐

热门问题

8个回答默认排序

默认排序

按时间排序