阿里数据工程师培训

10个回答默认排序

默认排序

按时间排序

小熊猫球球酱

已采纳

老男孩教育的大数据培训课程内容包括：Java、Linux、Hadoop、Hive、Avro与Protobuf、ZooKeeper、HBase、Phoenix、Redis、Flume、SSM、Kafka、Scala、Spark、azkaban、Python与大数据分析等

阿里数据工程师培训

205 评论（14） 2小时前发布

好难瘦小姐

大数据是眼下非常时髦的技术名词，与此同时自然也催生出了一些与大数据处理相关的职业，通过对数据的挖掘分析来影响企业的商业决策。这群人在国外被叫做数据科学家（Data Scientist），这个头衔最早由和Jeff Hammerbacher于2008年提出，他们后来分别成为了领英（LinkedIn）和Facebook数据科学团队的负责人。而数据科学家这个职位目前也已经在美国传统的电信、零售、金融、制造、物流、医疗、教育等行业里开始创造价值。不过在国内，大数据的应用才刚刚萌芽，人才市场还不那么成熟，“你很难期望有一个全才来完成整个链条上的所有环节。更多公司会根据自己已有的资源和短板，招聘能和现有团队互补的人才。”领英（LinkedIn）中国商务分析及战略总监王昱尧对《第一财经周刊》说。数据工程师是做什么的？于是每家公司对大数据工作的要求不尽相同：有的强调数据库编程、有的突出应用数学和统计学知识、有的则要求有咨询公司或投行相关的经验、有些是希望能找到懂得产品和市场的应用型人才。正因为如此，很多公司会针对自己的业务类型和团队分工，给这群与大数据打交道的人一些新的头衔和定义：数据挖掘工程师、大数据专家、数据研究员、用户分析专家等都是经常在国内公司里出现的Title，我们将其统称为“大数据工程师”。由于国内的大数据工作还处在一个有待开发的阶段，因此能从其中挖掘出多少价值完全取决于工程师的个人能力。已经身处这个行业的专家给出了一些人才需求的大体框架，包括要有计算机编码能力、数学及统计学相关背景，当然如果能对一些特定领域或行业有比较深入的了解，对于其快速判断并抓准关键因素则更有帮助。虽然对于一些大公司来说，拥有硕博学历的公司人是比较好的选择，不过阿里巴巴集团研究员薛贵荣强调，学历并不是最主要的因素，能有大规模处理数据的经验并且有喜欢在数据海洋中寻宝的好奇心会更适合这个工作。除此之外，一个优秀的大数据工程师要具备一定的逻辑分析能力，并能迅速定位某个商业问题的关键属性和决定因素。“他得知道什么是相关的，哪个是重要的，使用什么样的数据是最有价值的，如何快速找到每个业务最核心的需求。”联合国百度大数据联合实验室数据科学家沈志勇说。学习能力能帮助大数据工程师快速适应不同的项目，并在短时间内成为这个领域的数据专家；沟通能力则能让他们的工作开展地更顺利，因为大数据工程师的工作主要分为两种方式：由市场部驱动和由数据分析部门驱动，前者需要常常向产品经理了解开发需求，后者则需要找运营部了解数据模型实际转化的情况。你可以将以上这些要求看做是成为大数据工程师的努力方向，因为根据万宝瑞华管理合伙人颜莉萍（Nicole Yan）的观察，这是一个很大的人才缺口。目前国内的大数据应用多集中在互联网领域，有超过56%的企业在筹备发展大数据研究，“未来5年，94%的公司都会需要数据科学家。”颜莉萍（Nicole Yan）说。因此她也建议一些原本从事与数据工作相关的公司人可以考虑转型。用阿里巴巴集团研究员薛贵荣的话来说，大数据工程师就是一群“玩数据”的人，玩出数据的商业价值，让数据变成生产力。大数据和传统数据的最大区别在于，它是在线的、实时的，规模海量且形式不规整，无章法可循，因此“会玩”这些数据的人就很重要。沈志勇认为如果把大数据想象成一座不停累积的矿山，那么大数据工程师的工作就是，“第一步，定位并抽取信息所在的数据集，相当于探矿和采矿。第二步，把它变成直接可以做判断的信息，相当于冶炼。最后是应用，把数据可视化等。”因此分析历史、预测未来、优化选择，这是大数据工程师在“玩数据”时最重要的三大任务。通过这三个工作方向，他们帮助企业做出更好的商业决策。1.找出过去事件的特征大数据工程师一个很重要的工作，就是通过分析数据来找出过去事件的特征。比如，腾讯的数据团队正在搭建一个数据仓库，把公司所有网络平台上数量庞大、不规整的数据信息进行梳理，总结出可供查询的特征，来支持公司各类业务对数据的需求，包括广告投放、游戏开发、社交网络等。找出过去事件的特征，最大的作用是可以帮助企业更好地认识消费者。通过分析用户以往的行为轨迹，就能够了解这个人，并预测他的行为。“你可以知道他是什么样的人、他的年纪、兴趣爱好，是不是互联网付费用户、喜欢玩什么类型的游戏，平常喜欢在网上做什么事情。”腾讯云计算有限公司北京研发中心总经理郑立峰对《第一财经周刊》说。下一步到了业务层面，就可以针对各类人群推荐相关服务，比如手游，或是基于不同特征和需求衍生出新的业务模式，比如微信的电影票业务。2.预测未来可能发生的事情通过引入关键因素，大数据工程师可以预测未来的消费趋势。在阿里妈妈的营销平台上，工程师正试图通过引入气象数据来帮助淘宝卖家做生意。“比如今年夏天不热，很可能某些产品就没有去年畅销，除了空调、电扇，背心、游泳衣等都可能会受其影响。那么我们就会建立气象数据和销售数据之间的关系，找到与之相关的品类，提前警示卖家周转库存。”薛贵荣说。在百度，沈志勇支持“百度预测”部分产品的模型研发，试图用大数据为更广泛的人群服务。已经上线的包括世界杯预测、高考预测、景点预测等。以百度景点预测为例，大数据工程师需要收集所有可能影响一段时间内景点人流量的关键因素进行预测，并为全国各个景点未来的拥挤度分级—在接下来的若干天时间里，它究竟是畅通、拥挤，还是一般拥挤？3.找出最优化的结果根据不同企业的业务性质，大数据工程师可以通过数据分析来达到不同的目的。以腾讯来说，郑立峰认为能反映大数据工程师工作的最简单直接的例子就是选项测试（AB Test），即帮助产品经理在A、B两个备选方案中做出选择。在过去，决策者只能依据经验进行判断，但如今大数据工程师可以通过大范围地实时测试—比如，在社交网络产品的例子中，让一半用户看到A界面，另一半使用B界面，观察统计一段时间内的点击率和转化率，以此帮助市场部做出最终选择。作为电商的阿里巴巴，则希望通过大数据锁定精准的人群，帮助卖家做更好的营销。“我们更期待的是你能找到这样一批人，比起现有的用户，这些人对产品更感兴趣。”薛贵荣说。一个淘宝的实例是，某人参卖家原来推广的目标人群是产妇，但工程师通过挖掘数据之间的关联性后发现，针对孕妇群体投放的营销转化率更高。需要具备的能力1.数学及统计学相关的背景就我们采访过的BAT三家互联网大公司来说，对于大数据工程师的要求都是希望是统计学和数学背景的硕士或博士学历。沈志勇认为，缺乏理论背景的数据工作者，更容易进入一个技能上的危险区域（Danger Zone）—一堆数字，按照不同的数据模型和算法总能捯饬出一些结果来，但如果你不知道那代表什么，就并不是真正有意义的结果，并且那样的结果还容易误导你。“只有具备一定的理论知识，才能理解模型、复用模型甚至创新模型，来解决实际问题。”沈志勇说。2.计算机编码能力实际开发能力和大规模的数据处理能力是作为大数据工程师的一些必备要素。“因为许多数据的价值来自于挖掘的过程，你必须亲自动手才能发现金子的价值。”郑立峰说。举例来说，现在人们在社交网络上所产生的许多记录都是非结构化的数据，如何从这些毫无头绪的文字、语音、图像甚至视频中攫取有意义的信息就需要大数据工程师亲自挖掘。即使在某些团队中，大数据工程师的职责以商业分析为主，但也要熟悉计算机处理大数据的方式。3.对特定应用领域或行业的知识在颜莉萍（Nicole Yan）看来，大数据工程师这个角色很重要的一点是，不能脱离市场，因为大数据只有和特定领域的应用结合起来才能产生价值。所以，在某个或多个垂直行业的经历能为应聘者积累对行业的认知，对于之后成为大数据工程师有很大帮助，因此这也是应聘这个岗位时较有说服力的加分项。“他不能只是懂得数据，还要有商业头脑，不论对零售、医药、游戏还是旅游等行业，能就其中某些领域有一定的理解，最好还是与公司的业务方向一致的，”就此薛贵荣还打了个比方，“过去我们说一些奢侈品店员势利，看人一眼就知道买得起买不起，但这群人恰恰是有敏锐度的，我们认为他们是这个行业的专家。又比如对医疗行业了解的人，他在考虑医疗保险业务时，不仅会和人们医院看病的记录相关，也会考虑饮食数据，这些都是基于对该领域的了解。”职业发展1.如何成为大数据工程师由于目前大数据人才匮乏，对于公司来说，很难招聘到合适的人才—既要有高学历，同时最好还有大规模数据处理经验。因此很多企业会通过内部挖掘。2014年8月，阿里巴巴举办了一个大数据竞赛，把天猫平台上的数据拿出来，去除敏感问题后，放到云计算平台上交予7000多支队伍进行比赛，比赛分为内部赛和外部赛。“通过这个方式来激励内部员工，同时也发现外部人才，让各行业的大数据工程师涌现出来。”颜莉萍（Nicole Yan）建议，目前长期从事数据库管理、挖掘、编程工作的人，包括传统的量化分析师、Hadoop方面的工程师，以及任何在工作中需要通过数据来进行判断决策的管理者，比如某些领域的运营经理等，都可以尝试该职位，而各个领域的达人只要学会运用数据，也可以成为大数据工程师。2.薪酬待遇作为IT类职业中的“大熊猫”，大数据工程师的收入待遇可以说达到了同类的顶级。根据颜莉萍（Nicole Yan）的观察，国内IT、通讯、行业招聘中，有10%都是和大数据相关的，且比例还在上升。颜莉萍（Nicole Yan）表示，“大数据时代的到来很突然，在国内发展势头激进，而人才却非常有限，现在完全是供不应求的状况。”在美国，大数据工程师平均每年薪酬高达万美元，而据了解，在国内顶尖互联网类公司，同一个级别大数据工程师的薪酬可能要比其他职位高20%至30%，且颇受企业重视。3.职业发展路径由于大数据人才数量较少，因此大多数公司的数据部门一般都是扁平化的层级模式，大致分为数据分析师、资深研究员、部门总监3个级别。大公司可能按照应用领域的维度来划分不同团队，而在小公司则需要身兼数职。有些特别强调大数据战略的互联网公司则会另设最高职位—如阿里巴巴的首席数据官。“这个职位的大部分人会往研究方向发展，成为重要数据战略人才。”颜莉萍（Nicole Yan）说。另一方面，大数据工程师对商业和产品的理解，并不亚于业务部门员工，因此也可转向产品部或市场部，乃至上升为公司的高级管理层。

84 评论（13） 6小时前发布

功夫肥豬

大数据培训到底是培训什么？大数据是现在比较主流的一个岗位，主要工作内容是进行数据分析、运营、管理，如果要学习大数据就一点要先学会有一个营销的思维去思考这些数据我们有什么用我们可以通过这些数据得到什么，这样的话我们就需要学习网络营销、主流的数据分析软件以及运营维护管理的能力，但是学习过程还是比较辛苦的。

181 评论（10） 8小时前发布

wangqinglin0

本人03年计算机科学与技术毕业，转行到商业数据分析，大学教书7年，从网络到数据库、软件开发；2010年接触数据分析，，一路学习，进入某上市公司做人才测评工作，开始正式入行，从产品竞争情报分析、产品快速测试、用户图谱、数据采集、报表、可视化制作等入手，后来到建模、对比分析、关联分析、聚类等，后来又去阿XXX呆了一年多，然后又和加拿大一帮分析师一起工作，从他们身上学到很多思维方式和分析经验，对如何通过数据去解决企业实践问题的能力提升很多。现在自己和加拿大哥们开公司,专门为中国企业做数据商业咨询服务，业务太多都有点忙不过来了。另外一块业务就是为阿里云提供大数据分析教育内容，比如高校大数据专业的课程体系、实验室产品等，阿里云大数据分析师ACP认证整套体系和认证考试培训研发都是我们公司开发的。还有每年全国各高校大数据专业的师资培训都是我们在做。所以总结我个人的学习路径和方法及认知，给你们提供一条学习路径，希望对你们在大数据商业分析师这条职业道路上有所帮助！以职业能力结构的学习图谱

具体学习路径与方法：第一层通用技能

1、通用技能是作为数据分析师必须具备的分析工具和大数据相关知识；数据编程：数据编程工具有Python、R、SAS等，目前用的多的是Python,如果有语言基础的小伙伴上手很快，语法、函数、面向对象这些都比较简单，没有基础的小伙伴也可以自学，不是很难，推荐的学习《小象学院》每天学习一节课，听完后可以去阿里云大学官网去做一些Clouder，增加对Python在项目中的使用场景理解，数据清洗、爬虫、数据分析、数据可视化这些是工作中经常用到的。建议书籍：

2、数据存储：主要是数据库、数据建模，分析师对数据仓库需要了解，这些基础课程完全可以自学，推荐优达学城里面有这些课程，老师讲的HIA不错，也可以去九道门做些实验项目，他们有时候搞活动是免费的；如果你觉得还是难，那就采用最基础的学习路径，直接买MYSQL关系型数据库的书看，随便到网上去找个免费的MYSQL课程听；先解决会的问题。建议书籍：

另外分布式存储HDOOP需要简单了解就可以了，如果能自己搭建3个节点跑通，个人觉得就OK了，3、云计算：做为分析师对云计算的技术作为了解就可以了，可以不做目前的强化学习内容4、数据预处理：这个是数据分析师必须时刻记住的事情，从我们这个行业有句行话，叫垃圾进来垃圾出去，如果数据质量控制不好，后面做的再牛逼，也是垃圾；这个课程主要是看大家对数据的理解和质量控制的方法，目前市场上有专门的岗位就叫ETL数据清洗工程师；有专门的数据质量控制或者数据清洗的书。

5、数据可视化：数据可视化不是很难，如果不要求特别美工的话，大家先理解图表，再研究研究仪表板，阿里云的Quich BI及DataV,百度的echarts都不错，主要是展示的业务结构需要规划。6、大数据技术:这个相对来说有些难度，如果是学数学统计类专业小伙伴就非常有优势了，其他专业的小伙伴也不用担心，毕竟工作后还可以继续学习，在工作中用的比较多的是聚类、关联、决策树、线性回归等，如果你不去做模型和算法工程师那么只需要会用就可以了，实在不行有专业的工具让我们用，比如第四范式的产品和阿里云的机器学习PAN都是可以直接出结果的工具；推荐书籍：

7、分析&AI：这部分先了解数据分析的基本流程和分析手法；上面的如果都学了，可以到阿里云大学上面去做几个数据分析方面的案例，增加对数据分析的流程理解和相关技术应用，但是要注意的是阿里案例都是用阿里的工具来实现的，比较简单，建议大家自己编程实现，也可以到天池大赛上去看一些案例，自己做做训练。

以上的工具学习如果自学的小伙伴觉得很难坚持，那就只能去报培训班了，需要提醒大家的是目前培训机构愚弄混杂，在工具教学上有些机构还算马马虎虎，大部分培训机构的老师根本没做过商业分析项目，很多思维方式可能会误导你。至于那个培训机构好，我也不是很清楚，个人觉得自己坚持以上东西是可以自学的，做好规划一步步往前，时间可能长点，需要恒心。第二层商业分析学完通用技能后你是否能真正入门，到企业能干活就看这一层了，在写这篇学习路径的时候我帮大家简单做了中国培训机构的调查分析，北风网、传智播客、达内、千峰、兄弟连、容大、华信智原等稍微好点的能做第一层，第二层都做不了，主要原因分析真正做大数据商业咨询人才都在名企，专业做数据咨询的公司员工一是没时间，二是价格高，培训机构请不起。

我帮大家总结了，目前中国市场大部分企业招聘大数据分析师主要为四个层面服务；一为产品经理服务，国内产品经理不懂数据分析，而新产品的竞争情报分析、产品敏捷测试等都需要数据分析师帮助完成，后期产品迭代优化还是需要数据分析师采集用户行为、习惯、评价等数据来完成。二是为运营服务，产品运营中的用户流量、促销、顾客关系管理等需要数据分析师帮助完成；三是公司数据制定和标准建设、各部门数据打通，数据化管理等工作需要数据分析师完成，四是数据情报和数据预测为高层服务。从以上四个方面我们再去看第二层的商业分析能力和业务知识能力就显得尤为重要，这个时候是考验分析师的业务理解能力及通过数据为企业解决实际问题的能力了。比如分析师的分析流程、分析思维、分析技能、展示说服能力。小伙伴们要想快速进入第二层只有三种方式，一是锁定一个行业，刚开始别嫌工资低，入行1年左右，拼的就是悟性和钻劲，也能进入，如果运气好找个专业做数据咨询的公司那就很快，一个项目下来套路就明白了；二是能遇到一个比较牛的师傅，人家愿意教你，这个也很快，我就是遇到师傅的人，半年时间就完成第二层，不过本人原来做过教师，口才、文案这些软性技能比较强；呵呵。第三种方法推荐去阿里合作伙伴决明科技，这家公司是专门做数据咨询服务的，这家公司有一块业务是做教育的，比如企业培训（阿里的合作企业大数据商业培训都是这家公司在交付），师资培训（这家公司每年做二期高校大数据应用师资培训），去年和前年做了二期大数据商业分析实训，有的被他们公司留下了，其他学员被阿里系的企业一抢而空，听说企业招聘一个人还给这个公司钱；不过他们招人实训要求比较高，首先要本科及以上学历，要会分析工具和数据库相关知识；具体情况小伙伴可以去百度一下九道门就知道了。另外听说很多培训机构租他们的大数据实验平台.第三层：上面我说在入行的时候建议大家选择一个行业，不要轻易换行业，大数据商业分析师对行业的要求很高，本身如果你是行业专家有加上懂数据分析，那就是行业大数据商业分析大牛了，这个需要时间和项目沉淀，现在这种行业大牛在国内很少，因为数据分析行业中国才刚刚发展，企业才刚刚接受这个岗位！这个行业是非常不错的，有潜力，偏商科，技术辅助；真正的大牛不是特别看重数据分析技术，而是分析思维，能用数据帮助企业在产品、价格、促销、顾客、流量、财务、广告、流程、工艺等方面进行价值提升。主要是三个方面的分析，一是现状分析、二是原因分析、三是预测分析。洋洋洒洒写了这么多，希望对您有一些启发和帮助！也希望我们以后在大数据商业分析的江湖上进行切磋相遇！祝您学业有成，尽快入行，加油！

153 评论（9） 12小时前发布

wuyan841106

入行大数据分析师必备技能有哪些?大数据分析师需要每天使用各种不同的技能;从深入分析到数据可视化和讲故事的一切。您将在一分钟内编写一个SQL查询来探索数据集，而下一分钟您将站在董事会面前，概述业务如何根据您的发现进行调整。

在介绍了大数据分析师和数据科学家之间的差异，大数据分析师的薪水以及刚起步的人员的一些关键大数据分析术语之后，我们现在将探讨与成为大数据分析师相关的关键技能。您可能已经拥有一些技能，因为它们涵盖了涉及沟通，分析和解决问题的广泛技能。

在入行大数据分析师必备技能有哪些文章中，我们将深入了解成为大数据分析师的意义。AAA教育目前正在提供一个简短的大数据分析课程，该课程的重点之一是掌握Microsoft Excel(分析的关键工具)的基础知识。这是对大数据分析的清晰易懂的介绍，它将教您与成为大数据分析师相关的核心技能之一。它还会轻而易举地消除您可能对该领域是否适用存在的任何疑问：是的，您也可以成为大数据分析师!

成为大数据分析师：您需要的关键技能

优秀的解决问题能力

扎实的数字技能

Excel熟练程度和查询语言知识

数据可视化方面的专业知识

良好的沟通能力

关键要点

1.优秀的解决问题能力

解决问题是大数据分析师应具备的最重要技能之一。大约90%的分析与批判性思维有关，并且知道要提出的正确问题。如果您提出的问题基于对业务，产品和行业的了解，那么您将获得所需的答案。大数据分析就是要提出一个问题(即“为什么我们不卖更多的红色自行车?”)，并执行必要的调查任务以找到答案。

大数据分析主要涉及对遇到的问题进行逻辑思考。如果您熟悉数据的挑战和细微差别，您将更快地得出正确的结论。如果红色自行车卖得不好，那为什么会这样呢?是因为其他颜色的范围更大吗?红色自行车的价格通常高于其他自行车吗?红色自行车是否仅以山地自行车形式提供，因此不鼓励城市居民购买?大数据分析师通过使用他们的逻辑来理解数据可以更快地得出结论。

2.扎实的数字技能

许多大数据分析师并非来自数字世界，通常是来自业务或营销背景。随着您的发展，完全有可能增加对这一领域的了解。虽然不一定是“技能”，但对于任何有抱负的大数据分析师来说，拥有数字天赋无疑是一件好事。您需要从正规教育或其他经验中获得一定程度的数字专业知识。您可以学习与大数据分析相关的大多数数字技能，例如回归分析，它涉及检查两个或多个变量及其关系，而无需回到学校。

在统计方面有充分的基础也是有益的。您需要对查询有所了解，查询是计算机用来执行任务的命令。在分析中，这些命令用于从数据集中提取信息。精通应用科学和线性代数的知识将使您更轻松，尽管如果这对您来说还是个谜，请不要放任。

3.精通Excel和查询语言知识

如前所述，Microsoft Excel的知识是有效大数据分析的一项基本技能。这是一个电子表格程序，全球数百万人使用它来存储和共享信息，执行数学和统计运算以及创建总结重要发现的报告和可视化效果。对于大数据分析人员来说，它是一个强大的工具，可用于快速访问，组织和处理数据以获取和共享见解。大数据分析师每天都会使用Excel，因此您将必须从数据透视表中真正了解您的VLOOKUP。是否想找出红色自行车卖得最多的地方?好奇红色自行车的平均价格是否高于蓝色自行车?Excel可以帮助提供此类问题的答案。

除Excel之外，分析人员还需要熟悉至少一种查询语言。这些语言用于指示计算机执行特定任务，包括许多与大数据分析有关的任务。用于大数据分析的最受欢迎的语言是SQL和SAS，而诸如Python和R之类的编程语言则具有各种专用于分析数据的强大程序。

许多可用的语言执行不同的功能或适应某一特定行业。SAS主要用于医疗行业，而SQL通常用于从数据库检索数据。如果您对自己想从事的行业有所了解，那么进行一些研究并找出它们使用的语言是有益的-为您最感兴趣的行业量身定制学习是一个明智的举动。

4.数据可视化方面的专业知识

很难处理一个复杂的主题并以简单的方式介绍发现的结果，但这正是大数据分析师的工作!这是关于将您的发现转化为易于消化的信息块。用数据讲述一个引人入胜的故事至关重要，而其中很多都涉及视觉辅助工具的使用。图形和饼图是说明数据发现的一种流行且极为有效的方法。

Microsoft Excel和Tableau都拥有大量用于可视化数据的选项，使您能够以准确的方式显示结果。该技能在于知道如何最好地呈现数据，以便您的发现自己说话。技术专业人员之间倾向于用复杂而深奥的语言说话，但是要成为一名出色的大数据分析师，就是要通过简单的可视化轻松，有效地传达发现。

5.良好的沟通能力

除了能够可视化您的发现之外，大数据分析师还必须能够口头交流发现的结果。大数据分析师与利益相关者，同事和数据供应商不断合作，因此良好的沟通技巧至关重要。你和别人说话有多好?您可以有效地将技术信息分解为简单的单词吗?这是与数据可视化紧密相关的一项关键技能，这一切都在交付中!

相关推荐：

《大数据分析方法》、《转行大数据分析师后悔了》、《大数据分析师工作内容》、《学大数据分析培训多少钱》、《大数据分析培训课程大纲》、《大数据分析培训课程内容有哪些》、《大数据分析方法》、《大数据分析十八般工具》

319 评论（15） 12小时前发布

妮裳风云

大数据前景好，就业薪资高，人才紧缺，应用范围广，找到工作是没有问题的，主要是看自己学会了多少东西，掌握了多少技能，选择大数据培训机构重点关注机构的口碑，希望你早日找到工作。

164 评论（9） 12小时前发布

新月之垣

大数据培训，目前主要有两种：

1、大数据开发

数据工程师建设和优化系统。学习hadoop、spark、storm、超大集群调优、机器学习、Docker容器引擎、ElasticSearch、并发编程等；

2、数据分析与挖掘

一般工作包括数据清洗，执行分析和数据可视化。学习Python、数据库、网络爬虫、数据分析与处理等。

大数据培训一般是指大数据开发培训。

大数据技术庞大复杂，基础的技术包含数据的采集、数据预处理、分布式存储、数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。

298 评论（11） 12小时前发布

吃出新味来

可以参考一下以道教育的课程体系第一阶段 WEB 开发基础HTML基础1、Html基本介绍2、HTML语法规范3、基本标签介绍4、HTML编辑器/文本文档/WebStrom/elipse5、HTML元素和属性6、基本的HTML元素标题段落样式和style属性链接图像表格列表 ul/ol/dl7、 HTML注释8、表单介绍9、Table标签10、DIV布局介绍11、HTML列表详解HTML布局和Bootstrap1、 HTML块元素（block）和行内元素(inline)2、使用div实现网页布局3、响应式WEB设计（Responsive Web Design）4、使用bootstrap实现响应式布局HTML表单元素1、HTML表单 form2、HTML表单元素3、 HTML input的类型 type4、 Html input的属性CSS基础1、CSS简介及基本语法2、在HTML文档中使用CSS3、CSS样式4、CSS选择器5、盒子模型6、布局及定位CSS高级/CSS31、尺寸和对齐2、分类（clear/cursor/display/float/position/visibility）3、导航栏4、图片库5、图片透明6、媒介类型 @media7、CSS38、CSS3动画效果JavaScript基础1、JavaScript简介2、基本语法规则3、在HTML文档中使用JS4、JS变量5、JS数据类型6、JS函数7、JS运算符8、流程控制9、JS错误和调试JavaScript对象和作用域1、数字 Number2、字符串String3、日期 Date4、数组5、数学 Math6、DOM对象和事件7、BOM对象8、Window对象9、作用域和作用域链10、JSONJavascript库1、Jquery2、Prototype3、Ext JsJquery1、Jquery基本语法2、Jquery选择器3、Jquery事件4、Jquery选择器5、Jquery效果和动画6、使用Jquery操作HTML和DOM7、Jquery遍历8、Jquery封装函数9、Jquery案例表单验证和Jquery Validate1、用Js对HTML表单进行验证2、Jquery Validata基本用法3、默认校验规则和提示信息4、debug和ignore5、更改错误信息显示位置和样式6、全部校验通过后的执行函数7、修改验证触发方式8、异步验证9、自定义校验方法10、radio 和 checkbox、select 的验证Java基础1、关于Java2、Java运行机制3、第一个Java程序，注释4、Javac,Java,Javadoc等命令5、标识符与关键字6、变量的声明，初始化与应用7、变量的作用域8、变量重名9、基本数据类型10、类型转换与类型提升11、各种数据类型使用细节12、转义序列13、各种运算符的使用流程控制1、选择控制语句if-else2、选择控制语句switch-case3、循环控制语句while4、循环控制语句do-while5、循环控制语句for与增强型for6、break，continue，return7、循环标签8、数组的声明与初始化9、数组内存空间分配10、栈与堆内存11、二维（多维）数组12、Arrays类的相关方法13、main方法命令行参数面向对象1、面向对象的基本思想2、类与对象3、成员变量与默认值4、方法的声明，调用5、参数传递和内存图6、方法重载的概念7、调用原则与重载的优势8、构造器声明与默认构造器9、构造器重载10、this关键字的使用11、this调用构造器原则12、实例变量初始化方式13、可变参数方法访问权限控制1、包 package和库2、访问权限修饰符private/protected/public/包访问权限3、类的访问权限4、抽象类和抽象方法5、接口和实现6、解耦7、Java的多重继承8、通过继承来扩展接口错误和异常处理1、概念：错误和异常2、基本异常3、捕获异常 catch4、创建自定义异常5、捕获所有异常6、Java标准异常7、使用finally进行清理8、异常的限制9、构造器10、异常匹配11、异常使用指南数据库基础（MySQL）数据库基础（MySQL）JDBC1、Jdbc基本概念2、使用Jdbc连接数据库3、使用Jdbc进行crud操作4、使用Jdbc进行多表操作5、Jdbc驱动类型6、Jdbc异常和批量处理7、Jdbc储存过程Servlet和JSP1、Servlet简介2、Request对象3、Response对象4、转发和重定向5、使用Servlet完成Crud6、Session和Coolie简介7、ServletContext和Jsp8、El和Jstl的使用Ajax1、什么是Ajax2、XMLHttpRequest对象（XHR）3、XHR请求4、XHR响应5、readystate/onreadystatechange6、Jquery Ajax7、JSON8、案例：对用户名是否可用进行服务器端校验综合案例1、项目开发一般流程介绍2、模块化和分层3、DButils4、QueryRunner5、ResultSetHandle6、案例：用户登录/注册，从前端到后端第二阶段 Java SE访问权限和继承1、包的声明与使用2、import与import static3、访问权限修饰符4、类的封装性5、static（静态成员变量）6、final（修饰变量，方法）7、静态成员变量初始化方式8、类的继承与成员继承9、super的使用10、调用父类构造器11、方法的重写与变量隐藏12、继承实现多态和类型转换13、instanceof抽象类与接口1、抽象类2、抽象方法3、继承抽象类4、抽象类与多态5、接口的成员6、静态方法与默认方法7、静态成员类8、实例成员类9、局部类10、匿名类11、eclipse的使用与调试12、内部类对外围类的访问关系13、内部类的命名Lambda表达式与常用类1、函数式接口2、Lambda表达式概念3、Lambda表达式应用场合4、使用案例5、方法引用6、枚举类型（编译器的处理）7、包装类型（自动拆箱与封箱）8、String方法9、常量池机制10、String讲解11、StringBuilder讲解12、Math，Date使用13、Calendars使用异常处理与泛型1、异常分类2、try-catch-finally3、try-with-resources4、多重捕获multi-catch5、throw与throws6、自定义异常和优势7、泛型背景与优势8、参数化类型与原生类型9、类型推断10、参数化类型与数组的差异11、类型通配符12、自定义泛型类和类型擦出13、泛型方法重载与重写集合1 、常用数据结构2 、Collection接口3 、List与Set接口4 、SortedSet与NavigableSet5 、相关接口的实现类6 、Comparable与Comparator7、Queue接口8 、Deque接口9 、Map接口10、NavigableMap11、相关接口的实现类12、流操作（聚合操作）13、Collections类的使用I/O流与反射1 、File类的使用2 、字节流3 、字符流4 、缓存流5 、转换流6 、数据流7、对象流8、类加载，链接与初始化9 、ClassLoader的使用10、Class类的使用11、通过反射调用构造器12、安全管理器网络编程模型与多线程1、进程与线程2、创建线程的方式3、线程的相关方法4、线程同步5、线程死锁6、线程协作操作7、计算机网络（IP与端口）8、TCP协议与UDP协议9、URL的相关方法10、访问网络资源11、TCP协议通讯12、UDP协议通讯13、广播 MVC2.创建Spring MVC项目 MVC执行流程和参数 MVC2.创建Spring MVC项目 MVC执行流程和参数 MVC2.创建Spring MVC项目 MVC执行流程和参数简介配置文件3.用MyBatis完成的使用关联查询6.动态缓冲编程1.网络通信和协议2.关于类型函数 MVC/WebSocket AjaxIO/异步window对象全局作用域窗口关系及框架窗口位置和大小打开窗口间歇调用和超时调用（灵活运用）系统对话框location对象navigator对象screen对象history对象NIO/AIO1.网络编程模型.同步阻塞4.同步非阻塞5.异步阻塞6.异步非阻塞与AIO基本操作8.高性能IO设计模式第三阶段 Java 主流框架框架原理分析框架入门程序编写和hibernate的本质区别和应用场景开发dao方法配置文件讲解6.输入映射-pojo包装类型的定义与实现7.输出映射-resultType、resultMap8.动态sql9.订单商品数据模型分析10.高级映射的使用11.查询缓存之一级缓存、二级缓存与spring整合13. mybatis逆向工程自动生成代码Spring/Spring MVC1. springmvc架构介绍2. springmvc入门程序3. spring与mybatis整合4. springmvc注解开发—商品修改功能分析5. springmvc注解开发—RequestMapping注解6. springmvc注解开发—Controller方法返回值7. springmvc注解开发—springmvc参数绑定过程分析8. springmvc注解开发—springmvc参数绑定实例讲解9. springmvc与struts2的区别10. springmvc异常处理11. springmvc上传图片12. springmvc实现json交互13. springmvc对RESTful支持14. springmvc拦截器第四阶段关系型数据库/MySQL/NoSQLSQL基础及主流产品的下载与安装（sinux/windows）的基本配置/配置文件4.基本的SQL操作 DDL5.基本的SQL操作 DML6.基本的SQL操作客户端工具帮助文档MySQL数据类型和运算符1 数值类型2 日期时间类型3 字符串类型4 CHAR 和 VARCHAR 类型5 BINARY 和 VARBINARY 类型6 ENUM 类型7 SET 类型8 算术运算符9 比较运算符10 逻辑运算符11 位运算12 运算符的优先级MySQL函数1 字符串函数2 数值函数3 日期和时间函数4 流程函数5 其他常用函数MySQL存储引擎支持的存储引擎及其特性.选择合适的存储引擎选择合适的数据类型1 CHAR 与 VARCHAR2 TEXT 与 BLOB3 浮点数与定点数4 日期类型选择字符集1 字符集概述2 Unicode字符集3 汉字及一些常见字符集4 选择合适的字符集 5 MySQL 支持的字符集6 MySQL 字符集的设置 .索引的设计和使用1.什么是索引2.索引的类型3.索引的数据结构 BTree B+Tree Hash4.索引的存储索引6.查看索引的使用情况7.索引设计原则视图/存储过程/函数/触发器1. 什么是视图2. 视图操作3. 什么是存储过程4. 存储过程操作5. 什么是函数6. 函数的相关操作7. 触发器事务控制/锁1. 什么是事务2. 事务控制3. 分布式事务4. 锁/表锁/行锁5. InnoDB 行锁争用6. InnoDB 的行锁模式及加锁方法77 InnoDB 行锁实现方式78 间隙锁（Next-Key 锁）9 恢复和复制的需要，对 InnoDB 锁机制的影响10 InnoDB 在不同隔离级别下的一致性读及锁的差异11 表锁12 死锁SQL Mode和安全问题1. 关于SQL Mode2. MySQL中的SQL Mode3. SQL Mode和迁移4. SQL 注入5. 开发过程中如何避免SQL注入SQL优化1.通过 show status 命令了解各种 SQL 的执行频率2. 定位执行效率较低的 SQL 语句3. 通过 EXPLAIN 分析低效 SQL 的执行计划4. 确定问题并采取相应的优化措施5. 索引问题6.定期分析表和检查表7.定期优化表8.常用 SQL 的优化MySQL数据库对象优化1. 优化表的数据类型2 散列化3 逆规范化4 使用中间表提高统计查询速度5. 影响MySQL性能的重要参数6. 磁盘I/O对MySQL性能的影响7. 使用连接池8. 减少MySQL连接次数9. MySQL负载均衡MySQL集群MySQL管理和维护MemCacheRedis在Java项目中使用MemCache和Redis第五阶段：操作系统/Linux、云架构Linux安装与配置1、安装Linux至硬盘2、获取信息和搜索应用程序3、进阶：修复受损的Grub4、关于超级用户root5、依赖发行版本的系统管理工具6、关于硬件驱动程序7、进阶：配置Grub系统管理与目录管理1、Shell基本命令2、使用命令行补全和通配符3、find命令、locate命令4、查找特定程序：whereis5、Linux文件系统的架构6、移动、复制和删除7、文件和目录的权限8、文件类型与输入输出9、vmware介绍与安装使用10、网络管理、分区挂载用户与用户组管理1、软件包管理2、磁盘管理3、高级硬盘管理RAID和LVM4、进阶：备份你的工作和系统5、用户与用户组基础6、管理、查看、切换用户7、/etc/...文件8、进程管理9、linux VI编辑器，awk，cut，grep，sed，find，unique等Shell编程1、 SHELL变量2、传递参数3、数组与运算符4、SHELL的各类命令5、SHELL流程控制6、SHELL函数7、SHELL输入/输出重定向8、SHELL文件包含服务器配置1、系统引导2、管理守护进程3、通过xinetd启动SSH服务4、配置inetd5、Tomcat安装与配置6、MySql安装与配置7、部署项目到Linux第六阶段：Hadoop生态系统Hadoop基础1、大数据概论2、 Google与Hadoop模块3、Hadoop生态系统4、Hadoop常用项目介绍5、Hadoop环境安装配置6、Hadoop安装模式7、Hadoop配置文件HDFS分布式文件系统1、认识HDFS及其HDFS架构2、Hadoop的RPC机制3、HDFS的HA机制4、HDFS的Federation机制5、 Hadoop文件系统的访问6、JavaAPI接口与维护HDFS7、HDFS权限管理8、hadoop伪分布式Hadoop文件I/O详解1、Hadoop文件的数据结构2、 HDFS数据完整性3、文件序列化4、Hadoop的Writable类型5、Hadoop支持的压缩格式6、Hadoop中编码器和解码器7、 gzip、LZO和Snappy比较8、HDFS使用shell+Java APIMapReduce工作原理1、MapReduce函数式编程概念2、 MapReduce框架结构3、MapReduce运行原理4、Shuffle阶段和Sort阶段5、任务的执行与作业调度器6、自定义Hadoop调度器7、异步编程模型8、YARN架构及其工作流程MapReduce编程1、WordCount案例分析2、输入格式与输出格式3、压缩格式与MapReduce优化4、辅助类与Streaming接口5、MapReduce二次排序6、MapReduce中的Join算法7、从MySQL读写数据8、Hadoop系统调优Hive数据仓库工具1、Hive工作原理、类型及特点2、Hive架构及其文件格式3、Hive操作及Hive复合类型4、Hive的JOIN详解5、Hive优化策略6、Hive内置操作符与函数7、Hive用户自定义函数接口8、Hive的权限控制Hive深入解读1 、安装部署Sqoop2、Sqoop数据迁移3、Sqoop使用案例4、深入了解数据库导入5、导出与事务6、导出与SequenceFile7、Azkaban执行工作流Sqoop与Oozie1 、安装部署Sqoop2、Sqoop数据迁移3、Sqoop使用案例4、深入了解数据库导入5、导出与事务6、导出与SequenceFile7、Azkaban执行工作流Zookeeper详解1、Zookeeper简介2、Zookeeper的下载和部署3、Zookeeper的配置与运行4、Zookeeper的本地模式实例5、Zookeeper的数据模型6、Zookeeper命令行操作范例7、storm在Zookeeper目录结构NoSQL、HBase1、HBase的特点2、HBase访问接口3、HBase存储结构与格式4、HBase设计5、关键算法和流程6、HBase安装7、HBase的SHELL操作8、HBase集群搭建第七阶段：Spark生态系统Spark1.什么是大数据处理框架的特点与应用场景 SQL原理和实践 Streaming原理和实践 SparkR入门的监控和调优Spark部署和运行准备开发环境编程接口体系结构通信协议4.导入Hadoop的JAR文件代码的实现6.打包、部署和运行7.打包成JAR文件Spark程序开发1、启动Spark Shell2、加载text文件3、RDD操作及其应用4、RDD缓存5、构建Eclipse开发环境6、构建IntelliJ IDEA开发环境7、创建SparkContext对象8、编写编译并提交应用程序Spark编程模型1、RDD特征与依赖2、集合（数组）创建RDD3、存储创建RDD4、RDD转换执行控制操作5、广播变量6、累加器作业执行解析1、Spark组件2、RDD视图与DAG图3、基于Standalone模式的Spark架构4、基于YARN模式的Spark架构5、作业事件流和调度分析6、构建应用程序运行时环境7、应用程序转换成DAGSpark SQL与DataFrame1、Spark SQL架构特性2、DataFrame和RDD的区别3、创建操作DataFrame4、RDD转化为DataFrame5、加载保存操作与Hive表6、Parquet文件JSON数据集7、分布式的SQL Engine8、性能调优数据类型深入Spark Streaming1、Spark Streaming工作原理2、DStream编程模型3、Input DStream4、DStream转换状态输出5、优化运行时间及内存使用6、文件输入源7、基于Receiver的输入源8、输出操作Spark MLlib与机器学习1、机器学习分类级算法2、Spark MLlib库3、MLlib数据类型4、MLlib的算法库与实例5、ML库主要概念6、算法库与实例GraphX与SparkR1、Spark GraphX架构2、GraphX编程与常用图算法3、GraphX应用场景4、SparkR的工作原理5、R语言与其他语言的通信6、SparkR的运行与应用7、R的DataFrame操作方法8、SparkR的DataFrameScala编程开发1、Scala语法基础2、idea工具安装3、maven工具配置4、条件结构、循环、高级for循环5、数组、映射、元组6、类、样例类、对象、伴生对象7、高阶函数与函数式编程Scala进阶1、柯里化、闭包2、模式匹配、偏函数3、类型参数4、协变与逆变5、隐式转换、隐式参数、隐式值6、Actor机制7、高级项目案例Python编程1、Python编程介绍2、Python的基本语法3、Python开发环境搭建4、Pyhton开发Spark应用程序第八阶段：Storm生态系统storm简介与基本知识1、storm的诞生诞生与成长2、storm的优势与应用3、storm基本知识概念和配置4、序列化与容错机制5、可靠性机制—保证消息处理6、storm开发环境与生产环境7、storm拓扑的并行度8、storm命令行客户端Storm拓扑与组件详解1、流分组和拓扑运行2、拓扑的常见模式3、本地模式与stormsub的对比4、使用非jvm语言操作storm5、hook、组件基本接口6、基本抽象类7、事务接口8、组件之间的相互关系spout详解与bolt详解1、spout获取数据的方式2、常用的spout3、学习编写spout类4、bolt概述5、可靠的与不可靠的bolt6、复合流与复合anchoring7、使用其他语言定义bolt8、学习编写bolt类storm安装与集群搭建1、storm集群安装步骤与准备2、本地模式storm配置命令3、配置hosts文件、安装jdk4、zookeeper集群的搭建5、部署节点6、storm集群的搭建7、zookeeper应用案例8、Hadoop高可用集群搭建Kafka1、Kafka介绍和安装2、整合Flume3、Kafka API4、Kafka底层实现原理5、Kafka的消息处理机制6、数据传输的事务定义7、Kafka的存储策略Flume1、Flume介绍和安装2、Flume Source讲解3、Flume Channel讲解4、Flume Sink讲解5、flume部署种类、流配置6、单一代理、多代理说明7、flume selector相关配置Redis1、Redis介绍和安装、配置2、Redis数据类型3、Redis键、字符串、哈希4、Redis列表与集合5、Redis事务和脚本6、Redis数据备份与恢复7、Redis的SHELL操作

261 评论（11） 12小时前发布

2013rabbit

1阶段：Java2阶段：JavaEE核心3阶段：Hadoop生态体系4阶段：大数据spark生态体系

214 评论（15） 12小时前发布

阿里数据工程师培训

10个回答 默认排序 默认排序 按时间排序

相关问答

工程师考试

向你推荐

热门问题

10个回答默认排序

默认排序

按时间排序