大数据工程师诞生时间

5个回答默认排序

默认排序

按时间排序

摄氏三十八度

已采纳

据统计，我国电子商务企业已达到1000多万家，其中大中型企业就有10万多家，初步估计，未来我国对电子商务人才的需求每年约80万人，而我国目前包括高校和各类培训机构每年输出的人才数量不到10万人。人才缺口巨大已成为制约我国电商行业发展的一大瓶颈。选择江西新华电脑学院云电商工程师专业，你将学习：电子商务概论与政策法规、Photoshop图像处理、电子商务物流管理、HTML5+CSS3、WEB和移动界面商业案例、Windows Server2003服务器操作系统、动态网页设计PHPMYSQL、网络数据库基础(SQLServer）、JavaScript、电子商务安全与网上支付、百度SEM、SEO优化与推广、网络营销及综合实践等。

大数据工程师诞生时间

303 评论（12） 1小时前发布

魅力人生

第一阶段，运营式系统阶段。在上世纪七八十年代，用户购物时产生的记录一条条输入数据库，当时都是由这些运营系统生成这些数据的。

第二阶段，由用户原创内容阶段。2002年的时候，开始有了博客，后来发展成微博，到后来出现的微信，这些让每个网民都成了自媒体，都可以自己随心所欲地向网络发布相关的信息，这个时候数据产生的速度要远远大于之前的仅仅由运营系统产生的数据。

第三阶段，感知式系统阶段。真正让大数据时代由量变到质变是因为数据产生的方式到了第三个阶段——感知式系统阶段。

感知式系统阶段也就是物联网的大规模普及，物联网的迅速发展让大数据时代最终到来。

大数据是互联网发展到一定阶段的必然产物：

由于互联网在资源整合方面的能力在不断增强，互联网本身必须通过数据来体现出自身的价值，所以从这个角度来看，大数据正在充当互联网价值的体现者。

随着更多的社会资源进行网络化和数据化改造，大数据所能承载的价值也必将不断提到提高，大数据的应用边界也会不断得到拓展，所以在未来的网络化时代，大数据自身不仅能够代表价值，大数据自身更是能够创造价值。

169 评论（14） 3小时前发布

王生饮啖茶

大数据工程师的主要工作是：分析历史、预测未来、优化选择。1、分析历史，找出过去事件的特征：大数据工程师一个很重要的工作，就是通过分析数据来找出过去事件的特征。找出过去事件的特征，最大的作用是可以帮助企业更好地认识消费者。通过分析用户以往的行为轨迹，就能够了解这个人，并预测他的行为。2、预测未来，预测未来可能发生的事情：通过引入关键因素，大数据工程师可以预测未来的消费趋势。3、优化选择，找出最优化的结果：根据不同企业的业务性质，大数据工程师可以通过数据分析来达到不同的目的。在工作岗位上，大数据工程师需要基于Hadoop，Spark等构建数据分析平台，进行设计、开发分布式计算业务。负责大数据平台(Hadoop，HBase，Spark等)集群环境的搭建，性能调优和日常维护。负责数据仓库设计，数据ETL的设计、开发和性能优化。参与构建大数据平台，依托大数据技术建设用户画像。扩展资料：大数据工程师可以从事对大量数据的采集、清洗、分析、治理、挖掘，并对这些数据加以利用、管理、维护和服务的相关技术工作。大数据工程师专业技术水平等级培训考试分初级、中级、高级三个级别。大数据工程师培养人群：有志于从事大数据采集、清洗、分析、治理、挖掘等技术研究，并加以利用、管理、维护和服务的工程技术人员。大数据工程师初、中、高三个级别考试均设《大数据理论基础》、《大数据技能实操》两个科目。参考资料：百度百科-大数据工程师

313 评论（8） 12小时前发布

激动的小胖

大数据技术发展史：大数据的前世今生

今天我们常说的大数据技术，其实起源于Google在2004年前后发表的三篇论文，也就是我们经常听到的“三驾马车”，分别是分布式文件系统GFS、大数据分布式计算框架MapReduce和NoSQL数据库系统BigTable。

你知道，搜索引擎主要就做两件事情，一个是网页抓取，一个是索引构建，而在这个过程中，有大量的数据需要存储和计算。这“三驾马车”其实就是用来解决这个问题的，你从介绍中也能看出来，一个文件系统、一个计算框架、一个数据库系统。

现在你听到分布式、大数据之类的词，肯定一点儿也不陌生。但你要知道，在2004年那会儿，整个互联网还处于懵懂时代，Google发布的论文实在是让业界为之一振，大家恍然大悟，原来还可以这么玩。

因为那个时间段，大多数公司的关注点其实还是聚焦在单机上，在思考如何提升单机的性能，寻找更贵更好的服务器。而Google的思路是部署一个大规模的服务器集群，通过分布式的方式将海量数据存储在这个集群上，然后利用集群上的所有机器进行数据计算。这样，Google其实不需要买很多很贵的服务器，它只要把这些普通的机器组织到一起，就非常厉害了。

当时的天才程序员，也是Lucene开源项目的创始人Doug Cutting正在开发开源搜索引擎Nutch，阅读了Google的论文后，他非常兴奋，紧接着就根据论文原理初步实现了类似GFS和MapReduce的功能。

两年后的2006年，Doug Cutting将这些大数据相关的功能从Nutch中分离了出来，然后启动了一个独立的项目专门开发维护大数据技术，这就是后来赫赫有名的Hadoop，主要包括Hadoop分布式文件系统HDFS和大数据计算引擎MapReduce。

当我们回顾软件开发的历史，包括我们自己开发的软件，你会发现，有的软件在开发出来以后无人问津或者寥寥数人使用，这样的软件其实在所有开发出来的软件中占大多数。而有的软件则可能会开创一个行业，每年创造数百亿美元的价值，创造百万计的就业岗位，这些软件曾经是Windows、Linux、Java，而现在这个名单要加上Hadoop的名字。

如果有时间，你可以简单浏览下Hadoop的代码，这个纯用Java编写的软件其实并没有什么高深的技术难点，使用的也都是一些最基础的编程技巧，也没有什么出奇之处，但是它却给社会带来巨大的影响，甚至带动一场深刻的科技革命，推动了人工智能的发展与进步。

我觉得，我们在做软件开发的时候，也可以多思考一下，我们所开发软件的价值点在哪里？真正需要使用软件实现价值的地方在哪里？你应该关注业务、理解业务，有价值导向，用自己的技术为公司创造真正的价值，进而实现自己的人生价值。而不是整天埋头在需求说明文档里，做一个没有思考的代码机器人。

Hadoop发布之后，Yahoo很快就用了起来。大概又过了一年到了2007年，百度和阿里巴巴也开始使用Hadoop进行大数据存储与计算。

2008年，Hadoop正式成为Apache的顶级项目，后来Doug Cutting本人也成为了Apache基金会的主席。自此，Hadoop作为软件开发领域的一颗明星冉冉升起。

同年，专门运营Hadoop的商业公司Cloudera成立，Hadoop得到进一步的商业支持。

这个时候，Yahoo的一些人觉得用MapReduce进行大数据编程太麻烦了，于是便开发了Pig。Pig是一种脚本语言，使用类SQL的语法，开发者可以用Pig脚本描述要对大数据集上进行的操作，Pig经过编译后会生成MapReduce程序，然后在Hadoop上运行。

编写Pig脚本虽然比直接MapReduce编程容易，但是依然需要学习新的脚本语法。于是Facebook又发布了Hive。Hive支持使用SQL语法来进行大数据计算，比如说你可以写个Select语句进行数据查询，然后Hive会把SQL语句转化成MapReduce的计算程序。

这样，熟悉数据库的数据分析师和工程师便可以无门槛地使用大数据进行数据分析和处理了。Hive出现后极大程度地降低了Hadoop的使用难度，迅速得到开发者和企业的追捧。据说，2011年的时候，Facebook大数据平台上运行的作业90%都来源于Hive。

随后，众多Hadoop周边产品开始出现，大数据生态体系逐渐形成，其中包括：专门将关系数据库中的数据导入导出到Hadoop平台的Sqoop；针对大规模日志进行分布式收集、聚合和传输的Flume；MapReduce工作流调度引擎Oozie等。

在Hadoop早期，MapReduce既是一个执行引擎，又是一个资源调度框架，服务器集群的资源调度管理由MapReduce自己完成。但是这样不利于资源复用，也使得MapReduce非常臃肿。于是一个新项目启动了，将MapReduce执行引擎和资源调度分离开来，这就是Yarn。2012年，Yarn成为一个独立的项目开始运营，随后被各类大数据产品支持，成为大数据平台上最主流的资源调度系统。

同样是在2012年，UC伯克利AMP实验室（Algorithms、Machine和People的缩写）开发的Spark开始崭露头角。当时AMP实验室的马铁博士发现使用MapReduce进行机器学习计算的时候性能非常差，因为机器学习算法通常需要进行很多次的迭代计算，而MapReduce每执行一次Map和Reduce计算都需要重新启动一次作业，带来大量的无谓消耗。还有一点就是MapReduce主要使用磁盘作为存储介质，而2012年的时候，内存已经突破容量和成本限制，成为数据运行过程中主要的存储介质。Spark一经推出，立即受到业界的追捧，并逐步替代MapReduce在企业应用中的地位。

一般说来，像MapReduce、Spark这类计算框架处理的业务场景都被称作批处理计算，因为它们通常针对以“天”为单位产生的数据进行一次计算，然后得到需要的结果，这中间计算需要花费的时间大概是几十分钟甚至更长的时间。因为计算的数据是非在线得到的实时数据，而是历史数据，所以这类计算也被称为大数据离线计算。

而在大数据领域，还有另外一类应用场景，它们需要对实时产生的大量数据进行即时计算，比如对于遍布城市的监控摄像头进行人脸识别和嫌犯追踪。这类计算称为大数据流计算，相应地，有Storm、Flink、Spark Streaming等流计算框架来满足此类大数据应用的场景。流式计算要处理的数据是实时在线产生的数据，所以这类计算也被称为大数据实时计算。

在典型的大数据的业务场景下，数据业务最通用的做法是，采用批处理的技术处理历史全量数据，采用流式计算处理实时新增数据。而像Flink这样的计算引擎，可以同时支持流式计算和批处理计算。

除了大数据批处理和流处理，NoSQL系统处理的主要也是大规模海量数据的存储与访问，所以也被归为大数据技术。 NoSQL曾经在2011年左右非常火爆，涌现出HBase、Cassandra等许多优秀的产品，其中HBase是从Hadoop中分离出来的、基于HDFS的NoSQL系统。

我们回顾软件发展的历史会发现，差不多类似功能的软件，它们出现的时间都非常接近，比如Linux和Windows都是在90年代初出现，Java开发中的各类MVC框架也基本都是同期出现，Android和iOS也是前脚后脚问世。2011年前后，各种NoSQL数据库也是层出不群，我也是在那个时候参与开发了阿里巴巴自己的NoSQL系统。

事物发展有自己的潮流和规律，当你身处潮流之中的时候，要紧紧抓住潮流的机会，想办法脱颖而出，即使没有成功，也会更加洞悉时代的脉搏，收获珍贵的知识和经验。而如果潮流已经退去，这个时候再去往这个方向上努力，只会收获迷茫与压抑，对时代、对自己都没有什么帮助。

但是时代的浪潮犹如海滩上的浪花，总是一浪接着一浪，只要你站在海边，身处这个行业之中，下一个浪潮很快又会到来。你需要敏感而又深刻地去观察，略去那些浮躁的泡沫，抓住真正潮流的机会，奋力一搏，不管成败，都不会遗憾。

正所谓在历史前进的逻辑中前进，在时代发展的潮流中发展。通俗的说，就是要在风口中飞翔。

上面我讲的这些基本上都可以归类为大数据引擎或者大数据框架。而大数据处理的主要应用场景包括数据分析、数据挖掘与机器学习。数据分析主要使用Hive、Spark SQL等SQL引擎完成；数据挖掘与机器学习则有专门的机器学习框架TensorFlow、Mahout以及MLlib等，内置了主要的机器学习和数据挖掘算法。

此外，大数据要存入分布式文件系统（HDFS），要有序调度MapReduce和Spark作业执行，并能把执行结果写入到各个应用系统的数据库中，还需要有一个大数据平台整合所有这些大数据组件和企业应用系统。

图中的所有这些框架、平台以及相关的算法共同构成了大数据的技术体系，我将会在专栏后面逐个分析，帮你能够对大数据技术原理和应用算法构建起完整的知识体系，进可以专职从事大数据开发，退可以在自己的应用开发中更好地和大数据集成，掌控自己的项目。

希望对您有所帮助！~

101 评论（15） 12小时前发布

曰月無塵

互联网时代的来临，简易的说是海量信息同极致数学计算融合的结果。除此以外是移动互联、物联网技术造成了大量的数据信息，互联网大数据建筑科学极致地解决了海量信息的搜集、储存、测算、剖析的难题。互联网时代打开人类社会运用数据价值的另一个时期。互联网大数据（BigData）又称之为大量材料，便是数据信息大、数据来源宽阔（系统日志、视频、声频），大到PB级别，目前的架构便是以便处理PB级别的数据信息；到目前为止，人们生产制造的全部印刷耗材的信息量也但是200PB；阿里巴巴、京东商城、苏宁易购基础都沉定了PB级别；等于一家BAT企业（百度搜索、阿里巴巴、腾迅）顶过去全部人们时期生产制造的包装印刷材料互联网大数据便是解决海量信息的，工作中便是储存,清理,查寻,导出来,必须SQL句子和编程工具脚本制作适用互联网大数据一般用于描述一个企业造就的很多非结构型和半非结构化数据，这种数据信息在免费下载到关联型数据库查询用以剖析时候花销过多时间和钱财。数据分析常和云计算技术联络到一起，由于即时的大中型数据剖析必须像MapReduce一样的架构来向数十、百余或乃至千余的电脑上分派工作中。依据《大数据时代》中常说，互联网大数据并不是一个准确的定义，大量的是一种将会的方法。“互联网大数据是大家在规模性数据信息的基本上能够保证的事儿，而这种事儿在小规模纳税人数据信息的基本上是没法进行的。互联网大数据是大家得到新的认知能力、造就新的使用价值的原动力，互联网大数据还为更改销售市场“互联网大数据即一种新式的工作能力：以一种史无前例的方法，根据对海量信息开展剖析，得到有极大使用价值的商品和服务项目，或刻骨铭心的洞悉。

335 评论（12） 12小时前发布

大数据工程师诞生时间

5个回答 默认排序 默认排序 按时间排序

相关问答

工程师考试

向你推荐

热门问题

5个回答默认排序

默认排序

按时间排序