大数据新手入门的课程和书籍有什么推荐?


可以去大数据的公司上班或者培训就能更好的学习,首先你先了解大数据是什么,自己的方向是什么。整体了解数据分析师新人们被大数据,人工智能,21世纪是数据分析师的时代,立志成为一名数据分析师。数据分析到底是干什么的?数据分析都包含什么内容。在开始前期呢建议先看一下市面上讲数据分析内容的书籍,比如《大数据时代》《互联网 大数据》的一些基础的知识书籍,另外最好的是能找到外国人编写的因为讲得比较全面一点。但对于新人们还是有作用的,重点了解数据分析的流程,应用场景,以及书中提到的若干数据分析工具,5—6个小时,足够你对数据分析的了解与认识了。了解统计学的知识15—20个小时进入了解一下统计学知识,作为入门就足够,但你要知道,今后随着工作内容的深入,需要学习更多统计知识。要了解常用数理统计模型,重点放在学习模型的工作原理,输入内容和输出内容,至于具体的数学推导,学不会可暂放一边,需要用的时候再回来看。学习初级工具20个小时,对于非技术类数据分析人员,初级工具只推荐一个:EXCEL.。基础篇必须学习,也可以用其他EXCEL进阶书籍。也可以学习网上的各种公开课。本阶段重点要学习的是EXCEL中级功能使用(数据透视表,函数,各类图表适用场景及如何制作),如有余力可学习VBA提升PPT能力10个小时,作为数据分析人员,PPT制作能力是极其重要的一项能力。因此需要花一点时间来了解如何做重点突出,信息明确的PPT。以及如何把各类图表插入到PPT中而又便于更新数据,10个小时并不算多,但已经足够。你没有做过PPT的话,需要再增加多一点时间学习。了解数据库和编程语言10个小时这个阶段有两个目标:学习基础的数据库和编程知识以提升你将来的工作效率,以及测试一下你适合学习哪一种高级数据分析工具。对于前面,数据库建议学MySQL,编程语言建议学Python数据库学到联合查询就好了,性能优化,备份那些内容用不到,Python能多学就多学点反正对你也没有坏处。学习高级工具10个小时虽然EXCEL可以解决70%以上的问题,但剩下的30%还是需要高级工具来做,高级分析工具有两个选择:SPSS和
R。虽然R有各种各样的好处,但我给的建议是根据你的上一步中的学习感觉来定学哪一个工具,要是学编程语言学的很痛苦,就学SPSS,要是学的很快乐,就学R不管用哪一种工具,都要把你学统计学时候学会的重点模型跑一边,学会建立和小幅度优化模型即可。

我认为学习任何东西的最好方法就是实际使用它。幸运的是,我们有大量的大数据技术和分析工具,它们都是开源的,或者让您可以通过试用或者dev许可的进行免费学习。或者为了提供一个简单的答案,我会假设您想要使用的大数据工具是Hadoop技术堆栈。为了不提供过于简单的答案,您不会寻找已经建立的行业解决方案或SaaS提供商。一般来说,NoSQL数据库并不真正用于分析(但可能是源)。1想想你想解决的大数据问题传统上,大数据已被“3Vs”描述:体积,品种,速度。你想要捕捉什么样的指标?现在最常见的用例是涉及大量的日志数据。这是因为日志数据往往是非结构化的,可能来自多个来源,特别是对于热门网站,可能会很大(每天TB)。因此,具有执行分布式计算任务的框架对于解决这个问题至关重要。2下载并设置您的大数据解决方案最简单的方法就是使用预构建的虚拟机,这个虚拟机几乎可以让任何Hadoop提供者免费使用,然后在本地运行它。您也可以使用亚马逊网络服务等服务。大多数人通常会使用map-reduce框架和Hive来处理大量的数据。既然你只是想学习,你不需要兆字节,甚至千兆字节的数据,所以访问一个100个节点的集群并不是一个优先事项。尽管一旦开始进入多节点环境,肯定会遇到一些克服和理解的挑战。3解决你的大数据问题一旦你建立了你的环境,去编码!有大量的文档和教程可以参考和学习[2]。而且,只需在Google中输入问题,就可以获得大量资源。阅读这些工具并了解该技术如何应用于解决您的使用案例。考虑一下您希望在数据中捕获的各种指标。想想你需要写什么样的map-reduce程序来捕获你想要分析的数据。想想你如何利用像Hive或Pig这样的东西来完成大量的繁重数据处理工作。在单个节点环境中可能不会显而易见的东西,在分布式环境中会影响性能甚至出现问题。4分析与可视化:大数据和BI的性感一面既然您已经解决了您的大数据问题,并以可管理的格式存储了您的数据,那么您可以利用一些靓丽的报告来向你的老板炫耀。大多数利用Hadoop的企业架构仍然会有一个SQL数据库用于存储和报告Hadoop中的数据(您将很快意识到map-reduce的响应时间非常长,即使在小数据集上也是如此)。将数据从Hadoop加载到SQL数据库中对于现实世界来说是很好的做法,但为了学习大数据它不是必要的。有几个(免费的)报告工具可以直接连接到Hadoop/Hive,并且可以很好地用于学习目的。如果你想成为这个街区上的酷儿(并且在大公司中超级可雇用),我会选择Tableau(产品)。你也可以借助一些工具来获得一些预测建模和机器学习技能,并且可能开始称自己为数据科学家。

目前大数据的技术体系已经非常庞大了,初学者要根据自己的发展规划来制定学习规划,入门大数据的方式也要结合自己的知识基础。对于要进入IT互联网行业从事大数据开发岗位的同学来说,入门大数据可以先从编程语言开始,接着学习大数据平台知识,然后结合大数据平台来完成场景开发实践。在编程语言的选择上,可以重点考虑一下Java语言,相对于其他编程语言来说,目前Java岗位的人才需求量相对大一些。对于要从事算法岗的同学来说,入门大数据也可以分成三个阶段,第一个阶段是编程语言的学习,第二个阶段是学习算法基础,这个阶段需要学习一下统计学、机器学习相关知识,为后续奠定一个基础,第三个阶段是结合场景来开展算法实践,这个阶段也需要掌握大数据平台的相关知识。如果仅仅想通过学习大数据技术来提升自己的数据力,本身并没有从事大数据岗位的想法,那么入门大数据可以从学习Python语言开始,然后进一步学习基于Python语言来完成数据分析,这个过程同样要考虑到应用场景的问题,可以跟自己的专业方向相结合。从整个大数据的技术体系结构来看,大数据技术涉及到数据采集、整理、存储、分析、呈现、应用和安全等领域,这些领域都可以采用单独学习的方式,比如既可以从数据采集开始学起,也可以从数据分析开始学起,但是不论从哪个领域开始学起,一定要重视与场景相结合,不能脱离场景来学习大数据技术。最后,如果有学习大数据相关的问题,可以向我发起咨询。