每个数据科学家都该读的五本无关技术的书,如

来源:http://www.roro2.com 作者:betway互联网 人气:161 发布时间:2019-12-27
摘要:原标题:每个数据科学家都该读的五本无关技术的书 原文地址:How to Learn Statistics for Data Science, The Self-StarterWay 摘要: 听说最近开学了?十本免费的机器学习和数据科学的电子书,送给

原标题:每个数据科学家都该读的五本无关技术的书

原文地址:How to Learn Statistics for Data Science, The Self-Starter Way

摘要: 听说最近开学了?十本免费的机器学习和数据科学的电子书,送给您了解一下!

作者简介:
林荟,美国杜邦公司商业数据科学家,美国爱荷华州立大学博士。《套路!机器学习:北美数据科学家的私房课》作者。2017年1月至今主持美国统计协会市场营销在线数据科学讲座。个人网站:。
责编:何永灿(heyc@csdn.net
本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请订阅《程序员》

图片 1

统计学:理解统计学、特别是贝叶斯概率对许多机器学习算法来说都是至关重要的。

听说,最近大家都开学了?不对,是学生们都已经开学了,开学第一件事是什么?发新书!发新书!发新书!好的,作为一个心地善良且热心服务程序员的小编,我决定给大家来一波免费的机器学习和数据科学书籍!

在回答这个问题之前,希望你先想想另外一个问题:为什么要成为数据科学家?当然,如果你是为了10万美元的年薪也无可厚非,但是我衷心希望你能将这个职业和自己的价值感挂钩。因为成为数据科学家的路途会很辛苦,但如果你将其看成是实现个人价值的一种方式,那么追寻目标才能带来长久的成就感,在这个过程中会感到快乐并且动力十足。

大数据文摘出品

你想快速且低廉的方式学习统计学?好消息...,你可以通过免费的在线资源掌握核心概念、概率、贝叶斯思想甚至统计机器学习,这儿有自学最好的资源。

这是一个收集这些免费书籍的清单,该清单以统计基础开始,随后是到机器学习基础,最后结合使用所有内容,经典和现代混合的标题,希望你在这里找到新的东西。

数据科学家技能包

要回答“如何成为……”这样的问题,首先当然需要知道想要成为的对象是个什么样子。图1是一个数据科学家的技能表。

图片 2

图1 数据科学家的技能

首先编程能力是数据科学家需要的基本技能。数据读取、整合、建模分析和可视化的整个环节都需要用到这些工具。在业界环境中,整个数据链大概分为5块

  • 云端数据存储系统。比如亚马逊的云服务AWS,大数据可以用分布式存储在S3中。AWS更像是一个生态系统,里面有数据库,也可以在上面运行一些代码,比如实时从社交网站上爬取数据储存在云端数据库中。最近亚马逊还在云端提供了一个类似于SQL客户端的工具,叫做Athena,方便你直接在AWS内写SQL代码从S3中读取数据。

  • 安全门。读写数据都需要经过这道安全门,这个部分主要是由公司的IT部门建立。安全门有3种限制访问权限的方式:

    • IP地址:只接受从特定IP地址的访问
    • 职能:比如只有头衔是数据科学家和数据工程师的人有权限
    • 用户名密码
      公司常常会同时使用上面3种方法,也就是有特定职能,从特定IP地址,通过用户名和密码访问。数据工程师会训练数据科学家穿越这重重安全门。这里对数据科学家的计算机要求并不高,只需要知道一些基本的Linux就可以,苦活累活都让工程师们包揽了。
  • SQL客户端。数据科学家需要通过SQL从数据库中读取相应数据。根据数据库的不同,使用SQL的类型和语法也略有不同,但大体上非常相似。掌握基本的数据库读取操作是非常必要的。

  • 数据分析。现在使用最广的数据分析语言是R和Python,熟练使用至少其中一门语言几乎成为数据科学家的标配。只会SAS行不?不行。当然,这些都只是工具,工具是解决问题的手段,而非目的。你必须要有一个能用来进行数据分析的工具,偏好因人而异,但选择工具的时候最好考虑工具的灵活和可扩展性。比如说,新的方法是不是能够用该工具实现?该工具是不是能够和其他工具结合实现新功能(可重复报告、交互可视化,将结果转化成数据科学产品App等)?该工具是不是容易整合到应用系统中大规模的使用(比如电商的推荐算法、搜索的广告优化、精准农业中的化肥量推荐等)?

  • 结果报告。这里会用到基于D3.js的交互可视化,Rmarkdown自动化报告以及Shiny应用。

图2是数据流程构架图。

图片 3

图2 数据流程构架

另外一个重要的技能是分析建模。这个模块可以进一步细分成下面几个:

  • 数据科学家应该具备基本的概率统计知识,能够熟练进行t检验,开方检验,拟合优度检验,方差分析。能够清楚地解释Spearman秩相关和Pearson相关之间的区别。熟悉抽样、概率分布、实验设计相关概念。

  • 了解贝叶斯统计(很快就能在白板上写下贝叶斯定理)。不是所有的应用数据科学领域都需要用到贝叶斯,即使你所处的行业用得很少,了解贝叶斯的基本概念也是很有必要的。使用“贝叶斯”这个词的方式有很多。但其主要代表了一种解释概率的特别方式。用流行的术语表达,贝叶斯推断不外乎计算在某假设下事情可能发生的方式的数目。事情发生方式多的假设成立的可能性更高。一旦我们定义了假设,贝叶斯推断强制施行一种通过已经观测到的信息进行纯逻辑的推理过程。频率法要求所有概率的定义都需要和可计数的事件以及它们在大样本中出现的频率联系起来。这使得频率学的不确定性依赖于想象的数据抽样的前提之上——如果我们多次重复测量,将会收集到一系列呈现某种模式的取值。这也意味着参数和模型不可能有概率分布,只有测量才有概率分布。这些测量的分布称为抽样分布。这些所谓的抽样只是假设,在很多情况下,这个假设很不合理。而贝叶斯方法将“随机性”视为信息的特质,这更符合我们感知的世界运转模式。所以,在很多应用场景中,贝叶斯也更加合适。

  • 机器学习相关技能。知道什么是有监督学习,什么是无监督学习。知道重要的聚类、判别和回归方法。知道基于罚函数的模型,关联法则分析。常用的黑箱模型:随机森林、自适性助推、神经网络模型。如果从事心理相关的应用的话(如消费者认知调查),还需要知道基本的潜变量模型,如探索性因子分析、验证性因子分析、结构方程模型。在应用过程中还需要加强对模型中误差的来源分类的理解,知道相应误差的应对方法。当前存在的机器模型太多,理解模型误差可以帮助你有效地通过尝试少量模型找到足够好的那个。

除了技术能力以外,还需要其他一些非技术的能力。这些包括将实际问题转化成数据问题的能力,这一过程需要交流,也就要求良好的交流沟通能力。关注细节,分析是一个需要细心和耐心的职业。还有就是展示结果的能力,如何让没有分析背景的客户理解模型的结果,并且最终在实践中应用模型的结论。

这个单子还可以一直列下去。看起来是不是不只一点吓人?其实这个技能单是动态的,你一开始不必具有上面列出的所有技能,但在工作过程中,需要不断的学习成长。一个优秀的数据科学家不是通过数据找到标准答案的人,而是那个接受和适应这个充满不确定性的世界,给出有用方案的人。一个成熟的数据科学家面对分析项目时会看到多种可能性和多种分析方法,给出结果后依旧时刻关注这个结果,不停地保持小幅度频繁更新。再次强调自学能力和成为一个终生学习者是优秀的数据科学家的必要条件。

编译:M、小七

顺便说下,你不用需要一个数学学位,但是,如果你有数学背景,你肯定会喜欢这种有趣的、动手的方法。

图片 4

如何获取相关技能

现在你对数据科学家需要具备的技能应该有个大致的概念了。接下来的问题是如何获取这些技能。这个问题的答案部分取决于你的专业背景。当前数据科学家的背景其实很杂,这里主要着眼于数学、统计、计算机或其它定量分析学科(电子工程、运筹学等)本科以上学历的情况。数学统计背景的学生,需要加强计算机方面能力的培养。而计算机背景的学生需要更多的了解统计理论。如果是其他定量分析学科,可能需要同时加强这两者。

其他专业的学生成为数据科学家有两种情况:

  1. 从事和自己专业相关行业公司的数据分析。比如在一些精准农业应用的公司,会常常看到数据科学家是生态学博士,或者土壤学博士。其实这些人不能算是广义上的数据科学家。因为他们处理的问题局限于非常特定的领域,对生态和土壤的了解的要求高于对数据分析的要求。
  2. 虽然是其他专业,但是本身有着很强的计算机技能,比如物理学专业的学生会成为数据科学家或者量化交易员,这因为他们通常具有很好的编程能力。

关于数据科学家的学位背景,根据2017年的统计数据,美国的数据科学家41%有博士学位,49%有硕士学位,只有10%是本科。研究生博士期间的课题最好偏向机器学习、数据挖掘或预测模型。其次需要的是数据库操作技能。在工作中通常需要用SQL从数据库读取数据。对于统计或者数学专业的学生,在校期间可能不需要使用SQL,因此不太熟悉。这没有关系,我也是工作以后才开始使用SQL的。但你要确保自己至少精通一种程序语言,之后遇到需要用到的新语言可以迅速学习。现在有大量的MOOC课程,以及一些在线的数据科学视频,都是提升自己的很好方法。

有的人问我怎么选择学习课程。通常情况下我会看讲课的老师,如果是想要彻底清晰地了解某种技术,那就去搜下写这个领域相关书籍的人,如果他们有开课,可以选这些课;或者那些在数据科学行业名字如雷贯耳的,比如吴恩达这样的。选这样的人讲的课,才能听得明白,因为这些人对相关的专业知识足够了解。

2010年,我在华盛顿大学的一节课上写了我的第一行R代码。当我意识到代码比电子表格更强大时,我立马就迷上了。在过去十年中,我目睹了“数据科学”一词的广泛使用,并看到了大数据、商业智能、数据分析和现在的人工智能等流行语的兴衰。

这个指导将使你有在数据科学领域必须的统计思维,它将让你比一些没有它的有抱负的数据科学家更有利。

1. 思考统计数据:程序员的概率和统计数据

常见误区

在数据科学的应用中有哪些常见误区?

  • 会用函数跑模型就可以了。

会开车的只是司机,要当汽车工程师,仅靠会开车是不行的。这点放在数据科学领域也是一样。不需要你背下模型背后的所有数学公式,但是至少需要学过一遍,让你可以翻着书解释模型机理。

  • 模型精确度越高越好。

在实际应用中需要同时考虑收益和成本。如果模型精确度是90%,但是提高到95%需要复杂得多的模型,因此需要大量的计算设备投入,同时带来的边际收益很小的话,满足于精确度小的模型就好了。模型选择和评估可能是数据分析流程中最难的环节。

  • 技术过硬就是尚方宝剑。

接受这个现实,人常常是不理性的,我们的行为和对周遭的态度受感情的影响。你永远看不到一只单纯的狗,你看到的是一只可爱或者不可爱的狗,我们总是会对所有的事情加上自己的主观判断。当然,你公司的同事,领导看待你的方式也受到主观的影响。很遗憾,这个主观的感受通常更多的来自于你作为人的部分,而不是机器的部分。你觉得自己技术好是一件事情,领导觉得你技术好是另一件事情,领导觉得你的技术是有用的那又是新的一件事情了。这点,美国中国貌似没差。所以“做技术”不等于“情商低点没关系”。

  • 技术不断更新,让人难以招架。不明觉厉,被泡沫裹挟着失去方向。

我理解,这种感觉很不好受。有的时候我感觉自己永远都是菜鸟,但现在我才明白,这才是当前世界的真实状况。不断升级将会是一种常态,这不仅仅是数据科学,你必须这么做,因为所有的东西都在升级,就像军备竞赛一样,升级已经成为事物本身的存在方式。无论你使用一样工具的时间有多长,升级后你又会变成一个菜鸟。所以做菜鸟是可以的,但是不明觉厉,随意跟风是不允许的。面对不懂的技术,要么就说不懂,要么就去学。其实你真正鼓起勇气,开始认真去学习这么技术的时候,会发现其实没有那么神秘。当然,马上又会有新的神秘的东西出现,这个过程又会重复。但你就是在这样循环反复中成长的,产品是这样,人也是这样。

在华盛顿大学开启我人生新阶段的这一课程是“金融计量学”,就像今天的深度学习课程一样,很大的教室也坐的满满当当。当时,金融危机在每个人心中仍然历历在目。对于工程师来说,这也是一种微妙的信息: 如果你想获得一份报酬丰厚的工作,那么就进入金融领域,成为一名金融计量分析师,就像今天的数据科学一样。

你知道的,自从你学习如何去编程,它总是会引诱你直接使用机器学习包,即使你知道又能怎么样呢?如果你想在开始的时候,通过在真正的项目里面去滚雪球的方式学会也是可以的。

Think Stats是面向Python程序员的概率和统计的介绍。Think Stats强调探索真实数据集和回答有趣问题的简单技术。该书使用美国国立卫生研究院的数据进行了案例研究及编程设计,本书的作者鼓励程序员使用真实数据集进行数据分析及编程,因为这样训练效果才能达到最好。

数据科学领域现状

我们从数据上看看数据科学的现状吧。从最大的职业社交网站领英(LinkedIn)的数据看来,数据科学家职位的年薪在7.5万~ 17万美元之间,中位数是11.3万美元。
其中雇佣数据科学家的公司主要集中在微软、IBM、Fackbook、亚马逊、Google这些计算机互联网公司,图3为前10名雇佣数据科学家最多的公司。

图片 5

图3 前10名雇佣数据科学家最多的公司

数据科学家所处的行业也集中在科技或者研究性组织,图4是排名前10的行业。

图片 6

图4 前10名数据科学家集中的行业

不同公司的数据科学团队架构不一样。主要有如下2种:

  • 独立式。独立的数据科学部门,会有一个数据科学总监这样的领导角色领导。这通常在研究所或者公司科研型的部门。对于数据科学家而言,在这样部门的优点是能够和很多其他数据科学家有技术上的交流,也有明确的职业轨道。缺点是,很难脱颖而出,需要和很多其他科学家竞争一些资源(比如培训会议的机会)。

  • 嵌入式。数据科学家各自嵌入到不同的职能部门中。常见的是市场部的数据科学家。领导者就是传统的市场总监。在这样的团队优势在于直接和公司高层接触,影响商业决策。因为独特很容易脱颖而出获取很多行业内培训和会议的机会,而且市场部是核心部门,如果你想在这个公司发展,这是很好的地方。缺点就是,无法和其他数据科学家交流,很多东西需要自己决策,周围人只能选择相信或者不相信你,但不能给出特别的帮助。久了会有在专业上落后的危险,所以需要充分利用在市场部的培训会议资源,积极参与数据科学家社区。最大的缺点是没有清晰的职业轨迹,因为在市场内部的分析团队不会太大。如果你的职业目标是最后管理一个大团队或者职能的话,这可能不能满足你的目标。但其职位本身从初级到高级的跨度可以很大。

数据科学家这个职位还比较新,所以从团队建设和职业轨迹上都还在发展,具有很好的前景。希望你能成为一个不断思考,终生学习的数据科学家!

附录:R代码

下面是文章中两幅图的R代码,感兴趣的读可以运行下面的代码:

dat<-read.delim("https://raw.githubusercontent.com/happyrabbit/DataScientistR/master/Data/DS.txt")

library(ggplot2)
library(dplyr)

# 前10的公司

df <- dat%>%
  select(Companies, ComCt)

colnames(df) <- c("Company", "Counts")
df$Company <- factor(df$Company, levels = df$Company)
ggplot(df, aes(x=Company, y = Counts, fill=Company))+
  geom_bar(stat="identity")+theme_minimal()  +
  coord_flip()+ theme(legend.position="none")

# 前10的行业

df <- dat%>%
  select(Industries, ComCt)

colnames(df) <- c("Industry", "Counts")
df$Industry <- factor(df$Industry, levels = df$Industry)
ggplot(df, aes(x=Industry, y = Counts, fill=Industry))+
  geom_bar(stat="identity")+theme_minimal()  +
  coord_flip() + theme(legend.position="none")

订阅程序员(含iOS、Android及印刷版)请访问
图片 7

订阅咨询:

  • 在线咨询(QQ):2251809102
  • 电话咨询:010-64351436
  • 更多消息,欢迎关注“程序员编辑部”

在业务运营中直接使用数学的概念很有趣,不仅仅是为了决策支持,更是为了做出实时决策。然而,金融危机也暴露了,即使是最复杂的模型来应对现实世界的混乱也有不足之处。

但是,如果这样的话,你将可能永远不会完全的去学习统计学和概率论,而作为一个数据科学家,这些是你的职业生涯中非常必要的部分,这就是为什么要学的原因。

2. 黑客的概率编程和贝叶斯方法

许多人认为,金融危机的核心是获得过诺贝尔奖的布莱克-舒尔斯模型(Black-Scholes)期权定价模型。这个模型在不了解其固有局限性和隐含假设的情况下,来衡量大型投资的风险。这种技术盲目性造成了灾难性经济损失的条件。

首要必须的: 基本的Python技能

为了完成这个教程,你需要最基本的Python编程技能,我们将通过应用、动手的方式学习统计学。如果你没有相关技能,可以通过我们的教程,如何通过自学的方式学习python, 这是快速学习Python最快的方式,我们推荐至少要完成到教程的第二步。注:可以是其他语言,但是示例都是Python.

本书介绍贝叶斯方法和概率编程,第一步是从计算/理解入手,第二步是讲其中运用到的数学观点。

如今,有抱负的数据科学家们都需要去学习一系列令人难以置信的建模技术。每种方法背后都有自己的一套理论,例如线性回归,你通过使用它就可以知道这些理论的实用性,不管你了解其背后的理论也好,不了解也罢。

在数据科学中,统计学的必要性

统计是一个广泛的领域,应用于许多行业。

它在维基百科的定义是:它是对数据的收集,分析,解释,呈现和组织的研究。所以,数据科学家需要了解统计学就不那么让人感到惊奇了。

例如,数据分析至少需要描述性统计和概率论。这些理论将帮助你更好的根据数据做一些商业决定。

关键概念包括概率分布,统计学意义,假设检验和回归。

而且,机器学习需要明白贝叶斯概率,贝叶斯概率是许多机器学习模块的引擎。

关键概念包括条件概率、先验概率、后验概率、最大似然估计,如果这些概念让你感到畏惧,不要着急,一旦你卷起袖子并开始学习,这一切都会明白。

贝叶斯方法是推理的自然方法,但在数学分析的章节背后作者为读者介绍了一些贝叶斯方法的有趣的故事。涉及概率论的贝叶斯推理的典型文本在本书的两到三章,接着就是贝叶斯推理。不幸的是,由于大多数贝叶斯模型的数学难以处理,读者只能看到简单的经过人工处理例子。这可以让用户对贝叶斯推理产生一些感觉,事实上,这些都是作者自己的先前意见。

这已经创造了一大批准备使用模型而不了解模型背后理论的新工人。年轻社区没有解决技术盲目性问题,而是参与有关工具的代理争论(R与Python!)。

学习数据科学中的数据统计最好的方式

到目前为止,你可能已经发现,“自学某个知识X”的共同方式是跳出课堂教学而直接通过动手的方式,掌握数据科学中统计学也不例外。

事实上,我们通过编程的方式来掌握统计学中的核心概念,这将非常有趣。

如果你没有正式的数学相关教育背景,那么你会发现,通过这种方式能够让你更加简单的理解复杂的公式。它将让你对每个计算的逻辑进行思考。

如果你有一些正式的相关的数学背景,这种方式可以将你的理论与实践将结合,且给你很多有趣的编程挑战。

以下是在数据科学领域学习统计学和概率论的三个步骤:

  1. 统计学核心概念

    描述性统计,分布,假设检验和回归。

  2. 贝叶斯概率理论

    条件概率、先验概率、后验概率、最大似然估计

  3. 介绍机器学习中的统计学

    学习基本的机器学习概念及如何在机器学习中使用统计学

在完成这三步以后,你将真正的接触和面对更加困难的机器学习问题和常见的数据科学应用。

3. 理解机器学习:从理论到算法

为了帮助解决这个问题(我也受到了影响),我这里提供了一份简短的阅读清单,这份清单可以为数据科学家们奠定理论基础。此外,这些书还将激发你思考在使用模型之前有关模型技术假设的问题。

第一步:统计学核心概念

为了知道如何去学校统计学,首先,了解它是如何被使用的是对学习很有帮助的。让我们先看一些真正分析的示例或作为一个数据科学家可能会用到的应用:

  1. 试验性设计:你们的公司开始一个新的产品线,但是是通过线下零售销售。你需要设计一个A/B测试以控制不同区域之间的差异。你也需要从统计角度去估算门店使用的一些有意义的结果。
  2. 回归模型:你们公司需要能够更好的预测在它的所有门店里,个人产品线的需求是什么样的。库存不足和库存过剩都会有很高代价的,你考虑建立一系列的正则回归模型。
  3. 数据转换:在你正在测试中,有多个机器学习模型供你使用,有些模型能够通过输入数据生成相应的数据分布,你需要能够识别他们,并适当的转换输入数据或者知道在什么假设下具有相关性。

一个数据科学家每天要做上百个的决定,范围小到一个模块的挑战,大到一个团队的R&D策略。

大多数决定需要有坚实的统计学和概率论的理论基础。

例如,数据科学家需要经常决定哪个数据是确定的,哪个数据是具有随机性的。此外,他们需要知道是否有进一步探索的兴趣点。

这些都是在在做分析决定时很核心的东西(如果仅仅知道如何计算数值,那就仅仅接触表面而已)。

这儿有我们发现的最好的自学统计学基础的资源:

图片 8

Think like a Bayesian...

Think Stats是一本极好的书籍(有免费的PDF版本),介绍所有核心概念。看这本书前提是什么呢?如果你知道如何编程,那么你可以在这过程中自己学习统计学,我们发现,这方式也很适合那些有数学背景的人。

机器学习是计算机科学发展最快的领域之一,具有广泛的应用前景。本教材的目的是以最基础的方式介绍机器学习及其提供的算法范例。本书提供了机器学习基础知识的理论解释以及将这些原理转化为实际算法的数学推导。在介绍了基础知识之后,本书还涵盖了以前教科书未解决的各种中心主题。其中包括讨论学习的计算复杂性以及凸性和稳定性的概念;重要的算法范例包括随机梯度下降,神经网络和结构化输出学习;还有一些新兴的理论概念,如PAC-Bayes方法和基于边界的压缩。

此列表并非详尽无遗,书籍主题也会从入门到深入研究。其对金融工程的影响是巨大的,因为相比比任何其他学科,金融工程更多的产生的是通用数据科学家。

第二步:贝叶斯概率理论

统计学的一个哲学辩论是频率论(Frequentists)和贝叶斯概率理论(Bayesians),当在数据科学中学习统计学时,贝叶斯理论就更加具有相关性。

简而言之,频率论近用于抽样模块。意味着,他们只会用于对已经收集的数据进行描述。

另一方面,贝叶斯理论不仅用于抽样模块,也会用于在收集之前不确定的数据。如果你想了解更多它们之间的区分,你可以看下这个帖子:For a non-expert, what's the difference between Bayesian and frequentist approaches?.

在贝叶斯理论中,在收集数据之前不确定的水平称之为“先验概率”,数据之后,就会更新为“后验概率”,对于一些机器学习模型,这是很核心的概念,掌握它们非常重要。

而且,这些概念在使用它们之后都会有意义。

这儿有我们发现的最好的自学贝叶斯理论的资源:

图片 9

Think like a Bayesian...

Think Bayes是一本极好的书籍(有免费的PDF版本),介绍所有贝叶斯理论相关的。它也是使用通过编程的方式去学习,这种方式有趣且简单,我们发现,这方式也很适合那些有数学背景的人。

4. 统计学的要素

图片 10

第三步:介绍机器学习中的统计学

如果你想数据科学中学习统计学,在你学完统计学核心概念和贝叶斯理论后,没有比在机器学习模块中使用统计分析更好的方式了。

机器学习领域和统计学联系非常紧密,统计学的机器学习是现在机器学习最主要的方式。

在这一步中,你将实施一些来自scratch的机器学习模块,这将帮助您解开对其潜在技术的真正了解。

在这一阶段,即使你一行一行的直接copy代码,也是可以的。

它将帮助你在巩固你学习的统计学习的知识的同时,打开机器学习的黑盒子。

选择了以下模型,因为它们说明了前面几个关键概念。

本书在一个共同的概念框架中阐述了这个领域的重要思想。虽然这种方法是统计学的,但其中重点的是概念而不是其所在领域。通过使用彩色图形给出了许多例子,它应该能够成为统计学家和任何对科学或工业数据挖掘感兴趣的人的宝贵资源。该书的覆盖范围很广,从监督学习到无监督学习。许多主题包括神经网络、支持向量机、分类树,这是所有此类数据中对该主题的第一次综合处理。

《不确定性》:这套书是Nassim Taleb的著作集,其中最著名的是《黑天鹅事件》,最好的是《反脆弱》。Taleb是风险、不确定性和定量问题方面最伟大的现代思想家。他也是一个推特大V,以炮轰那些他称为 “有知识却仍然是白痴”(简称IYI)的人而闻名。在背景方面,他原本是一位移民衍生品交易员,之后成为了数学哲学家。你要么爱他,要么恨他,因为他会在他的所有写作中不断挑战你的假设。如果他新写了任何东西,你都应该立即把它放在你的阅读清单上。

线性回归

首先我们有预测模型的范例...

  • Linear Regression from Scratch in Python

5. 统计学简介及其在R中的应用

图片 11

朴素贝叶斯分类器

再次,我们有工作很好的尴尬的简单模型...

  • Intuitive Introduction, Naive Bayes from Scratch in Python

本书介绍了统计学的方法。它针对的是高年级本科生,硕士生和博士生还有非数学科学的学生。该书还包含许多R语言的实例,并详细解释了如何在现实生活环境中实施各种方法,并且应该是实践数据科学家的宝贵资源。

《财富公式》:这是关于凯利标准早期在麻省理工诞生的故事。凯利标准据说产生于一次巨大的财务成功。您将了解信息理论之父(Claude Shannon)以及后来在Ed Thorpe所著的《击败庄家》中出名的记牌恶作剧的源头。Thorpe现在被认为是定量对冲基金的教父。最重要的是,这本书展示了一个好的模型如何永远不会被忽视,但是坏的模型可能会毁掉你。这个故事也是历史上计算机科学和数学第一次合作解决现实世界的问题——赌博。这个故事是数据科学产业诞生60年前的一个预示。

多臂赌博机

最后,我们有着著名的的“20行代码,打败任何A / B测试!”

  • Intuitive Introduction, Multi-Armed Bandits from Scratch in Python

如果你渴望学到更多,我们推荐以下资源。

图片 12

For your reference...

Introduction to Statistical Machine Learning是一本极好的电子书籍(有免费的PDF版本),里面的示例是使用R语言,这本书涵盖了更广泛的话题,当您在机器学习方面取得更多的进展时,这是一个有价值的工具。。

6. 数据科学的基础

图片 13

更多资源

  • How to Learn Math for Data Science, The Self-Starter Way
  • 6 Fun Machine Learning Projects for Beginners
  • Supercharge Your Data Science Career: 88 Free Resources

虽然计算机科学的传统领域仍然非常重要,但未来越来越多的研究人员都希望参与使用计算机来理解和从应用程序中出现的大量数据中提取可用信息,而不仅仅是如何使计算机变得更加功能广泛。考虑到这一点,作者写了这本书,以涵盖在未来40年可能有用的理论,正如对自动机理论,机器学习算法和相关主题的理解,我觉得这对于未来几十年的理论都有影响。

《混沌:开创新科学》:这本书包含了最新兴科学的详细历史。既有混沌理论的历史,也有关于该主题的评论。本书将让读者了解我们模拟现实世界的能力的局限性。由于非线性过程的性质,许多正在开发和已经使用的深度学习模型无法真正被理解。本书将帮助您理解这些局限性。此外,光是对Benoit Mandelbrot的生活和工作进行全面评价,就使这本书对于任何数据科学家来说都是必读的。James Gleick是一位出色的作家,还有许多其他优秀的书籍可以添加到你的阅读列表中。

7. 程序员数据挖掘指南:Numerati的古代艺术

图片 14

这个指南遵循手把手教学的思想。我希望你能主动的完成练习并运行我提供的Python代码,而不是被动地阅读本书。并且我希望你能够积极参与尝试和编程数据挖掘技术。这本书算得上一个入门的教科书,它作为一系列相互依赖的微弱的积累,直到你完成本书时,你可能已经完全理解数据挖掘技术了。

《暗池交易》:本书讲述了一个程序员改变了股市交易的故事。现在预测模型被部署在高频交易的世界中,其中决策以纳秒速度进行。本书介绍了这个隐蔽但强大的生态系统的诞生。关于这个故事的奇妙之处在于它阐明了当你知道一些代码时如何解决许多问题。它还表明创造真正的价值是做一些真正创新的事情,而不是依赖现有的假设。有时你必须有点疯狂才能解决一个难题。

8. 大规模数据集的挖掘

图片 15

本书基于斯坦福计算机科学课程CS246:挖掘海量数据集和CS345A:数据挖掘。这本书与课程保持同步,而且这本书的难度是在本科计算机科学水平设计的,不需要太多的技能或者积累。为了支持更深入的探索,大多数章节都补充了进一步的阅读参考。

《不会死的理论》:本书主要讲述贝叶斯公式和贝叶斯统计的历史以及它的竞争对手——频率统计。统计历史和用平实的语言评论关键技术主题使得本书变得至关重要。你将了解历史上一些最伟大的思想家,如Pierre Laplace和R.A. Fischer,以及他们的哲学在几个世纪以来如何塑造了世界的数据处理方法。

9. 深度学习

这五本书虽然不详尽,但将有助于为处理现实问题的数据科学家建立哲学基础。使其不再犯十年前那些金融计量学家们所犯的错误。寻求理解技术和模型的哲学,而不仅仅是机械地使用他们,我们的专业将变得无价。返回搜狐,查看更多

深度学习这本旨在帮助学生和从业者进入机器学习领域,特别是深度学习。该书的在线版本现已完成,并将在线免费提供。

责任编辑:

10. 机器学习渴望

人工智能,机器学习和深度学习正在改变众多行业。但是建立一个机器学习系统,你需要思考下面这些问题:

• 你能够收集更多的训练数据吗?

• 你应该使用端到端的深度学习吗?

• 你如何处理与你的测试集不匹配的训练集?

• 还有其他一些细节问题。

从历史上看,学习如何制定这些“战略”决策的唯一方法是在研究生课程或公司中进行多年的学习训练。

本文作者:

阅读原文

本文为云栖社区原创内容,未经允许不得转载。

本文由必威发布于betway互联网,转载请注明出处:每个数据科学家都该读的五本无关技术的书,如

关键词:

最火资讯