_马云阿里巴巴的故事_多少钱

小七 2019年10月25日 21:23 141 0

云计算数据中心_哪个_企业私有云计算

目前尚不清楚是否对数据科学家或有关数据科学的文章有更大的需求。当术语走向流行语的时候，情况也就这样了。有一个关于我们那天都在搜索的内容的热潮："响应"、"云"、"全频道"。当然，服务器云平台，对数据科学家的需求也不乏。几个月前，Glassdoor将其评为2016年的顶级职位，有1700多个职位空缺，平均工资11.6万美元。但是，在艰难地从数据科学博客文章到Quora对商学院文章的回应（其中一些文章相当有思想性）试图理解这一蓬勃发展的趋势之后，我只有更多的问题。每个人对它是什么或不是什么都有一个稍微不同的定义。几个小时后，我甚至不确定数据科学是否真的是一件事。我担心我自己的数据科学文章会成为另一篇。这正是这个世界所需要的，另一个营销人员对他们不完全理解的事情喋喋不休。什么是数据科学？它与统计有何不同？为什么会有这样的需求？我很快就会发现，答案不仅与编程能力有关，还与产品的丰富知识有关。怀疑的统计学家奈特·西尔弗似乎并不认为数据科学和统计学不同。在媒体网站FiveThirtyEight背后的知名数字分析专家，他在2008年美国总统大选中准确预测了50个州中49个州的选举结果，并在2012年以50比50完美地预测了选举结果，但他对这个词有点怀疑。"我认为数据科学家是对统计学家的一个性感的称呼，"西尔弗在2013年的联合统计会议上对统计学家说。"统计学是一门科学。数据科学家在某种程度上有点多余，人们不应该指责统计学家一词。"对于统计学家来说，整个数据科学趋势似乎有点自命不凡。不管你对数据科学的确切定义是什么，它听起来都和统计人员几十年来一直在做的工作非常相似。虽然有无数的论据表明，数据科学实际上是什么，但如果没有共识，很难反驳这种观点。太多的定义依赖于过去几代流行语来支撑数据科学的标题。为商业智能挖掘大数据。模棱两可的流行语，一个接一个。海龟一路向下。即使数据科学是与众不同的，我也不确定这些公司想要大量的数据科学家做什么。为什么这份工作这么火爆？企业是否只是在抄袭谷歌、Facebook和Netflix，渴望自己的业绩和估值？沮丧之余，我切换了浏览器标签，给一位CTO朋友发了一条短消息。"别让我开始研究数据科学家，"他几秒钟后就回击道。在过去的几个月里，他断断续续地面试应聘者，应聘他们在公司设立的一个数据科学职位。事实证明，自诩为数据科学家的人在这个角色上也有点模糊不清。每个申请者都有一套稍有不同的技能，对他们应该做什么有着更为不同的概念。"99%的申请者实际上不是数据科学家，"他告诉我他们不能满足我们的需要。"似乎即使是那些试图获得数据科学角色的人也不完全确定这意味着什么，以及它与统计学的不同之处。有答案的人为了寻找答案，我给Twitch的数据科学主管DrewHarry发邮件。去年秋天，我们聊了一篇关于抽搐是如何扩大的文章。如果有人能给我指出正确的方向，德鲁也能。"事实上，我有个同事对此有一些有趣的想法，"他回信说。几天后，在一个下雨的星期二早晨，我在离旧金山Twitch总部几个街区远的咖啡馆遇见了布拉德·舒米特奇。布拉德问道："那么告诉我你在数据科学和统计学方面的成就。"。然后他耐心地坐在后面，啜着热巧克力，专心地听着，而我已经喝了两杯咖啡，从R到数据管道管理再到算法。布拉德是富布赖特学者。十几年前，理财返利平台，他写了一篇重要的论文，详细介绍了一种称为凸优化的数学技术如何改进H.264视频编码。他在斯坦福大学获得了机器学习的博士学位，并在谷歌X公司工作了一年，这是谷歌公司的实验性研究部门，该部门是谷歌公司推出的自动驾驶汽车和谷歌眼镜等产品的实验研究部门。布拉德是一个有答案的人，我正在寻找答案，但像一个优秀的数据科学家一样，他从提问开始，建立一个基线。"这很有道理，淘客模板，"布拉德和蔼地说，在我说完我的漫谈之后我觉得这很棘手。这是一个很好的话题，因为如果这是一个你不必去想的事情，它就不会有意思了。"停顿了一会儿，他开始说："首先，我想说，我非常尊重统计学家。"他是个深思熟虑的人，不怕花一点时间来理清思路。"统计学是数据科学的重要组成部分。在Twitch，我们的数据科学团队汇集了三件事：统计、编程和产品知识。而且我们永远也不会雇佣那些统计能力不强的人。你可以成为一个伟大的程序员，但如果你不知道什么是贝耶斯法则，那么我们有一个工程部门，我可以为你指点。""有些人可能会说数据科学是应用统计，"布拉德说我们当然不是纯粹的统计学家。但我不一定需要做理论统计研究的人。"没有人在写费舍尔会写的论文，"他接着说，引用了被认为是现代统计学和实验设计之父的罗纳德·费舍尔更重要的是运用这些经验教训。"在Twitch这样的科技公司，很明显，应用这些知识需要对计算机科学有深入的了解。扩展到统计之外有人呼吁在统计界做更多的工作，扩大其边界，更多地关注数据收集、管理和呈现，更多地关注预测未来的结果，而不是仅仅推断关系。统计数据增长的方式有很多种。统计学家们需要更好地交流和采取行动，而不是仅仅把学到的东西交给别人，然后再回到他们的理论统计研究上来。例如，几十年前，定量分析师（定量分析师的统计学家）在没有窗户的房间里处理数据，并将结果传递给其他人（通常是金融交易员）采取行动。今天，大数据的未来，数据科学家们正在编写算法来接收实时数据、处理数字和进行交易，所有这些都是自动化的，都在几秒钟之内完成。统计学的起源是不可否认的。我明白为什么很多人，包括尊敬的内特·西尔弗，可能会把两者混为一谈。但是科学家们所做的数据工作的范围已经远远超过了统计学。"当我回顾大学的时候，我清楚地记得麻省理工学院的一些傲慢的家伙说，‘看，计算机科学学位就像是下个世纪的文科学位。布拉德回忆道。这是不可否认的。就在几周前，在我和安德鲁·陈（Andrew Chen）的聊天中，也出现了同样的概念。计算机科学正在给许多领域带来新的维度。营销+编码=增长黑客。也许，统计学+编码=数据科学。我做了一个心理笔记，想回到那些我一直忽视的课上。"这有点道理，"布拉德继续说我们可以谈很多想法，但归根结底，它是如何实现的呢？你在电脑里输入一些东西。而能够做到这一点的人只会更有效率。"动态产品时代20年前，我在哈兰初级计算机实验室的Macintosh IIsi上访问的页面大多是静态文档。但静态页面只能让你走到目前为止，很快更复杂的网站会对用户的输入做出响应。比如一个叫做Google的网站，它允许你输入文本，然后返回一个与文本相关的网页列表。但是很明显，Google不会为每一个可能的文本输入都有一个静态文档。相反，它对网页进行爬网，从一个网页到另一个网页，收集尽可能多的关于每个网页的数据。然后，当你在他们的搜索栏里输入"自行车零件"时，Google会以编程的方式浏览所有的数据，云服务器，并为你建立一个页面，其中链接的页面似乎与该术语最相关。当然，今天，我们只是假设有数据的网站和应用程序是动态的，不仅基于你输入的内容，还基于产品拥有的关于你的大量信息。我的Netflix主页将根据我过去的行为为我推荐电影。Spotify建立我的每周"发现"播放列表。当你打开Facebook时，无数的变量会影响到你创建一个更好的新闻源。Slate的高级技术作家Will Oremus在他对Facebook新闻提要背后算法的出色探索中解释了这一过程：每次你打开Facebook，世界上最具影响力、最具争议性、最容易被误解的算法之一就会迅速生效。它扫描并收集过去一周内你的每个朋友、你关注的每个人、你所属的每个小组以及你喜欢的每一个Facebook页面上发布的所有信息。对于普通的Facebook用户来说，这是1500多个帖子。如果你有几百个朋友，可能多达10000个。然后，根据一个严密的、不断变化的公式，Facebook的新闻提要算法将它们全部排序，按照它认为你发现每个帖子有价值的可能性的精确顺序排列。大多数用户只会看到前几百个。有人需要写一个算法来增强这些功能。Facebook可以把所有的历史数据交给一个非常有才华的统计学家。她将运用她丰富的知识和经验，潜入R领域，制作出一个优秀的模型来推断相对论

本文地址： /ziyuan/46399.html