云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

CDN_江苏省建设厅网站查询_新注册优惠

小七 141 0

如何解决那些真正困难的数据科学问题?一场比赛!

随着NCAA三月疯狂篮球锦标赛在接下来的两周内接近高潮,世界各地的数据科学家们将观察他们的预测算法是否在年度锦标赛的混乱中幸存下来。获胜者将获得SAP SE的吹嘘权和认可,这是其年度"ViztheMadness analytics"比赛的一部分。SAP已经举办了大约五年的体育相关分析比赛,最近又拓展到解决更大的结构性问题的主题,如市政水安全和电网弹性。SAP负责云分析产品营销的全球副总裁Nic Smith说:"我们喜欢跳入并解决有趣的、趋势性的话题,以破解算法并发现隐藏的见解。"它是社区分析的乐趣所在。"这也是一个越来越受欢迎的例子,许多公司在科学家需要帮助他们完成的数据严重短缺的情况下,完成往往极其复杂的大数据项目。随着大数据已经成为主流,数据科学家的薪水已经飙升至12万美元以上,假设甚至可以找到候选人。竞争是发掘顶尖人才的一种经济有效的方式,而且成本通常不高。没有人知道数据科学竞赛市场的规模,但运营这两大竞争平台的Kaggle Inc.和Topcoder Inc.总共拥有近150万会员。谷歌有限责任公司(googlellc)对Kaggle的业务有足够的考虑,去年以未披露的金额收购了它。在本周末,Kaggle有17个活动的比赛,最高公布奖金为10万美元。Drivenda Inc.专门从事应对社会挑战的竞赛,有6个,其中一个要求竞争对手预测坦桑尼亚偏远地区水泵的故障率。两家公司都拥有蓝筹股客户名单,风投支持的竞争对手CrowdanalytixInc。新视角数据科学竞赛也是一种寻找新观点的方法,这些观点不一定来自于精通某一特定学科的人。"世界银行创新实验室的项目官员特雷弗·门罗(Trevor Monroe)说:"无论你是谁,最优秀的人才都超越了你的组织墙。"。对于参加SAP竞赛的选手来说,奖励是一件T恤衫,并被授予SAP"数据天才"的称号,但在其他数据科学竞赛中,赌注要高得多,在线房地产上市服务公司Zillow Inc.为代码发布者提供了120万美元的奖金,这些人可以改进其旗舰的Zestimate房屋价值估算算法。在第一轮由Kaggle主办的比赛中,4400名参赛者提交了超过75000份参赛作品。目前,前100名选手已进入第二轮,获奖者将于明年选出。Zillow有自己的数据科学家团队,但有时它会征求大众的智慧,寻找不同的视角。考虑到洛杉矶地区房屋的一系列数据点——面积、卧室数量、到学校的距离等等——参赛者提出了截然不同的房屋价值评估方法。Zillow数据科学与工程组的高级经理安迪·马丁(Andy Martin)说:"我们发现,第三名的获奖者与其他获奖者完全不相关;这完全出乎我们的意料。"。他说,事实上,大多数入围者甚至都不是来自房地产行业。Topcoder首席执行官迈克·莫里斯对此并不感到惊讶。"我们几乎总是发现,赢得这些比赛的人与该行业无关。"。美国国土安全部(U.S.Department of Homeland Security)在数据科学家面前悬赏150万美元,这些科学家可以帮助改进其威胁预测算法。霍尼韦尔公司(Honeywell Inc.)向参赛者提供了2500美元的奖金,他们可以在飞行的不同阶段制造出最佳的飞机燃油效率模型。澳大利亚网球有限公司将支付5000美元的人谁能想出一个更好的方法,算法估计的方式,网球比赛将结束。科学配对专家们说,数据科学是一门非常适合竞争的学科。"众包分析服务公司CrowdAnalytix的首席执行官Divyabh Mishra说:"通常没有一个正确的答案,所以你可以比较各种方法。"但与软件开发不同,一个人通常可以交付解决方案。"许多数据科学家认为自己是孤独的狼,他们喜欢自己解决问题并学习新的学科。"米什拉说:"这些数学家喜欢同时研究多个问题。"对他们来说,有趣的是,这既是艺术又是科学。"金钱固然重要,但专家们一致认为,金钱并不是主要的激励因素。""竞争对手说他们来这里是因为他们喜欢竞争,"莫里斯说即使失败了,他们也会学到新的东西。"Topcoder的竞争对手Wladimir Leite同意。这位巴西计算机取证专家自2003年以来赢得了41场比赛,但都与计算机取证无关。"他说:"我学到了很多其他我都听不到的东西。"这些比赛是一个很好的方式,可以结识有着惊人技能的优秀人才,并保持我的编程技能。"竞争精神专家表示,这种竞争性的形式似乎能带来最具创造性的想法,并全面提升绩效水平。这就是为什么成功的平台都使用排行榜和计分机制,使参赛者能够与同龄人进行比较。"游戏化是体验的重要组成部分,"Driventa联合创始人格雷格·利普斯坦(Greg Lipstein)说。竞争的形式并不是每一个问题都适用。目标和变量应明确说明,清除数据并限制范围。如果解决问题的途径是明确的,那么竞争就不会起作用。最好的问题是那些受益于全新视角的问题。一个很好的例子是Driventa在2015年发起的挑战,试图将消费者评级网站Yelp上的评论与波士顿餐厅的健康违规行为联系起来。通过语言分析、星级评定和访问频率数据,参赛者编写预测模型,并与实际的历史违规记录进行比较。获胜的算法使该市能够在相同数量的检查员的情况下发现25%以上的违规行为。如果数据科学领域的技能短缺持续下去,而且需求没有放缓的迹象,那么竞争可能成为完成大数据项目的更具吸引力的替代方案。即使目标只是预测篮球比赛的结果。""我们的预测准确率一直在70%到80%之间,"SAP的史密斯说今年有这么多麻烦,我们并不感到惊讶。"图片:Flickr CC既然你来了…点击订阅我们的YouTube频道(见下文),显示您对我们使命的支持。我们的订户越多,YouTube就越会向你推荐相关的企业和新兴技术内容。谢谢!支持我们的使命:>>>>>立即订阅我们的YouTube频道。……我们还想告诉你我们的使命,以及你如何帮助我们完成它。SiliconANGLE Media Inc.的商业模式是基于内容的内在价值,而不是广告。与许多在线出版物不同的是,我们没有付费墙或横幅广告,因为我们想让我们的新闻保持开放,不受影响,也不需要追逐交通。那个新闻、报道和评论SiliconANGLE——以及现场报道,我们的硅谷工作室和cube环球巡演的视频团队提供的未经剪辑的视频需要大量的辛勤工作、时间和金钱。保持高质量需要赞助商的支持,他们与我们的无广告新闻内容的愿景一致。如果你喜欢这里的报道,视频采访和其他无广告内容,请花点时间看看我们的赞助商支持的视频内容样本,在推特上表达你的支持,然后继续回到SiliconANGLE。