中间件_足球网站建设_代金券

小七 2019年10月25日 21:23 141 0

欧洲Spark+AI峰会数据科学、开发人员和深度讨论指南

2012年10月，《哈佛商业评论》（Harvard Business Review）以一期专刊和一句吸引人的论调，将焦点放在了数据科学事业上：数据科学家：21世纪最性感的工作。去年10月，也就是5年前的10月，福布斯在Quora上重新做出了一个答案：为什么现在数据科学是一个如此热门的职业？最近的技术文献似乎表明，数据科学家是独一无二的，他们的专业知识跨越各个领域。由于这种独特的技能组合跨越了从软件工程到数据探索和交流，再到强大的数学和统计学知识，这个新职业的需求甚至在今天仍然供不应求。"数据科学家最基本、最普遍的技能是编写代码的能力，"DJ Patil和thomasdavenport写道。除此之外，我要补充的是，虽然他们可能是核心的开发人员，但他们实际上也是数据探索者和数据故事讲述者。今年10月，您可以与这些数据科学家和开发人员一起参加Spark+AI Summit Europe，并向他们学习，因为他们提供了如何将数据和人工智能结合起来的用例的见解，从而构建模型、传达数据故事和获取见解。在这篇博客中，我们重点介绍了他们在将数据和人工智能的巨大价值相结合的过程中所做的努力，这三个特定的轨道涵盖了上述文恩图所示领域的知识。让我们考虑一下从数据中提取特征来传达数据故事需要什么。SimilarWeb的Shlomi Babluki将在他的演讲《基于交互的特征提取：如何将用户的活动转化为有价值的特征》中介绍如何使用提取的矩阵和附加的数据集生成有价值的特征，以训练不同的回归和分类模型。如果你是一个数据故事讲述者，并且你沉迷于故事如何塑造和影响决策或改变观点，那么这篇来自坎特伯雷大学的Raazesh Sainudiin的主题演讲，驳斥了2016年美国总统大选中对美国政客和苏人解定义的仇恨团体的冷漠转发的无效假设，揭示了如何去做分析社交推特并构建几何模型，描绘邻里加入人口意识形态树的视觉总结。类似地，SparkCognition的Jerry Schirmer在他的主题演讲"使用ApacheSpark的纯文本中的时间序列异常检测"中，将分享如何识别公众情绪的变化，以及如何使用ApacheSpark识别非结构化时间序列纯文本数据（如新闻文章、推文和出版物）中的异常。数据科学项目成功的原因是什么？是否有任何可识别的模式或实践可遵循？BillChambers of Databricks将在他的演讲《成功的数据科学项目模式》（Patterns for Successful Data Science Project）中探讨这些问题。此外，如果您是一位新的数据科学家，并且希望避免学习陷阱，Databricks的Sean Owen将在他的演讲中提供一些智慧：新数据科学家面临的三个统计陷阱现在，如果你想知道推荐引擎背后隐藏着什么样的数据科学技术和算法，我们现在经常在像亚马逊、Netflix或Spotify等高流量网站上进行交互？Red Hat的RuiVieira将在他的演讲中揭开神秘面纱：在ApacheSpark上构建流式推荐引擎提取特征、进行情绪分析、开发数据科学项目和构建推荐引擎是数据科学家和开发人员面临的许多挑战。但另一个挑战是如何管理模型的生命周期：如何跟踪实验、训练、复制和部署模型。Databricks的maniparkhe将在他的演讲中深入探讨MLflow：完整机器学习生命周期的基础设施。对于许多欧洲数据科学家和开发人员来说，遵守GDPR是一项法律，尤其是在处理使用敏感或私有数据的数据模型时。在他们的深入讨论中，伟大的模型具有极大的隐私性：在GDPR下优化ML和AI，Sim Simeonov（Swoop）和Slater VIctoroff（Indico Data Solutions）将讨论如何解决隐私问题，同时保持创新。结构化流媒体在构建端到端数据管道方面引起了广泛的兴趣。两次深入的谈话会让你深入了解。第一篇来自如来Das（Databricks）：深入研究结构化流中的有状态流处理。第二个来自Sandy May（Elastacloud和可再生能源)：使用Azure数据库、结构化流媒体和深度学习管道，实时监控1000多个太阳能发电场。作为大数据应用程序的开发人员，您经常担心规模。在欧洲核子研究中心规模是标准。Luca Canali（CERN）将分享他的激情：RDBMS实践者的ApacheSpark：我如何学会停止忧虑并热爱扩展。类似地，Baruk Yavuz（Databricks）也将分享关于规模的信息：设计和构建具有结构化流媒体的下一代数据管道。如果您担心性能，并希望获得有关Apache Spark内部和Spark SQL优化的知识，我们建议您进行三次讨论：第一，编写Philipp Brunenberg（顾问）的可伸缩大数据应用程序；第二，Messrs Bogdan提供的评估Spark SQL引擎性能和正确性的框架Ghit和nicolaspogi（Databricks）；第三，加入Jacek Laskowski（顾问）的sparksql2.3。最后，查看两个针对大数据开发人员的培训课程，分别扩展您对apachespark编程和性能和调优的知识：apachespark™ 编程与APACHE SPARK™ 调整和最佳实践。下一步是什么你也可以阅读并从时间表中挑选会话。在下一个博客中，我们将分享我们从与研究和Spark生态系统以及用例和经验相关的会议中挑选的内容。如果您还没有注册，请使用这个代码JulesPicks并获得20%的折扣。阅读更多阅读：在Spark+AI欧洲峰会上，AI、机器学习和深度学习讲座指南免费试用Databricks。今天就开始吧

本文地址： /zhuji/3117.html