分布式数据库_reaxys数据库_三重好礼

小七 2019年10月25日 21:23 141 0

Spark+AI峰会上Microsoft Azure客户的关键会议

在Databricks，我们非常高兴微软能成为第一届虚拟Spark+AI峰会的钻石赞助商。微软和azuredatabricks的客户将齐聚峰会。Azure数据公司副总裁罗汉库马尔（rohankumar）将于周四上午发表主题演讲。其他微软演讲者和azuredatabricks从业者也将在分组会议上介绍各种各样的主题。本周将首次举办虚拟Spark+AI峰会，这是数据团队——数据科学家、工程师和分析师——的首要活动，他们将从世界各地收听，分享最佳实践、发现新技术、建立网络并学习。我们很高兴有微软作为钻石赞助商，将微软和Azure Databricks的客户聚集在一起，进行一系列精彩的主题演讲和会议。 Azure数据公司副总裁罗汉·库马尔（Rohan Kumar）连续第三年作为主题演讲人，与来自星巴克（Starbucks）、瑞士信贷（Credit Suisse）、CVS、埃克森美孚（ExxonMobil）、火星（Mars）、苏黎世北美（Zurich North America）和心房健康（Atrium Health）在内的众多Azure Databricks客户的演讲者，将连续第三年作为。以下是一些最重要的会议议程：主旨星巴克如何实现其"企业数据使命"，实现数据和大规模建模，并提供世界级的客户体验星巴克在周三上午的主题演讲中，上午8:30–上午10:30（PDT）Vishwanath Subramanian，星巴克数据和分析工程总监星巴克确保我们所做的一切都是从人性的角度出发的——从我们对世界上最高质量咖啡的承诺，到我们与客户和社区的接触方式，以负责任的方式开展业务。确保这些世界级客户体验的一个关键方面是数据。这篇演讲重点介绍了星巴克的企业数据分析任务，该任务有助于在巨大规模上做出数据驱动的决策。这包括从处理petabyte规模的数据到受管理的流程、以业务速度部署平台以及在整个企业中启用ML。本次会议将详细介绍星巴克如何建立世界级的企业数据平台，以推动世界级的客户体验。主旨负责任的ML——为数据科学带来责任微软在周四上午的主题演讲中，上午9:00–10:30（PDT）Rohan Kumar，微软Azure数据公司副总裁Sarah Bird，人工智能研究与产品部，微软负责任的ML是目前人工智能领域讨论最多的领域。随着ML的重要性日益增加，对我们来说，更为重要的是，我们要运用合乎道德的人工智能实践，并确保我们创建的模型符合包容性和透明度的最高标准。加入Rohan Kumar，他谈到微软如何将尖端的研究成果带到客户手中，让他们对自己的模型更加负责，并对人工智能的使用负责任。对于人工智能社区来说，这是一个公开的邀请，可以合作并为塑造负责任的ML的未来做出贡献。主旨瑞士信贷如何利用开源数据和人工智能平台推动数字化转型、创新和增长瑞士信贷周四上午主题演讲，上午9:00–上午10:30（PDT）Anurag Sehgal，瑞士信贷全球市场部董事总经理尽管大数据和人工智能越来越受到欢迎，但大多数金融服务公司在数据类型、隐私和规模方面仍面临重大挑战。瑞士信贷正在克服这些障碍，通过在开放的、基于云的平台（包括Azure Databricks）上进行标准化，以提高运营速度和规模，并在整个组织内实现ML的民主化。现在，瑞士信贷正在引领潮流，成功地利用数据和分析技术推动数字化转型，更快地向市场交付新产品，并推动业务增长和运营效率。自动化联邦航空管理局（FAA）全系统信息管理（SWIM）数据接收和分析微软，Databricks和美国运输部星期三下午12:10（PDT）全系统信息管理（SWIM）计划是国家空域系统（NAS）范围内的信息系统，支持下一代航空运输系统（NextGen）的目标。SWIM促进了NextGen的数据共享需求，提供了NextGen的数字数据共享主干。SWIM云分发服务（SCDS）是联邦航空管理局（FAA）基于云的服务，通过Solace JMS消息向FAA批准的消费者提供公开可用的FAA SWIM内容。在这节课中，我们将展示我们在USDOT-BTS上所做的工作，这些工作涉及到公共游泳数据集所需基础设施、配置、接收和分析的自动化。Azure健康和个性化CVS客户体验CVS健康星期三下午2:30（PDT）CVS Health每天为超过8000万名客户和患者提供数百万份服务，以改善客户体验，让患者走上更好的健康之路。2018年，CVS Health在Microsoft Azure Databricks平台上开始了通过机器学习实现客户和患者体验个性化的旅程。本演示文稿将讨论Microsoft Azure Databricks环境如何在6个月内使用ApacheSpark在数十亿个交易中快速部署第一个机器学习模型。它还将讨论几个使用案例，说明这如何推动并为业务带来立竿见影的价值，包括测试和学习如何最好地为客户个性化内容。本次演讲还将介绍云计算和机器学习在动态医疗环境中不断发展的行业中的经验教训。使用Databricks和azureml生成离子化机器学习管道埃克森美孚公司星期三下午2:30（太平洋时间）现代机器学习应用程序的部署可能需要大量的时间、资源和经验来设计和实现，从而为小型机器学习项目带来开销。在本教程中，我们提供了一个可复制的框架，用于使用Databricks和Azure机器学习工作区快速启动数据科学项目，特别是为数据科学家提供了易于生产的应用程序部署。虽然本课程中展示的示例侧重于深度学习，但工作流也可以扩展到其他传统的机器学习应用程序。本教程将包括示例代码和模板、推荐的项目组织结构和工具，以及从我们在将机器学习管道部署到生产中以及在我们的组织内分发可重复框架的经验中分享的关键经验教训。从平台到生态系统的云和分析苏黎世北美，星期三下午3:05（PDT）苏黎世北美公司是世界上最大的保险解决方案和服务提供商之一，其客户代表了从农业到建筑等多个行业，在《财富》500强中占90%以上。数据科学是苏黎世业务的核心，拥有一支由70名数据科学家组成的团队，致力于从优化索赔处理流程到防范下一个风险，再到为客户改进数据和分析套件等各个方面的工作。在本演示文稿中，我们将讨论Zurich North America如何实施一个可扩展的自助式数据科学生态系统，围绕数据链构建，以优化和缩放数据科学项目生命周期中的活动，并将Azure data lake与分析工具集成，以简化机器学习和预测分析工作。使用Delta Lake和"Kyte"构建Petcare数据平台：我们的Spark ETL管道火星星期四，下午12:10（PDT）在Mars Petcare（一个名为Kinship Data&Analytics的部门）我们正在构建Petcare数据平台——一个基于云的数据湖解决方案。利用Microsoft Azure，我们面临着有关工具和设计的重要决策。我们选择了三角洲湖作为存储层来构建我们的平台，并为火星Petcare的科学界带来洞察力。我们利用Spark和Databricks构建了"Kyte"，这是一个定制的管道工具，极大地提高了我们从我们庞大而复杂的组织中获取、清理和处理新数据源的能力。在此基础上，我们开始使用Delta-Lake作为ETL配置，并构建了一个定制的UI来监控和调度Spark管道。了解更多关于我们为什么选择Spark重ETL设计和Delta Lake驱动平台，以及为什么我们承诺将Spark和Delta Lake作为我们平台的核心，以支持我们的使命：为宠物创造一个更美好的世界！利用apachespark进行大规模深度学习数据准备和推理微软星期四下午3:05（PDT）为了扩展深度学习培训，一种流行的方法是使用分布式深度学习框架跨多个gpu/cpu并行处理和计算。当输入训练数据元素独立时，分布式深度学习框架可以很好地工作，允许立即开始并行处理。然而，对于深度学习开发至关重要的预处理和特征化步骤可能涉及到复杂的业务逻辑，以及标准分布式框架无法有效处理的跨多个数据元素的计算。这些预处理和特征化步骤是Spark能够发光的地方，特别是随着3.0版本对二进制数据格式的支持，这些二进制数据格式在深度学习应用程序中很常见。本讲座的第一部分将介绍如何使用Pandas udf以及Spark对二进制数据的支持和Tensorflow的TFRecord格式来有效地加快深度学习的预处理和特征化步骤。对于第二部分，重点将是在实时评分方法不足以满足的情况下，使用深度学习模型在大数据量上高效地执行批评分的技术。即将推出的Spark 3.0新的熊猫UDF功能有助于深度学习推理

本文地址： /zhuji/2962.html