云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

亚马逊云_网站建设代码优化_0元

小七 141 0

RAuth0数据团队如何使用R和Python了解Auth0数据团队如何结合R和Python来利用数据工程和机器学习解决方案。

数据团队负责处理、报告和服务数据。该团队还与其他系统进行数据集成,创建机器学习和深度学习模型。在这篇文章中,我们打算分享我们最喜欢的工具,这些工具已经被证明可以处理成千上万的数据。在实际场景中缩放流程是新接触数据的人的热门话题。R还是Python?好。。。两者都有!R是一个GNU项目,被认为是一种统计数据语言,最初是在贝尔实验室于1996年左右开发的。Python由guidovanrossum于1991年开发,是一种关注代码可读性的通用语言。R和Python都可以通过包进行高度扩展。我们主要在数据处理和ML项目中使用R,而Python则用于集成和深度学习项目。RStudio的堆栈是R,Jupyter笔记本是python3。RStudio是一个开源的、庞大的IDE,能够浏览会话期间创建的数据和对象、绘图、调试代码等许多选项。它还提供了企业级解决方案。Jupyter也是一个开源的IDE,旨在接口Julia、Python和R。如今,Jupyter被广泛用于数据科学家共享他们的分析。最近谷歌创建了"Colab",一个能够在googledrive云上运行的Jupyter笔记本环境。那么R是否能够在生产上运行?对。我们每天、每小时、每几分钟都要运行几个重数据准备和预测模型。如何在生产环境中运行R和Python任务?我们使用Airflow作为orchestrator,一个由Airbnb创建的开源项目。Airflow是一个令人难以置信且强大的项目,它允许我们安排流程、分配优先级、规则、详细日志等。对于开发,我们仍然使用以下形式:Rscript my_awesome_script.R。flow是一个基于Python的任务调度器,它允许我们运行具有许多复杂依赖关系的链式进程,监视所有进程的当前状态,并在Slack出现任何错误时发出警报。这非常适合于运行导入作业,以便每天用新数据填充数据仓库。我们有数据仓库吗?是的,而且很大!它安装在Amazon Redshift上,如果优先考虑扩展,这是一个合适的选择。访问他们的网站了解更多信息。R通过rauth0包直接连接到Amazon Redshift,rauth0包使用Pablo Seibelt开发的redshiftTools包。一般情况下,数据是用redshiftTools从R上传到amazonredshift。这些数据可以是普通文件,也可以来自R会话期间创建的数据帧。我们使用Python来导入和导出非结构化数据,因为R目前没有可用的库来处理它。我们在R中尝试了JSON库,但是结果比在这个场景中使用Python要糟糕得多。例如,使用RJSONIO,数据集自动转换为R数据帧,几乎不需要控制转换的完成方式。这只对非常简单的JSON数据结构有用,而且在R中很难操作,与Python相比,后者更容易、更自然。"Auth0使用Python导入和导出非结构化数据。"在推特上留言我们如何使用R处理数据准备?我们有两个场景,数据工程的数据准备和机器学习/人工智能的数据准备。R最大的优势之一是tidyverse包,这是一组由许多忍者开发的包,其中一些人在RStudio公司工作。他们提供了一个通用的API和工作原理。我们将在下一节讨论一个例子。tidyverse,尤其是dplyr包,包含了一组函数,这些函数使探索性数据分析和数据准备变得相当舒适。对于处理数据准备和可视化的某些任务,我们使用funModeling包。它是我前段时间出版的一本开源书的种子:数据科学实录。它包含了一些我们遵循的与在生产上部署模型、处理缺失数据、处理异常值等相关的良好实践。"R最大的优势之一是tidyverse包,它是由许多忍者开发的一套软件包。"在推特上留言R是否缩放?dplyr的一个关键点是它可以在数据库上运行,这要归功于另一个具有非常相似名称的包:dbplyr。这样,我们编写R语法(dplyr),它被"自动"转换成SQL语法,然后在生产环境中运行。有些情况下,从R到SQL的转换不是自动进行的。对于这种情况,我们仍然可以在R中混合使用SQL语法。例如,遵循dplyr语法:航班%>%分组依据(月,日)%>%总结(延迟=平均值(深度延迟)产生:选择"month"、"day"、AVG("dep_delay")作为"delay"`来自`nycflights13::flights`按"月"、"日"分组`通过这种方式,dbplyr使使用RAM或外部数据库中的对象的R用户变得透明。没有多少人知道,但是许多关键的R是用C++编写的(具体地说,是RCPP包)。我们如何分享结果?主要是在舞台上。我们与Salesforce有一些集成。另外,我们有一些报告部署在shinn中。尤其是那些需要复杂的客户互动。shinn允许使用简单的R代码构建自定义报表,而不必学习Javascript、Python或其他前端和后端语言。通过使用"反应式"界面,用户可以输入参数,Shiny应用程序可以使用这些参数对任何报告进行反应和重新绘制。与Tableau、Domo、PowerBI等更具"拖放"功能的工具相比,闪亮应用程序的编程特性使它们几乎可以完成开发人员想象中的任何事情,而这在其他工具中可能更困难或不可能。对于特别报告(HTML),我们使用R markdown,它与to jupyter笔记本共享一些功能。它允许创建一个脚本,其中的分析以仪表板、PDF报告、基于web的报告和书籍结束!机器学习/AI我们同时使用R和Python。对于机器学习项目,我们主要使用R中的caret包,它提供了许多机器学习算法的高级接口,以及数据准备、模型评估和参数超调整等常见任务。为了深入学习,我们使用Python,特别是以TensorFlow为后端的Keras库。Keras是一个API,它只需要几行代码,其中许多是最复杂的神经网络。它可以通过在云上,像AWS这样的服务中训练他们来轻松地扩展。现在,我们也在用fastai库来解决NLP问题。总结!开放源代码语言正在引领数据通道。R和Python拥有强大的社区,并且有免费和一流的资源可供学习。在这里,我们想分享使用R执行数据工程任务的不太常见的方法,我们最喜欢的是什么和Python库,重点是共享结果,解释我们每天所做的一些实践。我们认为数据项目中最重要的阶段是数据分析和数据准备。选择正确的方法可以节省大量时间并使项目规模化。我们希望这篇文章能鼓励您尝试一些建议的技术,并震撼您的数据项目!关于Auth0Auth0为应用程序、设备和用户提供了一个验证、授权和安全访问的平台。安全性和应用程序团队依赖Auth0的简单性、可扩展性和专业知识,使身份对每个人都有效。Auth0每月维护超过45亿次登录交易,确保身份安全,从而使创新者能够进行创新,并使全球企业能够为其全球客户提供可靠、卓越的数字体验。更多信息,请访问https://auth0.com或在Twitter上关注@auth0。Auth0文档在几分钟内实现身份验证.灯箱{宽度:100%;高度:100%;位置:固定;顶部:0;左:0;背景:rgba(0,0,0,0.85);z-指数:9999999;线高:0;光标:指针;}.灯箱图像{光标:指针;余量:0自动;显示:块;}.灯箱图像{职位:亲属;顶部:50%;左:50%;-ms转换:translateX(-50%)translateY(-50%);-webkit转换:翻译(-50%,-50%);转换:平移(-50%,-50%);最大宽度:100%;最大高度:100%;}@媒体屏幕和(最小宽度:1200像素){.灯箱图像{最大宽度:1200px;}}@媒体屏幕和(最小高度:1200像素){.灯箱图像{最大高度:1200px;}}.灯箱跨度{显示:块;位置:固定;底部:13px;高度:1.5em;线路高度:1.4em;宽度:100%;文本对齐:居中;颜色:白色;文本阴影:-1px-1px 0#000,1px-1px 0#000,-1px 1px 0#000,1件1件0万件;字体系列:"fakt web","Helvetica Neue",Hevetica,sans serif;字号:18px;}.lightbox.videowrapper容器{职位:亲属;顶部:50%;左:50%;-ms转换:translateX(-50%)translateY(-50%);-webkit转换:翻译(-50%,-50%);转换:平移(-50%,-50%);最大宽度:900px;最大高度:100%;}.lightbox.videowrapper容器