云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

网站服务器_打印服务器错误_安全稳定

小七 141 0

云服务器购买_关于_云主机干什么用的

今天,我将介绍R for Auth0,物联网智库,我们的内部R包在使用R语言时可以使我们的工作流程更加流畅。在Auth0,我们不仅将R用于统计分析,而且还用于大多数ETL处理作业。Auth0的数据技术堆栈首先,我将介绍我们的技术堆栈,我们使用:用于ETL、分析和机器学习的RRStudio作为与R一起工作的接口Python作为外部api的导入/导出器Amazon Redshift作为我们的数据仓库Apache Airflow作为我们的作业调度系统除了Amazon Redshift,我们的stats后端都是开源软件。输入rauth0每天处理ETL过程时,我们注意到一些重复出现的模式,表加载、上移、缓慢变化的维度、ggplot主题化等等,这些都可以通过集中在一个地方来简化。所以我们有了这个软件包,它集中了我们在许多过程中重用的功能。我们将介绍一些rauth0最有趣的部分,希望它能为您的组织构建您自己的内部R包,或者只是个人使用。这个软件包是麻省理工学院授权的,因此您可以使用它来修改和使用代码,而不受明显的限制。精心策划我们与Auth0的设计团队成员Julian Leiss合作,为ggplot2设计出一些更好的默认值,希望能使我们的R生成的图表更好地呈现,并且更符合公司的风格。为此,我们为离散变量定义了这些选项板:库(ggplot2)图书馆(rauth0)基地图=ggplot(钻石,aes(净度,填充=切割))+几何条()+主题\u auth0()基本图+比例图填充auth0离散(palette='default')+ggtitle('默认调色板')基本图+比例图填充auth0离散(palete='sequential')+ggtitle('顺序调色板')基本图+缩放图填充auth0离散(palete='colour')+ggtitle('彩色调色板')对于连续变量:dsamp%分组依据(页面\u meta_twitter图片)%>%count()%>%排列(desc(n))knitr::kable(collect(twitter_image_count,n=10),format='markdown')#前10名网页图片nhttps://cdn.auth0.com/website/authenticate/meta-twitter.png10186https://cdn.auth0.com/blog/blog/home-twitter-card.png2465/模块/twittercard/1x-新建.png687https://cdn.auth0.com/blog/examples/auth0.png339https://cdn.auth0.com/website/assets/modules/twittercard/1x-new-383f8d95d1.png67https://cdn.auth0.com/website/assets/modules/opengraph/1x-new-69e09d5054.png61https://auth0.com/learn/wp-content/uploads/2016/01/1x-new.png59https://cdn.auth0.com/blog/series-c/auth0-logo.png36https://cdn.auth0.com/blog/angular/logo3.png23https://cdn.auth0.com/blog/jwtalgos/logo.png12这样做的好处在于,使用dbplyr,大数据的发展前景,我们还可以检查客户机运行的是哪个查询以使其正常工作:显示查询(twitter\u image\u count)####选择"page_meta_twitter_image",计数(*)为"n"##从prod.dim_page_元数据##其中(("page_meta_twitter_image"!='')和("scd结束日期"='9999-12-31'))##按"page_meta_twitter_image"分组##按"n"说明订购本着同样的数据操作精神,我们有与Redshift兼容的函数来运行任意查询和语句、创建视图、用数据或SQL查询替换表等等。使用这些可用的工具(尤其是"dbplyr")与R和Amazon Redshift一起工作是多么的轻松。金球法在这个库中,我们还有更新SCD type1和type2维的函数,我请您看看数据库中的函数dwh_update_SCD_type1,dwh_update_SCD_type1_和dwh_update_SCD_type2,产业大数据,它们相当复杂,但值得努力,因为它们解决了问题。它们可能有一些在我们当前的用例中没有考虑的边缘情况,并且会随着时间的推移而发展。这可以被认为是购买一个成熟的ETL工具的替代品,而不必使用图形界面来设计数据流,这有其优点和缺点。一个真实的clickstream数据示例例如,这是为clickstream数据构建sessions维度的实际生产代码,还有另一个流程生成staging表(stg_session_events每一个pageview/event都有一行,stg_sessions每个会话只有一行)。图书馆(rauth0)图书馆(tidyverse)图书馆(dbplyr)con=连接()所有事件=tbl(con,'events\umetrics')%>%筛选器(已接收>'2012-01-01')#仅使用页面视图、跟踪事件和识别呼叫filteredEvents=filter(所有事件,在%c中键入%c('track','page','identify'),sql("url_protocol(url)")%c('http','https'))dim_ref=tbl(con,'stg_sessions')map_ref=tbl(con,'stg_session_events')dim_page=tbl(con,in_schema('prod','dim_page'))dim_sessions=tbl(con,in_schema('prod','dim_session'))dwh_set_execution_插槽(con,3)onlyNew=选择(map_ref,id=event_id,session_key)%>%反连接(dim\u sessions,by='session\ukey')%>%计算()basePageviews=onlyNew%>%#只有维度中尚未包含的会话,重新计算代价高昂内部联接(filteredEvents,by=c('id'))%>%内部连接(dim\u page,by=c('url'='页面\u full\u url'))%>%#删除对同一url的连续访问/跟踪变异(prev_page=sql('lag(page_clean_url)over(按会话分区\u key order by received,id)')) %>%过滤器(上一页!=页面清理url)actionNum=basePageviews%>%分组依据(会话密钥)%>%理货()actionSequence=basePageviews%>%#获取序列号变异(url=sql('left(coalesce(page_clean_url,url),500)::varchar(500),seq=sql('row_number()over(按会话分区_keyorder by received,id)',revseq=sql('row_number()over(按会话分区_keyorder by received desc,id)')) %>%#为前五个和最后5个页面视图生成字符串过滤(序列%总结(firstfive=sql("listagg(path_firstfive,'->')组内(order by received)"),lastfive=sql("listagg(path_lastfive,'->')组内(order by received)")) %>%解组()%>%变异(firstfive=sql('firstfive::varchar(2520)',lastfive=sql('lastfive::varchar(2520)')) %>%内部连接(actionNum,by='session\ukey')%>%变异(动作序列=案例(n>10~concat(concat(前五个,大数据分析软件有哪些,'>[…]->',后五个),!不适用(lastfive)~concat(concat(firstfive,'->',lastfive)、,正确~前五名)) %>%内部连接(dim\u ref,如何用大数据,by='session\ukey')%>%选择(会话密钥、操作序列、会话id)%>%计算()从临时表(con,'prod.dim_会话,remote_name(actionSequence),keys=c('会话密钥')最后说明我们在ETL处理中使用了R和其他提到的技术,这对我们来说是非常有成效和顺利的,我们希望本文中的一些想法可以对您的数据仓库工作有所帮助。您可以访问并下载我们的内部库:https://github.com/auth0/rauth0Auth0文档在几分钟内实现身份验证.灯箱{宽度:100%;高度:100%;位置:固定;顶部:0;左:0;背景:rgba(0,0,0,0.85);z-指数:9999999;线高:0;光标:指针;}.灯箱图像{光标:指针;余量:0自动;显示:块;}.灯箱图像{职位:亲属;顶部:50%;左:50%;-ms转换:translateX(-50%)translateY(-50%);-webkit转换:翻译(-50%,-50%);转换:平移(-50%,-50%);最大宽度:100%;最大高度:100%;}@媒体屏幕和(最小宽度:1200像素){.灯箱图像{最大宽度:1200px;}}@媒体屏幕和(最小高度:1200像素){.灯箱图像{最大高度:1200px;}}.灯箱跨度{显示:块;位置:固定;底部:13px;高度:1.5em;线路高度:1.4em;宽度:100%;文本对齐:居中;颜色:白色;文本阴影:-1px-1px 0#000,1px-1px 0#000,-1px 1px 0#000,1件1件0万件;字体系列:"fakt web","Helvetica Neue",Hevetica,sans serif;字号:18px;}.lightbox.videowrapper容器{职位:亲属;顶部:50%;左:50%;-ms转换:translateX(-50%)transla