云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

香港服务器_海康ddns域名注册_折扣

小七 141 0

apachespark提高了NBC环球公司视频分发的经济性

这是NBC Universal朋友的一篇客座博客文章,概述了他们的ApacheSpark用例。业务挑战NBC环球是世界上最大的媒体和娱乐公司之一,收入260亿美元。它运营着电视网络、有线电视频道、电影和电视制作公司以及世界各地的品牌主题公园。热门品牌包括NBC、环球影业、环球公园及度假村、Telemundo、E!好极了,还有微软全国广播公司。NBC环球有线电视节目和商业广告的数字视频媒体剪辑由其洛杉矶办事处制作并向亚太、欧洲、拉丁美洲和美国的有线电视频道播出。此外,观众越来越多地在线和按需消费NBC环球公司庞大的内容库。因此,NBC Universal的IT基础架构团队需要就如何最好地服务这些内容做出决策,这涉及到存储和带宽成本与消费者便利性之间的权衡。NBC Universal可以将所有内容保持在线可用并缓存在网络边缘,以最大限度地减少延迟。通过这种方式,所有内容都可以立即交付给NBC Universal所在国家的消费者。但这也是成本最高的选择。因此,企业面临的挑战是确定在本地将最受欢迎的内容存储在靠近其观众的位置,还是仅按需提供不太受欢迎的内容(这会导致更高的网络成本)还是完全使其离线,这两者之间的最佳组合。解决方案NBC环球公司(NBC Universal)转向Spark,为其国际内容分发分析所有内容元数据。与媒体剪辑相关联的元数据存储在Oracle数据库和广播自动化播放列表中。apachespark用于查询Oracle数据库,并将广播自动化播放列表中的元数据分发到多个大型内存弹性分布式数据集(rdd)。一个RDD存储Scala对象,其中包含媒体ID、时间代码、计划日期和时间、播放频道等。然后,它按周、月和年创建包含广播频率计数的多个RDD,并使用Spark的map/reduceByKey生成计数。生成的数据被大容量加载到HBase中,从Java/springweb应用程序查询这些数据。应用程序将查询的结果转换为图表,以汇总和每个频道为基础,按周、月和年显示媒体广播频率计数。然后,辅助过程从Oracle查询文件路径信息,并构建另一个RDD,其中包含该信息以及文件的写入日期。然后计算该RDD和先前的频率计数数据RDD的Spark联接,以生成一个新的RDD,该RDD包含基于按升序排序的文件期限的使用频率。此结果数据用于生成直方图,以帮助确定脱机机制是否处于最佳工作状态。NBC Universal在生产中与Mesos、HBase和HDFS一起运行apachespark,并使用Scala作为编程语言。投产于2014年第一季度,进展顺利。Spark提供了非常快的处理时间,利用了它的分布式内存方法,以及更好的IT员工生产力。在2014年Spark峰会上,我强调了Spark部署的两个方面:开发人员生产力:Spark和Scala的结合提供了一个"理想的编程环境"操作稳定性:集群管理的Mesos。不基于Spark的替代方法需要更复杂的数据处理管道和工作流程。例如,由于主内存的使用需要比单个服务器上可用的内存更多的内存,因此必须使用一个非常慢的过程来处理数据块,以及将中间结果写入HDFS,然后将数据块加载回主内存,并以类似于传统Hadoop map/reduce作业的方式处理它,通过apachespark网站上的各种示例,该作业的速度比Spark慢得多。实现的价值Spark提供了一种快速简便的方法来组装数据管道,并进行分析,从而决定哪些内容应该保持在线,哪些内容离线。此外,基础设施管理员还可以深入了解网络利用率。他们可以检测模式,帮助他们了解多系统运营商(MSO)网络中带宽的浪费情况。最初的结果是有希望的,这促使NBC扩大了它对机器学习的Spark的使用。要了解更多信息:https://www.youtube.com/watch?v=bhunR-Wb7KY&list=PL-X35FYLIRWIMKFJEG9CEFUDSIE1F7QLS&index=6免费试用Databricks。今天就开始吧