分布式存储_mysql数据库怎么备份_9元

小七 2019年10月25日 21:23 141 0

如何利用替代数据大规模提取市场驱动因素

观看随需网络研讨会，使用Python进行替代数据分析，以演示本博客中讨论的解决方案，并/或下载以下笔记本电脑亲自尝试。库存分析-基于植物的肉类历史数据湖边小屋新闻来源GDELT的文本分析替代数据时间序列脚流量预测介绍为什么替代数据至关重要主要部分-解决方案+描述性笔记本建筑摄取替代数据源使用Python进行数据分析：TF-IDF重要术语探索命名实体识别为什么替代数据至关重要另类数据通过揭示有关消费者行为的有价值信息（如公用事业支付历史记录、交易信息），帮助银行机构、保险公司和资产管理公司做出更好的决策，并扩展到包括交易分析、信用风险和ESG风险在内的各种用例中。传统的数据源，如FICO分数或季度10Q报告，已经被挖掘和分析到不再提供竞争优势的程度。为了获得真正的竞争优势，金融服务机构（FSI）需要利用其他数据来更好地了解其客户、市场，还有商业。行业中使用的一些最常见的替代数据集包括新闻文章、网络/移动应用程序排气数据、社交媒体数据、信用卡/借记卡数据和卫星图像数据。根据道琼斯通讯社（Dow Jones newswire）完成的一项调查，66%的受访者认为另类数据对FSI的成功至关重要。然而，只有7%的人认为他们正在最大限度地利用替代数据。Transunion的报告证实，如果没有其他数据，90%的贷款申请人将不会受到打击（无法提供信用评分），这凸显了这些数据源的巨大价值。金融服务机构无法提取价值的两个主要原因是a）整合替代数据源（如交易）和传统数据源（如收益报告）的挑战；b）重复使用非结构化数据的实验。除此之外，历史数据集很大，经常更新，需要彻底清理才能解锁值。幸运的是，Databricks Unified Data Analytics Platform和Delta Lake（一个将ACID事务引入大数据工作负载的开源存储层）通过可扩展的数据分析平台和云中的AI帮助组织克服这些挑战。更具体地说，Databricks的Delta Lake autoloader将"设置并忽略"ETL的功能转换为可供分析的格式，从而提高了数据科学团队的生产力。此外，Databricks在Delta-Lake上的Apache SparkTM运行时由于优化了datalake解析器和简单的库（例如NLP包）管理，为解析和分析非结构化和半结构化源（如新闻和图像）提供了性能优势。在这篇博文中，我们探索了一种基于Databricks和Delta-Lake的体系结构，它结合了对非结构化文本和结构化时间序列英尺流量数据的分析，模拟了SafeGraph数据格式。具体的业务挑战是从这些替代数据源中提取见解，并发现一个合作伙伴、竞争对手和QSRs（快速服务餐厅）销售代理的网络，而QSRs是一家以植物为基础的肉类公司，Beyond meat。我们在与SafeGraph的联合网络研讨会上发布了这一内容，SafeGraph专门为感兴趣的点、几何图形和模式提供了精心策划的数据集。利用替代数据发现股票价格的关键驱动因素股票价格的最大变化发生在有关基础公司过去业绩或未来生存能力的新信息发布时。在这个例子中，我们研究了其他数据，即新闻文章和脚流量数据，看看积极的消息，如名人代言和植物肉等创新产品获得的新闻自由，是否能吸引顾客到快餐店，增加销售额，并最终推动它们的股价。为了开始从新闻文章中获取见解，我们将设置如下图所示的体系结构。我们使用三种数据源进行分析：文章来自一个名为GDELT project的开源在线数据库餐厅步行交通（使用SafeGraph模式模拟）来自雅虎财经的市场数据进行初步探索性分析在所附的笔记本中，我们的分析从一个图表开始，以检查一个简单的移动平均线（SMA）。如下图所示，由于Beyond Meat是一家年轻的公司，我们无法提取最简单的技术指标，这是我们从其他角度了解这家公司的主要驱动力，即新闻和脚流量数据。在外部云存储中，替代数据源通常以原始格式存在，因此一个好的第一步是将其摄取到Delta Lake中，Delta Lake是一种基于拼花的开放格式，对于云数据湖上可伸缩和可靠的分析来说是最佳选择。我们使用Delta Lake建立了三层数据存储，每一层的数据细化程度都在不断提高，从左侧的原始摄取数据（青铜）到中间层（银色）的解析和丰富数据，再到右侧的聚合和注释数据，以备商业智能（BI）和机器学习。增量摄取替代数据源分析替代数据的第一步是从所有必需的数据源建立摄取管道。在本例中，我们将向您展示如何摄取两个数据源：头版新闻文章：我们要拉一些与植物性肉类相关的新闻文章。我们将利用一个名为GDELT的开放数据库，它每天扫描50000个新闻媒体，每小时提供所有新闻标题和链接的快照。地理空间步行交通：我们将使用Safegraph的数据格式，为纽约地铁地区的Dunkin Donuts等受欢迎的餐厅导入（模拟）步行交通数据，Safegraph是一家专门提供精心策划的兴趣点和模式数据集的数据供应商。自动加载数据文件到三角洲湖许多替代数据源，如新闻或网络搜索数据，都是实时到达的。在我们的示例中，GDELT文章每15分钟刷新一次。其他数据源，例如事务数据，每天都会到达，但是对于数据科学团队来说，为了将新数据添加到他们的数据池中，必须跟踪最新的日期是很麻烦的。为了自动化从上述数据源摄取数据文件的过程，我们将利用Databricks Delta Lake的autoloader功能在这些文件到达时连续地提取这些文件。我们从原始文件中获取数据，并以Delta格式将其存储到暂存表中。这些表构成了数据平台的"青铜"层。自动摄取文件的代码如下所示。请注意，Spark stream writer有一个"触发器一次"选项：这对于避免始终在线的流式查询特别有用，相反，它允许编写器将其安排在每天的节奏上，以便"设置并忽略"摄取。另外，请注意，检查点为我们提供了内置的容错性和易用性，而且不需要任何成本；当我们在任何时候启动此查询时，它只会从源中获取新文件，并且我们可以在出现故障时安全地重新启动。新数据=spark.readStream.format（"云文件"）\.选项（"cloudFiles.format"，"csv/json/parquet/etc"）\.schema（架构）\.加载（）新的_data.writeStream\.trigger（一次=真）\.partitionBy（"日期"）\.格式（"delta"）\.option（"checkpointLocation"，"/tmp/checkpoint/gdelt_delta_checkpoint"）\。开始（）使用Python进行数据分析Python是世界上许多数据科学家所使用的一种通用语言。对于涉及文本清理和建模的任务，有数百个库和包，这使得它成为我们接下来的分析中的首选语言。我们首先读取青铜层并将其加载到一个包含文章文本、时间戳和GDELT源语言的丰富数据集中。这一丰富的格式将构成银层和这一提取的细节在所附的笔记本。一旦数据进入银层，我们可以通过三个步骤来清理和总结文本：从语料库中总结术语-使用TF-IDF在文章的语料库中发现重要和独特的术语从语料库中总结文章主题——使用分布式LDA的文章主题建模可以为我们提供以下信息：通过发现植物性肉类（如猪肉、鸡肉、牛肉）的流行形式，了解当前的TAM哪些竞争对手或QSR会成为主要话题？在文章中找到有趣的命名实体，了解实体对植物性肉制品和受影响公司的影响TF-IDF重要术语探索鉴于我们正在研究许多关于植物性肉类的文章，这些文章有一些共同点。术语频率反向文档频率（简称TF-IDF）为我们提供了在更广泛的文章语料库中规范化的重要术语。这种类型的分析很容易与apachespark一起分发，并在几秒钟内运行数千篇文章。下面是使用TF-IDF计算值的摘要，按降序排列。选择文本swremoved，linktext，tf\u idf从alt_data.plant_基_文章_gold其中（（较低的（linktext）如"%beyond%meat%"））按tf_idf desc订购限制5这里值得注意的是一些名字和股票信息。深入研究文章文本，我们发现拉娜·魏格南特（Lana Weidgenant）提出了一份请愿书，要求将一种新的植物性肉制品带到邓金的菜单上。另一个有趣的观察是股票代码TSX:QSR出现在这里。这是加拿大库存餐饮品牌国际（Canadian stock Restaurant Brands International）的股票代码，该公司在蒂姆霍顿（Tim Hortons）的门店销售的产品超出了肉类产品，原因是顾客未能采用。这个简单的学期总结可以让我们得到一个quic

本文地址： /zhuji/2974.html