轻量服务器_腾讯企业邮箱登录首页_高性能

小七 2019年10月25日 21:23 141 0

Clifford Chance的数据科学与Azure数据库

Mirko Bernardoni（Fiume有限公司）和Lulu Wan（Clifford Chance）的嘉宾博客介绍Clifford Chance总部位于伦敦，是律师事务所"魔法圈"的一员，是全球十大律师事务所之一，无论是律师人数还是收入。作为一家全球性的律师事务所，我们为欧洲、亚太、美洲、中东和非洲的本地和国际客户提供服务。我们的全球视野，加上我们的行业方法，让我们对客户的业务有了详细的了解，包括驱动因素和竞争格局。为了实现成为全球首选律师事务所的愿景，我们必须成为为客户创造最大价值的公司。这意味着提供更快、更简单、更高效和更健壮的服务。通过投资智能技术和应用我们广泛的法律专业知识，我们可以不断提高客户的价值和成果，使交付更加有效。数据科学在法律工作中的应用人工智能正以惊人的速度增长，现在正准备通过挖掘文件、审查和创建合同、发出危险信号和进行尽职调查来改变法律行业。我们是人工智能和其他先进技术工具的早期使用者，使我们能够为我们的客户提供更好的服务。为了确保我们为客户提供最佳价值，Clifford Chance创建了一个内部数据科学实验室，其组织方式类似于公司内部的一家初创公司。我们正在与Clifford Chance的创新实验室和最佳交付中心合作，并作为该中心的一部分，在这里我们提供帮助律师完成日常工作的倡议。将数据科学应用于律师工作面临着许多挑战。其中包括处理冗长的文档、使用特定的领域语言、分析数百万文档并对其进行分类、提取信息以及预测语句和子句。例如，如果我们认为我们的文档包含超过5000个单词，那么简单的文档分类可能会变成一个复杂的练习。数据科学实验室流程使数据科学实验室能够满负荷工作的过程可以概括为四个步骤：创意管理。每一个想法都有一个具体的工作流程，用于有效地管理所有的进度关卡和利益相关者的交互。这使我们专注于将想法嵌入到现有的业务流程或创建新产品上。数据处理。由数据科学实验室与其他团队合作获取数据，寻求必要的批准，并以这样一种方式进行转换：只有具有正确格式的适当许可的相关数据才能到达数据科学家手中。使用apachesparktm的Databricks——我们有一个基于我们的合同和法规过滤和混淆数据的内部实例——允许我们高效地将数据移动到Azure。多亏了统一的数据分析平台，整个数据团队——数据工程师和数据科学家——可以修复我们流程中的小错误。数据科学。如果没有数据库，我们进行研究的成本将是难以置信的高。这个团队的规模很小，但我们一直在寻找最新的学术研究成果。我们需要一个平台，使我们能够在不考虑所有基础设施方面的情况下高效地编写代码。Databricks为我们所有的数据科学家提供了一个统一的、协作的环境，同时也确保我们能够遵守组织规定的安全标准。运作。Databricks平台用于重新训练模型并运行ETL过程，该过程根据需要将数据转移到生产环境中。同样，在这种情况下，将数据工程和数据科学结合起来对我们来说是一个巨大的胜利。它减少了修复问题和错误的时间，并帮助我们更好地理解数据。数据科学实验室的工作流过程数据科学实验室工具包构建我们的工具箱的数据科学实验室要求如下：保持高标准的保密性尽快制造产品保持对车型和个性化的控制一个由四名成员组成的具有混合技能和角色的小团队这些需求促使我们自动化所有流程，并选择正确的开发平台。我们必须统一数据工程和数据科学，同时降低运行所需的成本和时间。我们使用各种第三方、Azure云、开源和内部构建工具来构建我们的数据堆栈：Spark本地安装，用于对我们的数据应用第一级治理（例如定义可以在云中复制的内容）Kafka和EventHub是我们在Azure中移动数据的传输协议Databricks统一的数据分析平台，用于任何ETL转换、迭代开发和测试我们的内置模型MLflow记录模型的元数据，选择最佳模型和超参数并部署模型Hyperopt用于模型调整和规模优化Azure Data Lake和Delta Lake用于存储我们的数据集，支持可跟踪性和模型存储数据科学实验室数据摄取和精化架构一个示例用例：文档分类在法律部门，重新编写文件既困难又耗时；它涉及分析大量合同、贷款或文件，并确定哪些文件需要更新。在这些情况下，能够自动标记文档可以大大加快许多法律流程，特别是当涉及数千或数百万个文档时。为了帮助自动化这个过程，我们决定建立一个模型。首先，我们转向了关于文档分类的学术研究，但是出乎意料的是，我们发现很少有人对长文档进行分类。有很多文本分类的例子，但通常研究人员使用短文档，如电影评论或Twitter帖子。我们很快意识到长文档分类是一个可以为学术研究做出贡献的研究领域。接下来，我们将开始在长文档分类这一基本上未知的领域中创建一个模型。为了建立我们的模型，我们使用了EDGAR数据集，这是一个来自美国证券交易委员会（SEC）的在线公共数据库。EDGAR是公司向SEC提交财务信息（如季度报表和审计文件）的主要系统。第一步是从文档中提取文档，找到与我们的用例大小相似的条目（超过5000个单词），并且只提取相关的文本。该过程需要多次迭代才能获得可用的标记数据集。我们从超过1500万个文件开始，只选择了28445个文件来创建我们的模型。一旦我们提取出所需的文档，我们就开始构建我们的模型，最终确定了一种新的方法：应用音频分割中的块嵌入。这涉及到将一个长文档分成块，并将它们映射到数字空间以实现块嵌入。关于这种方法的更多细节，您可以阅读我们发表的论文《长长度法律文件分类》。这是第一篇完全由法律事务所撰写的涉及计算机科学和数据科学的学术论文。我们最终为我们的模型确定了一个多层体系结构，它从超参数调整中受益匪浅。除了长短时记忆（LSTM）神经网络外，我们还使用了一种注意机制，使我们的模型能够在整个文档中为不同的部分分配不同的分数。在模型的整个体系结构中，我们使用了超参数调整，这是一种重要的工具，有助于提高模型性能，或减少模型训练时间。从优化中获益最多的超参数包括嵌入维数、隐藏层大小、批处理大小、学习速率和权重衰减。模型体系结构虽然我们能够将每个超参数的值缩小到一个有限的候选范围，但是组合的总数仍然很大。在这种情况下，实现对超参数空间的贪婪搜索是不现实的，但是在这里Hyperopt使工作变得更容易。我们所要做的就是构造目标函数并定义超参数搜索空间，然后Hyperopt开始工作，迅速缩小最佳参数。同时，我们使用MLflow存储了数百次训练过程中产生的所有结果，保证了训练数据不会丢失。使用BIL+2STM文件的嵌入图结论Clifford Chance数据科学实验室团队虽然只有一个小团队和有限的资源，但仍然能够交付最终用户应用程序和前沿学术研究。这在很大程度上是通过使用流程自动化和强大的工具（包括azurecloud、azuredatabricks、MLflow和Hyperopt）实现的。在上面的长文档分类用例中，对于长文档，我们的最终模型获得了大于0.98的F1分数。然而，这些结果是在使用Hyperopt进行显著调整后得出的，当我们的F1积分收敛到最佳参数时，它将提高0.005以上。我们的最终模型已经在多个项目中得到了很好的应用，在这些项目中我们要处理大量需要分类的文件。展望未来，我们计划进一步自动化我们的流程，以减少管理产品开发的工作量。我们将继续优化流程，增加警报和监控。我们计划在不久的将来发表更多的科学论文，为MLflow和Hyperopt开源项目做出贡献，这样我们就可以分享我们的具体用例了。免费试用Databricks。今天就开始吧

本文地址： /zhuji/2920.html