云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

免备案CDN_数据库导入导出_是什么

小七 141 0

我要感谢Amit Nagar、Sai Kishore Petla和Michael Roth的贡献,他们帮助我开发了算法并起草了博客文章。

商业文档是任何商业交易的基石。发票、收据、租赁协议、提单就是此类单据的一些例子。这些文档中包含的信息对于维护基础业务交易的神圣性和下游流程至关重要。直到最近,从这些文档中提取数据并将其输入业务系统还是一个手动过程。近年来,机器学习模型已经被开发出来,以自动的方式提取这些数据。对艰苦努力的快速解决办法。但是,没有免费的午餐!这样的模型需要大量的数据。必须为模型培训提供数千个带注释的文档。这对业务用户造成了瓶颈,因为他们需要等待很长时间才能积累足够的文档并为机器级培训做好准备。这一要求通常会阻碍自动化此手动流程的努力。

通常,业务文档由几个组件组成,例如页眉、页脚、段落、表格、键值对、数字等。大多数文档(如发票、提单、采购/寄售订单)都存储了关键信息以键值对的形式。IBSO数据科学小组开发了一种从各种业务文档中提取键值对的新方法。这种方法无需对成千上万的单据进行注释和培训。

提单单据上的键值对示例

要了解更多有关业务单据处理和信息提取过程的需要,请跟帖。希望到最后,我会让你相信所提出的方法。

注1:本博客文章中提单数字中描述的所有内容都是完全虚构的,是基于实际提单创建的,同时保持相同的字母数字文字格式

注2:本博客旨在说明一种可行的信息提取方法,但不是为了详细说明流程中的所有细节或问题,解决下面讨论的某些步骤总是需要图像处理方面的专业知识。

简介

毫无疑问,信息是全球所有企业的油。共享信息的常见方式是文档、图像、视频。无论您从事什么业务,都离不开业务流程中的物理文档。直到几年前,从图像中提取信息在工业过程自动化中还不多见。借助于能够比以往更快地处理数据的图像处理算法和硬件,企业大数据分析,我们越来越问自己是否能够从非结构化文档(如图像和PDF)中提取信息,购返利,并以结构化格式将提取的数据制成表格,以方便下游处理。

布局、内容,跨文档的信息结构差别很大,特别是当业务流程涉及多个业务伙伴时。大量的信息以非结构化的形式存在,如果使用得当,这些信息可以驱动公司从中受益的信息和数据驱动的决策。根据国际数据公司(IDC)的一项研究,到2025年,全球80%的数据将是非结构化的。大多数组织已经到了这一步。这就引出了一个问题:我们如何设计信息提取过程来有效地从公司将要接收的大量非结构化数据中过滤掉不需要的信息(噪声)?

当今企业如何提取信息?

为了从文件中提取信息,传统上,公司采用手工流程来审查和分析文件,识别相关字段,并在计算机系统中输入数据。虽然存在从半结构化的"真PDF"(例如电子发票)文档中提取信息的解决方案,但这些解决方案无法满足完全非结构化或"仅图像"文档类型的需要。

下面的几个示例说明了问题的严重性:

这家公司是一家全球性食品公司,从事采购、存储、销售和销售,在收获季节,物联网的应用实例,交易谷物每天会收到数千辆卡车。这些卡车从美国多个地区运送谷物和其他农产品,运往该公司的仓储工厂。卡车司机携带秤票、提货单、费率确认文件等。储存厂设施人员收集这些文件,交叉核对供应商信息和商定的费率,以便向司机付款。储存厂在一天内会收到数千份这样的文件。然后需要及时手动处理这些文件以进行支付。这是一项艰巨的任务。

另一个例子,一家制药公司采购生产药品的原料。交货后,卡车司机将材料交付给工厂人员,由工厂人员收集秤票、原产地证书、材料含水量、分析证书、可能随行程时间变化的化学成分等文件。文件中的信息需要立即进行处理,以决定是否接受交货。因此,必须及时处理生物燃料,这目前是一种手动过程。

另一个例子是石油和天然气公司定期购买生物燃料,与其他石油燃料混合。在此交易过程中,他们会收到一份产品转让文件(简称PTD),证明双方之间的燃料转让。PTD可能包括提单、发票、合同、计价器票、铁路清单等。这些文件必须经过环境保护局(EPA)的检查,并且需要准确地处理和获取。每天都有成千上万的这些文件被收集和处理。