这篇博文是SAP Intelligent RPA 2.0最佳实践系列的一部分。
简介
PDF(可移植文档格式)是许多个人和组织交流信息最常用的格式之一。它被广泛用于创建与业务相关的文档,因此在大多数流程自动化中发挥着重要作用。
使用PDF共享信息非常方便,但从文档中提取信息可能是一项繁忙而繁琐的任务。大多数智能RPA机器人程序都需要输入数据来执行流程,这些数据也可以通过文档提供。例如,从采购订单中提取数据并根据ERP(企业资源规划)系统中的数据执行操作。
为了解决这个问题,Intelligent RPA 2.0引入了PDF SDK,智能家居物联网,它允许您通过用户友好和方便的活动从文档中提取数据。它是云工作室的一部分,可以从机器可读/生成的PDF中提取文本。
PDF活动分为4个模块:
示例文档
以上申请表PDF将用于演示活动。
强制活动
打开PDF和关闭PDF以及发布资源活动是强制活动,物联网模块,并且应在PDF提取活动前后使用,如下图所示。
Open PDF activity接受PDF路径和密码输入参数,并提取将用于以下活动的数据。
Core activities
Core activities是以文本形式返回结果的简单活动,而不是以复杂形式返回结果格式。其中一个核心活动是Get Text,它返回PDF中的完整文本,hadoop大数据,如下图所示。
最有用的活动之一是Get Text,它允许用户在指定的搜索字符串之后提取文本。活动允许您使用numWords参数控制要提取的字数。在下图中,活动搜索字符串作业情况并检索指定搜索字符串后的值。
另一个有用的活动是使用正则表达式提取文本。它提供了使用正则表达式提取文本的选项。活动返回与正则表达式匹配的文本。
很少有其他核心活动可用于从PDF检索文本。
PDF中的总页数–它返回PDF文档中的总页数。获取页面尺寸–它返回PDF文档中页面的尺寸。Get Text Before–类似于Get Text After activity,企业应用开发,数据挖掘和大数据,但它检索搜索字符串之前的文本
结论
通过阅读此博客文章,您了解了新的PDF SDK及其功能。除此之外,您还了解了可用于从PDF文档中提取数据的核心活动的基本概况。
下面的博客文章我们将更详细地介绍如何使用过滤器或从表中提取数据。我们还将展示可以从大多数发票中提取公共字段的发票活动。
感谢阅读并随时发表评论和问题或反馈
交流知识:SAP社区|Q&a|博客