发票捕获是AI的一个不断增长的应用领域,大多数公司第一次购买的AI产品就是这个。这是因为发票捕获是一种易于集成的解决方案,具有显著的优势。
虽然数字化帮助实现了许多流程的自动化,但在数字化中使用的大多是基于规则的软件。发票捕获软件是不同的。发票捕获涉及了使用光学字符识别(OCR)读取发票文本以及使用机器学习理解其上下文。
我们回答了您所有发票捕获的相关问题:
什么是发票捕获?
发票捕获(也称为发票数据提取或发票OCR是从发票中提取结构化数据,以便可以自动处理发票。对于大多数公司来说,发票捕获是使用AI实现自动化的第一个后台流程。
如果数据存在重大不确定性,则会通知用户查看发票。如果数据提取成功,则数据将被转到记录保存和支付系统。
企业需要在任何错误代价较高的自动化过程中构建质量保证流程。发票捕获也不例外。为了确保不出现任何一笔支付错误,可疑的发票和要求付款超过一定限额的发票将需要人工审核。
发票捕获有什么好处?
发票捕获
- 减少人工工作量,帮助降低后台成本
- 让员工专注于高附加值的活动
- 减少发票处理错误
- 使周转时间更快,防止供应商和业务之间不必要的来回踢皮球,从而消耗宝贵的员工时间
- 保证可审核性:发票数据可以通过显示发票中提取数据位置的可见边框存储。如果公司发现数据提取有错误,这些文件可以用来了解错误的来源,而这些错误可以在之后的发票中更正。
- 提高合规性: 发票包含许多在以往手动捕获中没有捕获的数据字段。通过捕获发票上的所有数据,发票捕获软件使公司能够对发票数据进行合规性检查。
发票捕获和OCR之间的区别是什么?
在OCR捕获文本时,发票捕获解决方案捕获自动处理发票所需的键值对和表格。
捕获键值对
发票包含键值对,如公司名称、银行帐号等。发票捕获解决方案可以从文档中提取键值对。

捕获表格
大多数发票中包含所提供的服务或产品的明细列表。发票捕获解决方案可以识别这些明细列表并对其进行处理。

有哪些不同类型的发票捕获解决方案?
在自动化发票捕获应用领域,有3种类型的解决方案:
- 基于模板的解决方案: 终端用户将文档结构输入到软件中。在机器学习解决方案兴起之前,这些解决方案是非常普遍的。然而,它们不再被采用,因为
- 发票有许多不同的结构,这些结构往往随时间而变化。这种方案会导致错误发生。
- 使用模板创建了一个需要维护的代码库
- 将模板结构输入软件需要额外的工作量。理想情况下,自动化解决方案不应该为用户额外增加新的手动任务。
- 预先训练好的机器学习(ML)解决方案: 公司基于数百万张发票构建基于机器学习的自动化解决方案。但是,当这些解决方案面临以前从未遇到的发票类型时,它们可能会遇到问题。
- 持续训练的机器学习解决方案: 市场上最佳的解决方案。他们接受了数百万张发票的数据训练,开发人员与客户合作,以确保他们的解决方案不断接受新发票数据类型的训练。
哪种类型的公司提供发票捕获解决方案?
拥有应付账应用领域成熟技术的科技公司
这些公司是市场上第一批提供发票数据提取解决方案的公司。由于他们的解决方案是市场上的第一批解决方案,因此某些解决方案已经过时并且依赖于模板。
科技巨头
亚马逊AWS Textract是该领域的新产品,价格很有竞争优势,100页价格仅为 5美元(100万页以上/月)。亚马逊还开发了将Textract与其他服务(如地面实况)相结合的功能。例如,地面实况可以提供人工验证器来检查Textract 不能确保可靠处理的文档。这种服务组合可以使公司完全外包其文档处理工作。由于大多数发票捕获解决方案都支持API,因此此类组合服务也可以构建在其他公司的解决方案之上。
创业公司
初创企业利用机器学习构建灵活的解决方案。自过去10年内AI变得日益商业化以来,从半结构化数据中提取结构化数据的AI应用有所增加。非专业人士可能会认为,在亚马逊踏入该业务领域后,初创企业注定会失败。然而,与亚马逊相比,初创公司仍然具有主要优势:
Hypatos,这个领域的初创公司之一,推出了UiPath。您可能还记得,UiPath是第一家在 2016年推出免费版本RPA的公司。3年后,他们是市值最高的RPA 公司,截至 2019年4月该公司最新估值约为70亿欧元。
Hypatos 于2019年11月推出了名为”社区版”的免费工具版本 。虽然免费版处理的精度低于其付费产品-订阅版,但它仍然满足大多数应用场景。
Rossum.ai,该领域的另一家初创公司,下方解释了其产品的一些优势:
Welcome to the data capture club, @awscloud! If you
提供发票捕获解决方案公司的完整列表是什么?
* According to case studies
Company Number of employees on linkedin Area of focus Pricing Largest customers On prem solution Type of solution Amazon AWS Textract N/A Document data extraction $0.05 per page** Roche Possible with AWS Outposts*** Pre-trained ML Coupa 1000+ B2B spend management Template based Datamolino 11-50 Bookkeeping automation Not template based Docparser 1-5 Document data extraction $0.05 per document (up to 5 pages per document) SMEs N/A Template based Docucharm 1-5 Document data extraction N/A Continuously trained ML Hypatos 11-50 Document data extraction & advanced processing Community Edition is free PwC
Deloitte
EY
Schwarz GruppeAvailable Continuously trained ML Instabase 11-50 Document data extraction pdfdata.io 1-5 Document data extraction Template based Proactis 501-1000 B2B spend management Numerous Fortune 500 Available SapphireOne 1-5 ERP, CRM, DMS and Business Accounting Software Template based Tabula (open source) Not applicable Table extraction Template based Tipalti 100-500 B2B spend management Xtracta 11-50 Document data extraction Available
** Including key value pair+table extraction at a volume of 1M+ pages/month
*** Outposts was announced in AWS re:Invent 2018 but is not yet available. Post launch, services like RDS, ECS, EKS, SageMaker, EMR are announced to be the first services to be available如何选择发票捕获供应商?
选择提供的解决方案符合公司数据隐私政策的提供商。您公司的数据隐私政策可能阻止使用外部API(如Amazon AWS Textract)。大多数提供商提供内部解决方案,因此数据隐私政策不一定会成为您的公司使用发票捕获解决方案的阻碍。根据我们的调查, Hypatos似乎拥有在部署选择方面最灵活的解决方案。 它们提供本地化、私有和公共云部署选项。
查询误处理和手动数据提取率。然后运行概念验证(PoC)项目,查看公司收到的发票上的实际费率。
- 误处理是自动处理时出现数据提取错误的发票。这些难以识别,并且可能会中断操作。例如,错误地提取付款金额将会带来问题。尽量减少这一点应该是绝对的重点。
- 当自动数据提取系统处理结果的置信度有限时,手动数据提取 是有必要的。这可能是由于发票格式不同、图像质量差或供应商打印错误造成的。这一点对于最小化错误率也很重要,但在误处理和手动数据提取之间需要权衡。更多的手动数据提取相比于更多的误处理要可取。
我们还没有完成我们的基准测试,但Hypatos的基准测试表明,他们在低误处理率和低手动数据提取率方面处于行业领先地位。这是我们在这个领域看到的第一个定量基准测试,并将采用类似的方法来比较我们自己的基准测试。
利用PoC 来测量他们期望实现的自动化率。这取决于您希望从文档捕获的字段数。一组典型的10字段包括采购订单ID、供应商名称等条目,可以启用将数据输入ERP和付款等功能。采用最优方法的供应商通过几乎无错误地提取所有这些字段达到80%的STP。虽然会不时的出现一些错误,但手动检查大额的付款可以确保不会出现重大错误的付款单。
询问供应商提供的高级处理选项。提取是数据收集的第一步,在大多数情况下,需要先进行数据处理。例如,需要检查发票是否符合增值税要求(例如,没有增值税的国内发票需要解释为什么不包括增值税),如果不这样做,则可能导致公司根依据国家/地区法规处以巨额罚款。Hypatos提供了许多高级处理选项,但我们没有看到其他供应商提供这样的功能,因为他们只专注于数据提取。
询问解决方案提供商如何学习新发票。最好的解决方案都具有一个这样的界面,使您的团队帮助训练解决方案。当公司的员工选择发票中的键值对信息时,发票捕获解决方案会注意到,以便下次对类似发票的识别概率提升。
评估其手动数据输入解决方案的易用性。对于那些公司后台人员难以自动处理的发票,将会用到手动数据输入解决方案。
除此之外,最佳实践采购问题是有意义的。例如:
- 他们的解决方案被采用的范围如何?他们有财富500强客户吗?
- 客户对他们的解决方案和支持满意吗?询问已经在使用解决方案的公司里的熟人,这样更好。由于发票自动化不是改善公司营销或销售的解决方案,因此即使竞争对手也可以彼此分享他们对发票自动化解决方案的看法。
- 将解决方案集成到公司系统(例如ERP)有哪些选项?IT是否采用集成方法?
- 他们的总拥有成本(TCO)是多少? 不同的解决方案使用不同的定价单位(例如每页价格或每份文件的价格),这使得难以对供应商进行对比。但是,使用来自存储档案中的样本可以有助于估计成本。
如果您有更多问题,请随时与我们联系。当然,您也可以查看: