Python新工具用三行代码提取PDF表格数据

责任编辑NO。许安怡0216 2019-10-09 15:17:01浏览次数:27  

机器之心报导

项目作者:vinayak mehta

参加:一鸣

从 PDF 表格中获取数据是一项苦楚的作业。不久前,一位开发者供给了一个名为 Camelot 的东西,运用三行代码就能从 PDF 文件中提取表格数据。

PDF 文件是一种十分常用的文件格局,一般用于正式的电子版文件。它能够很好的将不同的排版格局固定下来,构成版面明晰且漂亮的展现作用。可是,关于想要从 PDF 中提取信息的人们来说,PDF 是个噩梦,尤其是表格。

很多的学术报告、论文、剖析文章都运用 PDF 展现其间的表格数据,可是关于假如想要直接从表格中仿制数据则会十分费事。不久前,有一位开发者供给了一个可从文字 PDF 中提取表格信息的东西——Camelot,能够直接将大部分表格转换为 Pandas 的 Dataframe。

项目地址:https://github.com/camelot-dev/camelot

Camelot 是什么

据项目介绍称,Camelot 是一个 Python 东西,用于将 PDF 文件中的表格数据提取出来。

详细而言,用户能够像运用 Pandas 那样翻开 PDF 文件,然后运用这个东西提取表格数据,最终再指定输出的方式(如 csv 文件)。

代码示例

项目供给的 PDF 文件如图所示,假定用户需求提取这些文字之间的表格 2-1 中的信息。

PDF 文件。咱们需求提取表格 2-1。

运用 Camelot 提取表格数据的代码如下:

以下为输出的成果,关于兼并的单元格,Camelot 在抽取后做了空行处理,这是一个保险的办法。

装置办法

项目作者供给了三种装置办法。首要,你能够运用 Conda 进行装置,这是最简略的。

最盛行的装置办法是运用 pip 装置。

还能够从项目中克隆代码,并运用源码装置。

本文为机器之心编译,转载请联络本大众号取得授权。

------------------------------------------------

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!

精彩阅读

阅读排行