Python新工具用三行代码提取PDF表格数据

责任编辑NO。许安怡0216 2019-10-09 15:17:01浏览次数：27

机器之心报导

项目作者：vinayak mehta

参加：一鸣

从 PDF 表格中获取数据是一项苦楚的作业。不久前，一位开发者供给了一个名为 Camelot 的东西，运用三行代码就能从 PDF 文件中提取表格数据。

PDF 文件是一种十分常用的文件格局，一般用于正式的电子版文件。它能够很好的将不同的排版格局固定下来，构成版面明晰且漂亮的展现作用。可是，关于想要从 PDF 中提取信息的人们来说，PDF 是个噩梦，尤其是表格。

很多的学术报告、论文、剖析文章都运用 PDF 展现其间的表格数据，可是关于假如想要直接从表格中仿制数据则会十分费事。不久前，有一位开发者供给了一个可从文字 PDF 中提取表格信息的东西——Camelot，能够直接将大部分表格转换为 Pandas 的 Dataframe。

项目地址：https://github.com/camelot-dev/camelot

Camelot 是什么

据项目介绍称，Camelot 是一个 Python 东西，用于将 PDF 文件中的表格数据提取出来。

详细而言，用户能够像运用 Pandas 那样翻开 PDF 文件，然后运用这个东西提取表格数据，最终再指定输出的方式（如 csv 文件）。

代码示例

项目供给的 PDF 文件如图所示，假定用户需求提取这些文字之间的表格 2-1 中的信息。

PDF 文件。咱们需求提取表格 2-1。

运用 Camelot 提取表格数据的代码如下：

以下为输出的成果，关于兼并的单元格，Camelot 在抽取后做了空行处理，这是一个保险的办法。

装置办法

项目作者供给了三种装置办法。首要，你能够运用 Conda 进行装置，这是最简略的。

最盛行的装置办法是运用 pip 装置。

还能够从项目中克隆代码，并运用源码装置。

本文为机器之心编译，转载请联络本大众号取得授权。

------------------------------------------------

“如果发现本网站发布的资讯影响到您的版权，可以联系本站！同时欢迎来本站投稿！

10月17日—19日,第十八届珠海国际办公设备及耗材展览会在珠海国际会展中心盛大举行!格之格携全品类产品亮相展会,荣获“办公新品...

8月13日上午，在珠海市商务局、珠海市环保局等单位的指导下，格之格与天猫，联合珠海市打印设备及耗材行业协会、阿里巴巴公益、S...

6月13日，格之格与京东企业购在京签署合作备忘录。双方约定将在耗材标准制定、产品创新、服务升级，以及客户资源共享、营销和渠...