塔布拉 - 从PDF文件中提取表

2021-06-08 05:15:56

Tabula-Java是用于从PDF文件中提取表的库 - 它是Powers Tabula(Repo)的表提取引擎。您可以使用Tabula-Java作为命令行工具,以便以编程方式从PDF中提取表。

下载Tabula-Java' s jar的版本,其中包含所有依赖项,在我们的发布页面上工作,可在Mac,Windows和Linux上工作。

$ java -jar target / tabula-1.0.2-jar-with-wome-womeventencies.jar --helpusage:tabula [-a<区域>] [-c目录>] [-c&l lt; columns>] [ - f<格式>] [-g] [-i] [-1] [-1] [-o< -o jatfile>] [-p< pages>] [-s&lt ; password>] [-u] [-u] [-u] tabula帮助您从PDFS -A, - 区域<区域&gt中提取表。 -a / - 区域=页面的部分分析。示例: - area 269.875,12.75,790.5,561。接受顶部,左,底部,右即,y1,x1,y2,x2,其中所有值相对于左上角。如果所有值均为0-100(包含),并且在'%',输入将被视为页面的实际高度或宽度的百分比。示例: - area%0,0,100,50。要指定多个区域,应重复-a选项。默认为整个页面-b, - 批处理< directory>在提供的目录中转换所有.pdfs。 -c, - 列<列> X坐标的列边界。示例--columns 10.1,20.2,30.3。如果所有值均为0-100(包含),并且在'%',输入将被视为页面实际宽度的百分比。示例:--Columns%25,50,80.6 -F, - 格式<格式>输出格式:( CSV,TSV,JSON)。默认值:CSV -G, - 猜测猜测每页的页面部分分析。 -h, - 帮助打印此帮助文本。 -i, - 沉默抑制所有stderr输出。 -L,使用晶格模式提取提取的晶格力PDF(如果存在分离每个单元的测定线,则在Excel电子表格的PDF中, - - 无电子表格[弃用支持-T / - 流]不使用电子表格提取(如果没有分离每个细胞的测定线)-O, - 突出的力,则不会提取PDF)-O,输出>将输出写入< file>而不是stdout。默认值: - -p, - 页面<页面>逗号分隔的范围名单,或全部。示例: - - 页面1-3,5-7, - 页面3或 - 页面。默认为 - 页面1 -R, - 电子表格[支持支持-l / - 格子]强制PDF使用电子表格式提取来提取(如果有分离每个单元的规则线,则在PDF中Excel电子表格)-s, - 密码<密码>密码解密文档。默认为空-t, - 流强制PDF要使用流模式提取提取(如果没有分离每个单元的测顿线)-u,则 - 使用行返回使用嵌入行在单元格中返回。 (仅在电子表格模式中。)-v, - 版本打印版本和退出。

它还包括调试工具,运行java -cp ./target/tabula-1.0.2-jar-with-dependencies.jar technology.tabula.debug.debug -h for可用的选项。

您还可以将Tabula-Java与任何JVM语言集成。对于Java示例,请参阅测试文件夹。

JVM启动时间是Tabula命令的大量成本,所以如果您尝试从PDF中提取许多表,则您有一些选项可以加快速度:

将关于Tabula-Java的词传播给可能能够从使用它受益的人。

您还可以通过OpenCollectictive的一次性或每月捐赠,支持我们的持续工作禁忌-Java。 使用Tabula-Java的组织还可以向我们的官方网站和此自述文件提供致密的项目。 特别感谢以下用户和组织慷慨地支持Tabula捐赠和赠款: