塔布拉 - 从PDF文件中提取表

2021-06-08 05:15:56

Tabula-Java是用于从PDF文件中提取表的库 - 它是Powers Tabula（Repo）的表提取引擎。您可以使用Tabula-Java作为命令行工具，以便以编程方式从PDF中提取表。

下载Tabula-Java＆＃39; s jar的版本，其中包含所有依赖项，在我们的发布页面上工作，可在Mac，Windows和Linux上工作。

$ java -jar target / tabula-1.0.2-jar-with-wome-womeventencies.jar --helpusage：tabula [-a＆lt;区域＆gt;] [-c目录＆gt;] [-c＆l lt; columns＆gt;] [ - f＆lt;格式＆gt;] [-g] [-i] [-1] [-1] [-o＆lt; -o jatfile＆gt;] [-p＆lt; pages＆gt;] [-s＆lt ; password＆gt;] [-u] [-u] [-u] tabula帮助您从PDFS -A， - 区域＆lt;区域＆gt中提取表。 -a / - 区域=页面的部分分析。示例： - area 269.875,12.75,790.5,561。接受顶部，左，底部，右即，y1，x1，y2，x2，其中所有值相对于左上角。如果所有值均为0-100（包含），并且在＆＃39;％＆＃39;，输入将被视为页面的实际高度或宽度的百分比。示例： - area％0,0,100,50。要指定多个区域，应重复-a选项。默认为整个页面-b， - 批处理＆lt; directory＆gt;在提供的目录中转换所有.pdfs。 -c， - 列＆lt;列＆gt; X坐标的列边界。示例--columns 10.1,20.2,30.3。如果所有值均为0-100（包含），并且在＆＃39;％＆＃39;，输入将被视为页面实际宽度的百分比。示例：--Columns％25,50,80.6 -F， - 格式＆lt;格式＆gt;输出格式:( CSV，TSV，JSON）。默认值：CSV -G， - 猜测猜测每页的页面部分分析。 -h， - 帮助打印此帮助文本。 -i， - 沉默抑制所有stderr输出。 -L，使用晶格模式提取提取的晶格力PDF（如果存在分离每个单元的测定线，则在Excel电子表格的PDF中， - - 无电子表格[弃用支持-T / - 流]不使用电子表格提取（如果没有分离每个细胞的测定线）-O， - 突出的力，则不会提取PDF）-O，输出＆gt;将输出写入＆lt; file＆gt;而不是stdout。默认值： - -p， - 页面＆lt;页面＆gt;逗号分隔的范围名单，或全部。示例： - - 页面1-3,5-7， - 页面3或 - 页面。默认为 - 页面1 -R， - 电子表格[支持支持-l / - 格子]强制PDF使用电子表格式提取来提取（如果有分离每个单元的规则线，则在PDF中Excel电子表格）-s， - 密码＆lt;密码＆gt;密码解密文档。默认为空-t， - 流强制PDF要使用流模式提取提取（如果没有分离每个单元的测顿线）-u，则 - 使用行返回使用嵌入行在单元格中返回。（仅在电子表格模式中。）-v， - 版本打印版本和退出。

它还包括调试工具，运行java -cp ./target/tabula-1.0.2-jar-with-dependencies.jar technology.tabula.debug.debug -h for可用的选项。

您还可以将Tabula-Java与任何JVM语言集成。对于Java示例，请参阅测试文件夹。

JVM启动时间是Tabula命令的大量成本，所以如果您尝试从PDF中提取许多表，则您有一些选项可以加快速度：

将关于Tabula-Java的词传播给可能能够从使用它受益的人。

您还可以通过OpenCollectictive的一次性或每月捐赠，支持我们的持续工作禁忌-Java。使用Tabula-Java的组织还可以向我们的官方网站和此自述文件提供致密的项目。特别感谢以下用户和组织慷慨地支持Tabula捐赠和赠款：

https://github.com/tabulapdf/tabula-java

tags users