Tika提取PDF文件用法示例

本文概述

  • PDFParser构造函数权限
  • 下载PDFParser方法
  • Tika提取PDF文件示例
为了从pdf文件中提取内容, Tika使用PDFParser。 PDFParser是用于从pdf文件提取内容和元数据的类。此类位于org.apache.tika.parser.pdf包中。
它包含下表中列出的构造函数和方法。
PDFParser构造函数权限
Constructor Description
public PDFParser() 它用于创建此类的实例。
下载PDFParser方法
Method Description
公共Set < MediaType> getSupportedTypes(ParseContext上下文) 当与给定的解析上下文一起使用时, 它返回此解析器支持的媒体类型集。
公共无效解析(InputStream流, ContentHandler处理程序, 元数据元数据, ParseContext上下文)引发IOException, SAXException, TikaException 它将文档流解析为一系列XHTML SAX事件。
公共PDFParserConfig getPDFParserConfig() 它用于获取pdfparser配置。
公共无效setPDFParserConfig(PDFParserConfig配置) 用于设置pdfparser的配置
公共无效setEnableAutoSpace(布尔v) 解析器应估计单词之间应在何处插入空格。
公共布尔getExtractAnnotationText() 它提取注释中的文本。
公共无效setExtractAnnotationText(boolean v) 如果为true(默认值), 则将提取注释中的文本。
公共无效setSuppressDuplicateOverlappingText(boolean v) 如果为true, 则解析器应尝试删除同一区域上的重复文本。
Tika提取PDF文件示例【Tika提取PDF文件用法示例】在下面的示例中, 我们从pdf文件中提取内容和元数据。
package tikaexample; import java.io.IOException; import java.io.InputStream; import org.apache.tika.exception.TikaException; import org.apache.tika.metadata.Metadata; import org.apache.tika.parser.ParseContext; import org.apache.tika.parser.pdf.PDFParser; import org.apache.tika.sax.BodyContentHandler; import org.xml.sax.SAXException; public class PdfParserExample { public static void main(String[] args) throws IOException, SAXException, TikaException {BodyContentHandler handler= new BodyContentHandler(); PDFParser parser= new PDFParser(); Metadata metadata= http://www.srcmini.com/new Metadata(); ParseContext pcontext= new ParseContext(); try (InputStream stream = AutoDetectParseExample.class.getResourceAsStream("srcmini.pdf")) {parser.parse(stream, handler, metadata, pcontext); System.out.println("Document Content:" + handler.toString()); System.out.println("Document Metadata:"); String[] metadatas = metadata.names(); for(String data : metadatas) {System.out.println(data + ":" + metadata.get(data)); }}catch(Exception e) {System.out.println("Exception message: "+ e.getMessage()); }} }

输出
Document Content:Welcome to the srcmini. srcmini is a Technical portal that contains latest computer science topics. Document Metadata:pdf:PDFVersion:1.4xmp:CreatorTool:Online2PDF.comaccess_permission:modify_annotations:trueaccess_permission:can_print_degraded:truemeta:creation-date:2018-05-05T11:25:40Zcreated:Sat May 05 16:55:40 IST 2018access_permission:extract_for_accessibility:trueaccess_permission:assemble_document:truexmpTPg:NPages:1Creation-Date:2018-05-05T11:25:40Zdcterms:created:2018-05-05T11:25:40Zdc:format:application/pdf; version=1.4access_permission:extract_content:trueaccess_permission:can_print:truepdf:docinfo:creator_tool:Online2PDF.comaccess_permission:fill_in_form:truepdf:encrypted:falseproducer:Online2PDF.comaccess_permission:can_modify:truepdf:docinfo:producer:Online2PDF.compdf:docinfo:created:2018-05-05T11:25:40ZContent-Type:application/pdf

    推荐阅读