本文概述
- PDFParser构造函数权限
- 下载PDFParser方法
- Tika提取PDF文件示例
它包含下表中列出的构造函数和方法。
PDFParser构造函数权限
Constructor | Description |
---|---|
public PDFParser() | 它用于创建此类的实例。 |
Method | Description |
---|---|
公共Set < MediaType> getSupportedTypes(ParseContext上下文) | 当与给定的解析上下文一起使用时, 它返回此解析器支持的媒体类型集。 |
公共无效解析(InputStream流, ContentHandler处理程序, 元数据元数据, ParseContext上下文)引发IOException, SAXException, TikaException | 它将文档流解析为一系列XHTML SAX事件。 |
公共PDFParserConfig getPDFParserConfig() | 它用于获取pdfparser配置。 |
公共无效setPDFParserConfig(PDFParserConfig配置) | 用于设置pdfparser的配置 |
公共无效setEnableAutoSpace(布尔v) | 解析器应估计单词之间应在何处插入空格。 |
公共布尔getExtractAnnotationText() | 它提取注释中的文本。 |
公共无效setExtractAnnotationText(boolean v) | 如果为true(默认值), 则将提取注释中的文本。 |
公共无效setSuppressDuplicateOverlappingText(boolean v) | 如果为true, 则解析器应尝试删除同一区域上的重复文本。 |
package tikaexample;
import java.io.IOException;
import java.io.InputStream;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.pdf.PDFParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class PdfParserExample { public static void main(String[] args) throws IOException, SAXException, TikaException {BodyContentHandler handler= new BodyContentHandler();
PDFParser parser= new PDFParser();
Metadata metadata= http://www.srcmini.com/new Metadata();
ParseContext pcontext= new ParseContext();
try (InputStream stream = AutoDetectParseExample.class.getResourceAsStream("srcmini.pdf")) {parser.parse(stream, handler, metadata, pcontext);
System.out.println("Document Content:" + handler.toString());
System.out.println("Document Metadata:");
String[] metadatas = metadata.names();
for(String data : metadatas) {System.out.println(data + ":" + metadata.get(data));
}}catch(Exception e) {System.out.println("Exception message: "+ e.getMessage());
}} }
输出
Document Content:Welcome to the srcmini. srcmini is a Technical portal that contains latest computer science topics. Document Metadata:pdf:PDFVersion:1.4xmp:CreatorTool:Online2PDF.comaccess_permission:modify_annotations:trueaccess_permission:can_print_degraded:truemeta:creation-date:2018-05-05T11:25:40Zcreated:Sat May 05 16:55:40 IST 2018access_permission:extract_for_accessibility:trueaccess_permission:assemble_document:truexmpTPg:NPages:1Creation-Date:2018-05-05T11:25:40Zdcterms:created:2018-05-05T11:25:40Zdc:format:application/pdf;
version=1.4access_permission:extract_content:trueaccess_permission:can_print:truepdf:docinfo:creator_tool:Online2PDF.comaccess_permission:fill_in_form:truepdf:encrypted:falseproducer:Online2PDF.comaccess_permission:can_modify:truepdf:docinfo:producer:Online2PDF.compdf:docinfo:created:2018-05-05T11:25:40ZContent-Type:application/pdf
推荐阅读
- Tika组件栈详细解释
- Tika文件类型检测介绍和示例
- Tika自动检测器解析器示例
- Tika类文件提取示例
- Apache Tika支持的格式详细介绍
- YII数据库更新记录示例
- YII小部件介绍和用法示例
- Appium获取toast消息遇到的问题
- Appium获取toast消息