本文概述
- 超文本标记语言
- XML格式
- Microsoft Office文件格式
- OpenDocument格式
- iWorks文档格式
- 便携式文件格式
- 电子出版物格式
- 富文本格式
- 压缩和包装格式
- 文字格式
- 资讯提供和联合发布格式
Apache Tika可以从以下文档类型中检测, 提取内容和元数据。
- 超文本标记语言
- XML和派生格式
- Microsoft Office文件格式
- OpenDocument格式
- iWorks文档格式
- WordPerfect文档格式
- 便携式文件格式
- 电子出版物格式
- 富文本格式
- 压缩和包装格式
- 文字格式
- 资讯提供和联合发布格式
- 等等
XML格式它是一种可扩展的标记语言, 用于各种内容。 DcXMLParser类用于从文档中提取内容并忽略XML结构。
Microsoft Office文件格式Microsoft Office以通用OLE 2复合文档和Office Open XML(OOXML)格式生成文档。 OfficeParser和OOXMLParser类使用Apache POI库来支持从OLE2和OOXML文档提取文本和元数据。
OpenDocument格式它主要用作OpenOffice.org办公套件的默认格式。 OpenDocumentParser类支持此格式。
iWorks文档格式IWorkPackageParser类支持各种iWorks文档格式(数字, 页面, 主题演讲), 该类提取文本和元数据。
便携式文件格式PDFParser类用于使用Apache PDFBox库解析可移植文档格式(PDF)文档。
电子出版物格式EpubParser类支持电子出版物格式, 该类用于许多数字书籍。 FictionBookParser类支持基于Xml的小说。
富文本格式RTFParser类使用标准的javax.swing.text.rtf功能从富文本格式(RTF)文档中提取文本内容。
压缩和包装格式Tika使用Commons Compress库来支持各种压缩和打包格式。 CompressorParser类处理顶级压缩格式的解??析, 然后PackageParser类及其子类解析打包格式, 然后使用解析上下文中指定的解析器实例将解压缩的文档流传递到第二个解析阶段。支持的格式包括Tar, AR, ARJ, CPIO, Dump, Zip, 7Zip, Gzip, BZip2, XZ, LZMA, Z和Pack200。
文字格式从纯文本文件中提取文本内容似乎是一个简单的任务, 直到我们开始考虑所有可能的字符编码。 TXTParser类使用ICU项目中的编码检测代码来自动检测文本文档的字符编码。
资讯提供和联合发布格式【Apache Tika支持的格式详细介绍】FeedParser类支持RSS和Atom联合供稿格式。
推荐阅读
- Tika类文件提取示例
- YII数据库更新记录示例
- YII小部件介绍和用法示例
- Appium获取toast消息遇到的问题
- Appium获取toast消息
- Memcached append 命令
- Android长时间定时任务实现
- DapperExtensionsPredicates
- 安卓app开发-03-项目的基本开发步骤