Apache Tika支持的格式详细介绍

本文概述

  • 超文本标记语言
  • XML格式
  • Microsoft Office文件格式
  • OpenDocument格式
  • iWorks文档格式
  • 便携式文件格式
  • 电子出版物格式
  • 富文本格式
  • 压缩和包装格式
  • 文字格式
  • 资讯提供和联合发布格式
众所周知, Apache Tika支持上千种文档类型。在这里, 我们列出了一些常见的格式。这些只是介绍性的, 而Tika可以检测的范围比下面列出的范围要大得多。
Apache Tika可以从以下文档类型中检测, 提取内容和元数据。
  • 超文本标记语言
  • XML和派生格式
  • Microsoft Office文件格式
  • OpenDocument格式
  • iWorks文档格式
  • WordPerfect文档格式
  • 便携式文件格式
  • 电子出版物格式
  • 富文本格式
  • 压缩和包装格式
  • 文字格式
  • 资讯提供和联合发布格式
  • 等等
超文本标记语言为了解析和提取HTML类型文档中的内容(元数据), Tika使用HtmlParser类负责提取HTML文件。
XML格式它是一种可扩展的标记语言, 用于各种内容。 DcXMLParser类用于从文档中提取内容并忽略XML结构。
Microsoft Office文件格式Microsoft Office以通用OLE 2复合文档和Office Open XML(OOXML)格式生成文档。 OfficeParser和OOXMLParser类使用Apache POI库来支持从OLE2和OOXML文档提取文本和元数据。
OpenDocument格式它主要用作OpenOffice.org办公套件的默认格式。 OpenDocumentParser类支持此格式。
iWorks文档格式IWorkPackageParser类支持各种iWorks文档格式(数字, 页面, 主题演讲), 该类提取文本和元数据。
便携式文件格式PDFParser类用于使用Apache PDFBox库解析可移植文档格式(PDF)文档。
电子出版物格式EpubParser类支持电子出版物格式, 该类用于许多数字书籍。 FictionBookParser类支持基于Xml的小说。
富文本格式RTFParser类使用标准的javax.swing.text.rtf功能从富文本格式(RTF)文档中提取文本内容。
压缩和包装格式Tika使用Commons Compress库来支持各种压缩和打包格式。 CompressorParser类处理顶级压缩格式的解??析, 然后PackageParser类及其子类解析打包格式, 然后使用解析上下文中指定的解析器实例将解压缩的文档流传递到第二个解析阶段。支持的格式包括Tar, AR, ARJ, CPIO, Dump, Zip, 7Zip, Gzip, BZip2, XZ, LZMA, Z和Pack200。
文字格式从纯文本文件中提取文本内容似乎是一个简单的任务, 直到我们开始考虑所有可能的字符编码。 TXTParser类使用ICU项目中的编码检测代码来自动检测文本文档的字符编码。
资讯提供和联合发布格式【Apache Tika支持的格式详细介绍】FeedParser类支持RSS和Atom联合供稿格式。

    推荐阅读