设为首页 收藏本站
| 数控仿真 | 技术文章 | 公路造价 | 文档管理软件 |
| 幸运之门彩票网 | 彩票新闻 | 免费招聘 | 百科问吧 | 百姓族谱 | 小游戏网 |
幸运之门百科问吧频道提供覆盖法律、医学、旅游等10多大类百万数量的常识、知识、技巧、攻略等资讯。
正文抽取 | 数据库技术 | 全文检索 | 中文分词 | 文件格式 | Lucene | FireBird | IIS | 免费小游戏 | 彩票论坛
Google
北京紫气东来网络公司 > 技术文章 > 文件正文抽取 > JAVA抽取WORD和PDF格式文件的四种武器
文件正文抽取 | Office文件正文抽取 | Pdf文件正文抽取 |
JAVA抽取WORD和PDF格式文件的四种武器

发表:北京紫气东来网络公司www.chianwiss.com,本文被阅读:1
很多人用java进行文档操作时经常会遇到一个问题,就是如何获得word,excel,pdf等文档的内容?我研究了一下,在这里总结一下抽取word,pdf的几种方法。

1. 用jacob

其实jacob是一个bridage,连接java和com或者win32函数的一个中间件,jacob并不能直接抽取word,excel等文件,需要自己写dll哦,不过已经有为你写好的了,就是jacob的作者一并提供了。

jacob jar与dll文件下载: http://danadler.com/jacob/

下载了jacob并放到指定的路径之后(dll放到path,jar文件放到classpath),就可以写你自己的抽取程序了,下面是一个简单的例子:


2. 用apache的poi来抽取word,excel

poi是apache的一个项目,不过就算用poi你可能都觉得很烦,不过不要紧,这里提供了更加简单的一个接口给你:

下载经过封装后的poi包: http://jakarta.apache.org/poi/

下载之后,放到你的classpath就可以了,下面是如何使用它的一个例子:

3. pdfbox-用来抽取pdf文件

但是pdfbox对中文支持还不好,先下载pdfbox: http://www.pdfbox.org/

下面是一个如何使用pdfbox抽取pdf文件的例子:


4. 抽取支持中文的pdf文件-xpdf

xpdf是一个开源项目,我们可以调用他的本地方法来实现抽取中文pdf文件。

下载xpdf函数包: http://www.foolabs.com/xpdf/

同时需要下载支持中文的补丁包,按照readme放好中文的patch,就可以开始写调用本地方法的java程序了。

下面是一个如何调用的例子:


 北京紫气东来网络公司 > 技术文章 > 文件正文抽取
 最新文章
·JAVA抽取WORD和PDF格式文件的四种武器
 热门文章
·JAVA抽取WORD和PDF格式文件的四种武器
免费小游戏
宠物连连看

真人美女换装

美女脱衣服

美女胴体猜猜看

调戏床上美女

黄金矿工
2008北京奥运会门票预订如何付款?
| 首页 | 功能介绍 | 免费下载 | 产品购买 | 在线服务 | 典型应用 | 技术文章 | 联系我们 |