设为首页 收藏本站
| 数控仿真 | 技术文章 | 公路造价 | 文档管理软件 |
| 幸运之门彩票网 | 彩票新闻 | 免费招聘 | 百科问吧 | 百姓族谱 | 小游戏网 |
“腊八粥”最早起源于?A:祭祀 B:民间庆祝丰收的风俗 C:佛教
正文抽取 | 数据库技术 | 全文检索 | 中文分词 | 文件格式 | Lucene | FireBird | IIS | 免费小游戏 | 彩票论坛
Google
北京紫气东来网络公司 > 技术文章 > Pdf文件正文抽取 > PDF与WORD之间提取和转换经验浅谈
文件正文抽取 | Office文件正文抽取 | Pdf文件正文抽取 |
PDF与WORD之间提取和转换经验浅谈

发表:北京紫气东来网络公司www.chianwiss.com,本文被阅读:1
一,PDF转换WORD篇
如何提取PDF中的文字,图片等特效

我们日常工作学习中有关的学术论文或学术报告或者课程教材等等都以pdf格式保存,如何把它们转换成可编辑的word文档或者提取相应的重要信息。网上有不少 pdf 到 word 的转换软件或插件,可是大都对英文等识别姣好,一些繁体的软件又不适合我们,我们可以利用office2003的组件microsoft office Document Imaging可以实现从PDF中任意提取任何页面的文字和图像等功能。

先来介绍一下最简单的提取方法吧,打开PDF的文件资料,利用本身的文本提取工具可以完全提取了,但是有的PDF是增加了128位秘钥的,想要提取是不会那么简单的,即使用软件或者简单复制的时候,出来的效果却是乱码之类的东西。
而且单纯的用文本工具只能把PDF中的文字提取出来,其他的特效:图片等是无法显示出来的,首先看一例文本提取:
我想提取下图的文字:具有SAP的企业系统。



直接在ADOBE READER 的"工具"选项那就轻松可以实现:


或者直接利用快捷方式中的图形直接提取就可以了:


直接提取的效果就是我们通常所说的"复制"到"粘贴",文字东西少还是可以,如果有300页的PDF我怕只有"傻瓜"才会那么做吧!呵呵!玩笑!下面的图片我们怎么办(举个例子)如果是报表的数据图呢?如何人、放到WORD里呢?


所以只有求助office2003的组件microsoft office Document Imaging的功能了,即使它不是最好的,在ADOBE READER 那有一个"打印机"的图标,进入后来到如下的画面,在名称那选择"microsoft office Document Imaging",下面还有设置的打印范围,可以选择所有的PDF文件或者选择想要提取的页面也可以,或者指定多少页到多少页都是可以实现的,页面处理功能就是保持页面的大小或者根据你要打印的纸张的大小选择就可以了,页数就是处理后的页数。


根据需要我最后进行了选择,什么都保持原来的大小和清晰度等,然后我们确认就可以了:


之后会出现"保存"的对话框,注意下面的文件名,可以更改或者改变的,但是下面的保存类型千万不要变,保持MDI格式就可以了:


之后会出现所预览的页面,也就是你上面选择参数后的结果,这时候的图片和PDF还是一样的:


之后在[color[red]"工具"这个选项上选择"将文本发送到WROD"这个选项:


然后出现一个可选择的对话框,选择的时候要注意选择"输出时候保持文件不变",然后保存到想要的位置:


如果机器之前设置了OCR擦件选项,需要更新的,不过不要紧的,系统会自动给你安装的,选择确定就可以,时间也不会很久的,我的机器3秒OK了:


然后安装开始:


之后就是安装的进度条了,很快安装OVER,功能可以用了:


最后呈现在你面前的就是转换后的文字了,其实应该是黑色字体,5号字的大小的,我从新给调整了和以前的模式,是不是一样的呢?
图片的实现和文字的实现是一样的,不过WORD一定要支持图片模版的,2003版本的可以,2000没尝试,经过很多的使用,可以说95%的文字都是可以清晰的提取出来的,这点没问题的!呵呵!



二,WORD转换PDF篇
利用5D PDF CREATER 转换PDF

WORD转换到PDF可以实现的软件简直太多了,但是本人在学习应用的时候觉得还是5D-PDF最好不过了,毕竟支持微软的产品实在是太少了,相对这款软件才真正实现了WORD PPT EXCEL FRONTPAGE等众多OFFICE软件的转换,而且效果和速度都是一流的。

首先还是用WORD或者PPT等打开我们需要转换的文件,这里以WORD为例子,就是我编写的这个帖子吧:


然后在"文件"选项那选择"打印"的选项:


之后来到打印的属性窗口中,在这里可以有很多属性可以供我们选择,可谓是功能强大啊,在名称中选择"5D PDF CREATER",打印内容中可以选择本版面的文字和所有版面的文字等,而且还可以设置页数和大小,想变成什么样的PDF都可以,而且在打印机属性中还可以设置变成PDF后的颜色,使它更加个性化:


另外在"打印"属性中可以有如下选择,调节A4的纸张大小和形状,打印成PDF的文字。XML信息等等,而且选择隐藏和背景色,最后确定:


最后会弹出对话框,我们可以更改文件名,保存的类型也很多,大家可以自己尝试的,我们在这变换的是PDF形式,下面的就是5D PDF CREATER最强大的地方了,我们选的是"PRESS READY"这里可以自己研究着,里面有好多想不到的东西呢!呵呵!
 北京紫气东来网络公司 > 技术文章 > Pdf文件正文抽取
·用C#制作PDF文件全攻略 (6)
·对PDF文件的文本抽取(PDFBOX处理中文PDF) (6)
·对PDF文件的文本抽取(PDFBOX处理中文PDF) (2)
·对PDF文件的文本抽取(PDFBOX处理中文PDF) (2)
·对PDF文件的文本抽取(PDFBOX处理中文PDF) (2)
·希望PDFLIB TET― 理想的文本提取软件包 (5)
·用C#制作PDF文件全攻略 (6)
·对PDF文件的文本抽取(PDFBOX处理中文PDF) (6)
·对PDF文件的文本抽取(PDFBOX处理中文PDF) (2)
·对PDF文件的文本抽取(PDFBOX处理中文PDF) (2)
·对PDF文件的文本抽取(PDFBOX处理中文PDF) (2)
·PDF转成WORD TXT EXCEL RTF软件 (9)
·JAVA抽取WORD和PDF格式文件的四种武器 (24)
 最新文章
·PDF与WORD之间提取和转换经验浅谈
·希望PDFLIB TET― 理想的文本提取软件包
·用DELPHI编制WINDOWS95下的钩子函数
·用DELPHI编制WINDOWS95下的钩子函数
·JDBC HIBERNATE 连接数据库连接字符串大
·用C#制作PDF文件全攻略
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·PDF转成WORD TXT EXCEL RTF软件
·从HTML文件中抽取正文的简单方案
·C#抽取WORD文档内容
·JAVA抽取WORD和PDF格式文件的四种武器
 热门文章
·JAVA抽取WORD和PDF格式文件的四种武器
·PDF转成WORD TXT EXCEL RTF软件
·用C#制作PDF文件全攻略
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·C#抽取WORD文档内容
·希望PDFLIB TET― 理想的文本提取软件包
·PDF与WORD之间提取和转换经验浅谈
·用DELPHI编制WINDOWS95下的钩子函数
·用DELPHI编制WINDOWS95下的钩子函数
·JDBC HIBERNATE 连接数据库连接字符串大
·从HTML文件中抽取正文的简单方案
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·对PDF文件的文本抽取(PDFBOX处理中文PDF
免费小游戏
宠物连连看

真人美女换装

美女脱衣服

美女胴体猜猜看

调戏床上美女

黄金矿工
“腊八粥”最早起源于?A:祭祀 B:民间庆祝丰收的风俗 C:佛教
| 2008-08-14 | 首页 | 功能介绍 | 免费下载 | 产品购买 | 在线服务 | 典型应用 | 技术文章 | 联系我们 |