设为首页 收藏本站
| 数控仿真 | 技术文章 | 公路造价 | 文档管理软件 |
| 幸运之门彩票网 | 彩票新闻 | 免费招聘 | 百科问吧 | 百姓族谱 | 小游戏网 |
“井底之蛙”典故中哪种动物告诉了井底之蛙海的广阔无垠?
正文抽取 | 数据库技术 | 全文检索 | 中文分词 | 文件格式 | Lucene | FireBird | IIS | 免费小游戏 | 彩票论坛
Google
北京紫气东来网络公司 > 技术文章 > 文件正文抽取 > 希望PDFLIB TET― 理想的文本提取软件包
文件正文抽取 | Office文件正文抽取 | Pdf文件正文抽取 |
希望PDFLIB TET― 理想的文本提取软件包

发表:北京紫气东来网络公司www.chianwiss.com,本文被阅读:1
PDFlib文本提取软件包( TET )是为在PDF文件中提取文本信息而设计的产品。它提供两种使用方式--可执行程序及程序库。TET 可以提取PDF文件里的文本内容并转换成Unicode编码输出。它还可以获取详尽的字形,字体信息,以及相应文字的页坐标信息。TET除了可以提取未处理过的文本流外,还提供可以判断单词边界(限于用空格或符号等分隔符间隔单词的语言)及移去为产生阴影或其他艺术效果而导致的重复文字。通过附属的pCOS接口,用户还可以从文件中获取诸如元数据(metadata),超文本(hypertext) 等的任意PDF对象。

拥有PDFlib TET你可以:

建立一个可处理PDF文档的搜索引擎
提取PDF文档里的文本信息并以数据库等的形式存储
将PDF的内容转换为其他文件格式
根据PDF的文档内容做智能化处理
将PDF的文档内容转换成 XML格式,为下一步的调用做准备
支持多种 PDF 文档
PDFlib TET 支持以下各种形式的PDF输入文档:

所有PDF版本,最高至 PDF 1.6 (Acrobat 7)
所有的字体及编码类型如:十四种核心字体( base 14 fonts), TrueType, PostScript, OpenType, 及CID字体等
40和128位加密的 PDF文档 (需要正确的权限设置和口令)
Unicode
一般来说PDF的文本内容并不采用 Unicode编码, PDFlib TET则统一将其转换成 Unicode编码并输出:

TET 将所有的字符串转换为 Unicode编码。在C语言里,文本将会以 UTF-8编码或 UTF-16编码返回。 而其它编程语言则以其固有的 Unicode编码方式返回。
连字和其它多字符字形(glyph)将会被分解为一串相应的单一字形的Unicode编码.
厂家特定的Unicode编码 (又称私人使用区字符--PUA ) 将会被识别出,并试图找出在Unicode编码公共区与之相对应的编码。
TET 将标识出没有相对应Unicode编码的字形,并用一个可设置的替代符取代。
支持所有CJK(中日韩)字体
TET 完全支持对中文, 日文及韩文的文本提取。 它可以识别所有的预定义 CJK CMaps编码,并支持它们的水平及垂直两种书写模式。

内容分析及单词识别
TET 除了可用于提取未处理的字形信息外, 还提供了可对内容进行分析的先进算法:

可判断单词边界(限于用空格或符号等分隔符间隔单词的语言),从而可以提取单词而不是字符。
可移去应排版需要而加入的连字符。
可移去为产生阴影或其他艺术效果而导致的重复文字。
可按阅读顺序重组段落。
可重新排列被打散的文字。
可重建文本行。
提供几何信息
TET 可提供精确的文本度量信息如当前页的坐标位置,字形宽度, 文本方向等。用户甚至可以指定提取或排除在当前页的特定区域 里的文本。例如, 用户可以忽略页眉,页脚及页边空白中的文字。

对不规范PDF文档的容错能力
TET具有的特殊算法让它对不规范的PDF文档有极强的容错能力。 许多同类产品不能处理的PDF文档, TET都能给予较好的解决。另外,为了能更好的解决不规范PDF文档,它还附加了多种设置功能:

Unicode的映射表可以通过 用户提供的带有字符号或字形与 Unicode编码对应信息的表而进行用户化。
PDFlib FontReporter 是一个可帮助分析PDF文档中的字体,编码及字形的有效辅助工具。它作为一个插件,可以运行在Adobe Acrobat 5, 6, 和7上。 它是一个免费工具,有 Mac和Windows两个版本。
分析嵌入字体,寻求对建立Unicode映射表有帮助的额外线索。同时,在非嵌入字体的情况下,TET会利用外部字体文件或系统只体文件信息帮助提高文本提取的准确性。
pCOS --获取PDF 对象内容的捷径
TET带有可提取任意PDF对象内容的pCOS (PDFlib Comprehensive Object System) 接口。 通过附属的pCOS接口,用户不需做任何低层编程,而只需调用一个简单的查询指令,就可以从文件中获取诸如元数据(metadata),超文本(hypertext) 等除实际页内容以外的任何信息。

编程和性能
在TET的研制和开发中,我们一直把易移植 ,稳定性高及性能优异作为追求目标。TET 是为部署在多线程服务器应用程序而设计的,它可以在多线程环境下安全运行。为了取得最大的性能和最小的开支,它的核心程序库是用高度优化的C语言编写的。所支持的编程语言有 COM, C, C++, Java, 和.NET。

TET可执行程序和程序库
TET可以作为多种程序开发环境的程序库,同时也可以作为被批处理调用的可执行程序。两者均提供相同的功能,但各自适用于完成不同的任务。 这里给出一些使用参考:

TET程序库可以作为中间件集成到所需的桌面或服务器 端的应用程序。用户可以在下载的软件包里找到将TET作为程序库使用的几个例子。这些例子,对于不同的语言接口都有相应的版本。
TET可执行程序适合于批处理 PDF文档的环境。它除了可以从PDF文档提取纯文本信息外, 还可以将文档内容转换成 XML格式输出。用户不需要做任何编程,而是通过调用设置了选项值的可执行程序而实现。而此命令行也可以成为一个复杂工作流程的一部分。
 北京紫气东来网络公司 > 技术文章 > 文件正文抽取
·用DELPHI编制WINDOWS95下的钩子函数 (4)
·用DELPHI编制WINDOWS95下的钩子函数 (4)
·从HTML文件中抽取正文的简单方案 (3)
·C#抽取WORD文档内容 (5)
·JAVA抽取WORD和PDF格式文件的四种武器 (24)
 最新文章
·PDF与WORD之间提取和转换经验浅谈
·希望PDFLIB TET― 理想的文本提取软件包
·用DELPHI编制WINDOWS95下的钩子函数
·用DELPHI编制WINDOWS95下的钩子函数
·JDBC HIBERNATE 连接数据库连接字符串大
·用C#制作PDF文件全攻略
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·PDF转成WORD TXT EXCEL RTF软件
·从HTML文件中抽取正文的简单方案
·C#抽取WORD文档内容
·JAVA抽取WORD和PDF格式文件的四种武器
 热门文章
·JAVA抽取WORD和PDF格式文件的四种武器
·PDF转成WORD TXT EXCEL RTF软件
·希望PDFLIB TET― 理想的文本提取软件包
·用C#制作PDF文件全攻略
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·C#抽取WORD文档内容
·PDF与WORD之间提取和转换经验浅谈
·用DELPHI编制WINDOWS95下的钩子函数
·用DELPHI编制WINDOWS95下的钩子函数
·JDBC HIBERNATE 连接数据库连接字符串大
·从HTML文件中抽取正文的简单方案
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·对PDF文件的文本抽取(PDFBOX处理中文PDF
免费小游戏
宠物连连看

真人美女换装

美女脱衣服

美女胴体猜猜看

调戏床上美女

黄金矿工
“井底之蛙”典故中哪种动物告诉了井底之蛙海的广阔无垠?
| 2008-08-14 | 首页 | 功能介绍 | 免费下载 | 产品购买 | 在线服务 | 典型应用 | 技术文章 | 联系我们 |