设为首页 收藏本站
| 数控仿真 | 技术文章 | 公路造价 | 文档管理软件 |
| 幸运之门彩票网 | 彩票新闻 | 免费招聘 | 百科问吧 | 百姓族谱 | 小游戏网 |
世界上最高的酒窖是?
正文抽取 | 数据库技术 | 全文检索 | 中文分词 | 文件格式 | Lucene | FireBird | IIS | 免费小游戏 | 彩票论坛
Google
北京紫气东来网络公司 > 技术文章 > 全文检索 > 全文检索概念
全文检索 | Lucene |
全文检索概念

发表:北京紫气东来网络公司www.chianwiss.com,本文被阅读:1
全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。



全文检索的方法主要分为按字检索和按词检索两种。按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上是合一的,而中文中字与词有很大分别。按词检索指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易。中文等东方文字则需要切分字词,以达到按词索引的目的,关于这方面的问题,是当前全文检索技术尤其是中文全文检索技术中的难点,在此不做详述。



全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。一般来说,全文检索需要具备建立索引和提供查询的基本功能,此外现代的全文检索系统还需要具有方便的用户接口、面向WWW的开发接口、二次应用开发接口等等。功能上,全文检索系统核心具有建立索引、处理查询返回结果集、增加索引、优化索引结构等等功能,外围则由各种不同应用具有的功能组成。结构上,全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等等,加上各种外围应用系统等等共同构成了全文检索系统。图1.1展示了上述全文检索系统的结构与功能。




在上图中,我们看到:全文检索系统中最为关键的部分是全文检索引擎,各种应用程序都需要建立在这个引擎之上。一个全文检索应用的优异程度,根本上由全文检索引擎来决定。因此提升全文检索引擎的效率即是我们提升全文检索应用的根本。另一个方面,一个优异的全文检索引擎,在做到效率优化的同时,还需要具有开放的体系结构,以方便程序员对整个系统进行优化改造,或者是添加原有系统没有的功能。比如在当今多语言处理的环境下,有时需要给全文检索系统添加处理某种语言或者文本格式的功能,比如在英文系统中添加中文处理功能,在纯文本系统中添加XML或者HTML格式的文本处理功能,系统的开放性和扩充性就十分的重要。


 北京紫气东来网络公司 > 技术文章 > 全文检索
·垂直搜索引擎的选型 (3)
·网页搜索引擎竞争分析 (3)
·中文搜索引擎技术揭密:网络蜘蛛 (7)
·信息检索的核心支撑技术 (5)
·真正搜索高手 (4)
·全文检索概念 (5)
·全文检索概念 (5)
 最新文章
·全文检索概念
·垂直搜索引擎的选型
·网页搜索引擎竞争分析
·中文搜索引擎技术揭密:网络蜘蛛
·信息检索的核心支撑技术
·真正搜索高手
·搜索引擎优化
·刑侦角度看搜索
·全文检索概念
·LUCENE索引文件格式分析
·LUCENE系统结构分析
·LUCENE的应用、特点及优势
·DELPHI与WORD之间的融合技术
·VC实现类似EXCEL文件夹式样的标签控制
·DELPHI自动化控制EXCEL
·PDF与WORD之间提取和转换经验浅谈
·希望PDFLIB TET― 理想的文本提取软件包
·用DELPHI编制WINDOWS95下的钩子函数
·用DELPHI编制WINDOWS95下的钩子函数
·JDBC HIBERNATE 连接数据库连接字符串大
·用C#制作PDF文件全攻略
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·PDF转成WORD TXT EXCEL RTF软件
·从HTML文件中抽取正文的简单方案
·C#抽取WORD文档内容
·JAVA抽取WORD和PDF格式文件的四种武器
 热门文章
·JAVA抽取WORD和PDF格式文件的四种武器
·PDF转成WORD TXT EXCEL RTF软件
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·中文搜索引擎技术揭密:网络蜘蛛
·用C#制作PDF文件全攻略
·希望PDFLIB TET― 理想的文本提取软件包
·C#抽取WORD文档内容
·PDF与WORD之间提取和转换经验浅谈
·搜索引擎优化
·刑侦角度看搜索
·全文检索概念
·信息检索的核心支撑技术
·用DELPHI编制WINDOWS95下的钩子函数
·用DELPHI编制WINDOWS95下的钩子函数
·JDBC HIBERNATE 连接数据库连接字符串大
·LUCENE系统结构分析
·LUCENE的应用、特点及优势
·DELPHI与WORD之间的融合技术
·VC实现类似EXCEL文件夹式样的标签控制
·DELPHI自动化控制EXCEL
·从HTML文件中抽取正文的简单方案
·真正搜索高手
·LUCENE索引文件格式分析
·垂直搜索引擎的选型
·网页搜索引擎竞争分析
·全文检索概念
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·对PDF文件的文本抽取(PDFBOX处理中文PDF
免费小游戏
宠物连连看

真人美女换装

美女脱衣服

美女胴体猜猜看

调戏床上美女

黄金矿工
如何购买奥运会门票?
| 2008-08-17 | 首页 | 功能介绍 | 免费下载 | 产品购买 | 在线服务 | 典型应用 | 技术文章 | 联系我们 |