设为首页 收藏本站
| 数控仿真 | 技术文章 | 公路造价 | 文档管理软件 |
| 幸运之门彩票网 | 彩票新闻 | 免费招聘 | 百科问吧 | 百姓族谱 | 小游戏网 |
“腊八粥”最早起源于?A:祭祀 B:民间庆祝丰收的风俗 C:佛教
正文抽取 | 数据库技术 | 全文检索 | 中文分词 | 文件格式 | Lucene | FireBird | IIS | 免费小游戏 | 彩票论坛
Google
北京紫气东来网络公司 > 技术文章 > 全文检索 > 垂直搜索引擎的选型
全文检索 | Lucene |
垂直搜索引擎的选型

发表:北京紫气东来网络公司www.chianwiss.com,本文被阅读:1
网页搜索引擎的存在有他存在的土壤,土壤环境是怎么样的呢?
1.海量的数据,互联网上有海量的数据,并且这些数据在快速增长、不断更新
2.分散的数据,这些数据存在于成千上万个网站中
3.多样化的数据
4.用户多样化的数据搜索需求
5.用户对搜索数据的实时性要求不是非常强
6.用户对这些数据有整合使用的需求,并且这种需求量很大
7.能够很好的对整合来的数据进行处理,能够完整的满足用户的这种需求,提供完整的信息检索体验



垂直搜索引擎存在的土壤:
1.网页搜索引擎无法对某类数据进行深度加工,提供更多的细化的服务
2.网页的数据实在是太多样化了(数据种类、数据类型等),不利于满足用户细分的服务
3.用户有对互联网数据进行深度采集,数据的深度加工提供更细化的服务的需求,这种需求量非常巨大
4.用户对某类信息的实时性的要求比较高
5.针对某类信息提供更简洁、更快速,更可依赖性更强的服务
6.行业性优化






垂直搜索存在的必备条件:
1.海量的数据,所选择的垂直搜索的数据必须是海量的数据,数据量和增长速度、增长量都比较大。符合搜索引擎的基本条件
2.分散的数据,这种数据必须要分散在很多个不同网站。不能是仅存在于几个网站。如果仅存在于几个网站不如做元搜索了(如果信息集中在几个网站,用户可以直接去使用)
3.用户对这些数据的实时性有一定要求,但是又不能是对实时性要求极高
(显然,春运期间的二手火车票信息就不适合做垂直搜索,因为等采集处理完毕,那票说不定已经卖掉了。拍卖的价格信息不适合做垂直搜索,有可能还没有采集处理完毕,价格已经变化了。)
4.用户对这类数据的需求量是很大的,而且需要长期使用。(搜索是需要学习、长期使用才能很好的驾驭的一种应用)
5.技术上能够很好的完成信息的整合、深度加工,并且加工后能够完整的满足用户对这类数据的搜索需求,提供完整的应用体验。
6.这种信息的深度采集、深度加工是网页搜索引擎完全不可以替代的。






垂直搜索选型的步骤:
1.选定适合您的,您熟悉的,有一定的资源背景的几个垂直搜索的被选方案。
2.查看google或百度(其它搜索引擎不行)检索关键词数据。
最好能搞到连续一段时间的全部词汇(按照检索频率排序),当然这几乎不可能,进行详细的分析、统计、挖掘。搞不到只要看风云榜和百度指数了,这估计就有很大偏差了。
对这些用户需求数据库进行深度分析找出用户到底要什么、互联网上缺什么。
(第1步和第2步交替进行)
3.分析相关行业的网站,评估用户需求、数据情况、横向竞争、纵向竞争、潜在竞争情况和可能遇到的其它问题。
4.如何满足用户的需求?如何保持产品和门户网站、搜索门户等的差异化和挖掘出用户潜在的最大的需求?
5.评估技术上的可行性,能否实现完整用户体验。
6.如何保证产品的领先性(资源、效果、市场、技术、销售……)
7.产品的市场推广方式(这点非常非常重要,如何在竞争对手反应过来之前低成本的快速抵达有效用户群是成败的关键)
8.盈利模式;收入模型、成本模型
第一步完成到什么程度,达到什么目标。需要多少成本
第二步完成到什么程度,是否可以收支平衡或者获得投资
…………
9.产品的不足和先天的缺陷如何克服弥补。产品的生命周期的每一步可能出现的紧急问题如何应对。
10.不要认为自己很聪明,这世界上聪明人太多了,你能想到的肯定有n个人已经想到了。
关键在于您能不能充分利用自己的资源,做好前期的调查后专注的执行。
11.务必要找百度和google这类搜索引擎不愿意花大功夫去做(市场暂时不够大)、或者不可能能做的应用(受制约、有更重要的事情要做),不要把你的模式和意图暴露得太早,这个市场的竞争实在是太激烈了,中国人也都太聪明了。
务必要找和门户网站、网页搜索引擎有很大差异化,并且用户有持续的很大的需求的。理由很简单:搜索是需要持续使用才能熟练的一种产品、从门户和网页搜索引擎到您的垂直引擎的门槛很高(比多点击10次的门槛还高很多)。
 北京紫气东来网络公司 > 技术文章 > 全文检索
·网页搜索引擎竞争分析 (3)
·中文搜索引擎技术揭密:网络蜘蛛 (7)
·信息检索的核心支撑技术 (5)
·真正搜索高手 (4)
·搜索引擎优化 (5)
 最新文章
·垂直搜索引擎的选型
·网页搜索引擎竞争分析
·中文搜索引擎技术揭密:网络蜘蛛
·信息检索的核心支撑技术
·真正搜索高手
·搜索引擎优化
·刑侦角度看搜索
·全文检索概念
·LUCENE索引文件格式分析
·LUCENE系统结构分析
·LUCENE的应用、特点及优势
·DELPHI与WORD之间的融合技术
·VC实现类似EXCEL文件夹式样的标签控制
·DELPHI自动化控制EXCEL
·PDF与WORD之间提取和转换经验浅谈
·希望PDFLIB TET― 理想的文本提取软件包
·用DELPHI编制WINDOWS95下的钩子函数
·用DELPHI编制WINDOWS95下的钩子函数
·JDBC HIBERNATE 连接数据库连接字符串大
·用C#制作PDF文件全攻略
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·PDF转成WORD TXT EXCEL RTF软件
·从HTML文件中抽取正文的简单方案
·C#抽取WORD文档内容
·JAVA抽取WORD和PDF格式文件的四种武器
 热门文章
·JAVA抽取WORD和PDF格式文件的四种武器
·PDF转成WORD TXT EXCEL RTF软件
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·中文搜索引擎技术揭密:网络蜘蛛
·用C#制作PDF文件全攻略
·希望PDFLIB TET― 理想的文本提取软件包
·C#抽取WORD文档内容
·PDF与WORD之间提取和转换经验浅谈
·搜索引擎优化
·刑侦角度看搜索
·全文检索概念
·信息检索的核心支撑技术
·用DELPHI编制WINDOWS95下的钩子函数
·用DELPHI编制WINDOWS95下的钩子函数
·JDBC HIBERNATE 连接数据库连接字符串大
·LUCENE系统结构分析
·LUCENE的应用、特点及优势
·DELPHI与WORD之间的融合技术
·VC实现类似EXCEL文件夹式样的标签控制
·DELPHI自动化控制EXCEL
·从HTML文件中抽取正文的简单方案
·真正搜索高手
·LUCENE索引文件格式分析
·网页搜索引擎竞争分析
·垂直搜索引擎的选型
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·对PDF文件的文本抽取(PDFBOX处理中文PDF
·对PDF文件的文本抽取(PDFBOX处理中文PDF
免费小游戏
宠物连连看

真人美女换装

美女脱衣服

美女胴体猜猜看

调戏床上美女

黄金矿工
“耳顺”代指什么年纪?A:四十岁 B:五十岁 C:六十岁 D:七十岁
| 2008-08-17 | 首页 | 功能介绍 | 免费下载 | 产品购买 | 在线服务 | 典型应用 | 技术文章 | 联系我们 |