通用搜索引擎的缺点以及社会化搜索引擎的分析

搜索引擎的缺点—搜索的精度越来越低

随着网页的海量增加,现有的“关键词”搜索技术的精度每况逾下,用户查询所需时间越来越长,显然,技术已经远远落后于需求

用户对信息的检索,造就了google帝国,但是随着信息的指数式增长,量变终于造成了质变,关键词搜索模式开始遇到了一个致命的问题——搜索的精度问题无法解决

Google的用户平均要花费11分钟才能找到自己需要的信息,与此同时他们还必须过滤掉其中夹杂的大量无关的内容

70%被调查的网民都或多或少的有过搜索疲劳——即认为搜索结果不能满足他们的需要或者很难适合找到自己需要的结果。

搜索引擎虽然能很轻松的帮我们找到海量的信息,但是我们却很难从中找到自己想要的。

我们需要有技巧和能力才能从海量数据中找出自己想要的。这种技巧和能力表现在:是否熟练使用搜索技巧、是否能通过搜索结果中展示的内容判断目标网站是否有效等等。但是对于普通的搜索用户来说,他们只会在搜索框里输入他们想要的东西然后点击搜索,于是展示在他们面前的就是“海量数据”,如果正确使用搜索命令来过滤和准确表述目标需求正是这些普通用户所欠缺的,而问题是搜索引擎的使用者绝大部分是这样的“普通用户”。

通用搜索引擎在为提高搜索结果质量做出的努力

1:整合搜索

谷歌在逐步完善它的通用搜索,先后将新闻、图片、音频、视频等信息整合呈现在搜索结果中

整合搜索也体现了搜索引擎的智能化发展方向,因为搜索结果整合的前提是基于对关键字的职能分析判断的。所以,如果用户在Google中输入的关键字是“风景”,Google的理解是用户想查找“风景”方面的图片,而不是关于“风景”的介绍,所以在结果中添加图片搜索的结果,从而实现搜索的智能化。

如今Google的整合搜索功能已经很完善了,一般情况下,在Google中搜索任何关键字,返回的结果都不会仅仅是网页搜索的结果,可能还有新闻搜索、博客搜索、图片搜索、视频搜索、股票财经搜索、学术搜索、文件搜索、天气搜索以及最近推出的电影搜索等

总之,Google的整合搜索与雅虎的全能搜索不同,雅虎全能搜是无论用户需不需要,都一股脑儿将资讯、博客、图片的搜索结果同时放在一个页面,所以,很凌乱很复杂。而Google是通过关键字的分析来判别用户的搜索意图,从而嵌入相关产品的搜索结果,这点正是我所看重的。

2:高级搜索

高级搜索允许用户从多个角度(包括关键词位置、文件格式、指定网站、时间和语言等等)来设置筛选条件以提高查准率。

3:偏好搜索

比如对搜索语言、界面、结果显示条数、结果是否在新窗口打开、搜索建议等等方面的设置。使用偏好是提高搜索引擎黏性、留住部分高端用户的举措之一

4:相关搜索

有时候是因为选择的查询词不恰当。您可以通过参考别人是怎么搜的,来获得一些启发。而“相关搜索”,提供了这样的功能。相关搜索是其他和您有相似搜索需求的用户所选择的查询词,根据这些查询词被搜索的热门程度以及与您所选择的查询词之间的相关性,由系统自动判断后产生的。它排布在搜索结果页的左侧和下方,点击相关搜索词可以直接获得这些词的搜索结果。

5:问答模块

很多互联网公司认识到单纯得靠关键字来提供用户想要的信息的搜索已经远远不能满足用户日益增长的对高质量信息的需求了,如果你想要找关于《建国大业》的一些信息那么你只要在google或者百度里输入“建国大业”就可以找到你要的信息了,但是如果你想知道建国大业在北京朝阳影院的票价是多少的时候搜索引擎就爱莫能助了,这时候就需要用到人了。于是聪明的百度推出了百度知道,弥补了搜索引擎在用户深度信息需求方面的空缺。

虽然搜索引擎进行了上述改进但还是存在以下缺点

1:搜索引擎在处理垃圾信息方面还是力不从心,大量的重复的以及伪原创的信息铺天盖地,这些都直接导致了用户的搜索结果受到了严重的污染

2:搜索精度过低

在一些通用的关键字搜索方面搜索引擎已经做得很好了,比如你搜索《建国大业》返回的肯定全部都是建国大业的信息。但是当你搜索一些要求比较高的关键字的时候却找不到你想要的信息了。

3:搜索引擎无法判断搜索结果中的目标网站的质量

例如你在找一篇论文,但是搜索引擎只会按照PR,按照排名算法去根据文章的结构判断哪些网页的质量比较高哪些比较低。而不会分析论文究竟是乱说一通还是非常详细精确的描述了问题。

4:百度知道等问答模块得到的答案一般都是从其他网站copy过来的,或者直接搜索得到的

并不能完全满足提问者的需求。尤其是一些高要求的专业性较强的问题基本上得不到想要的答案。很多人在上面回答问题的动机就是为了得到积分,而这些积分的实用性也不太大,所以没有人会花几十分钟去回答你这个问题

其他互联网产品在“为用户提供他们想要的信息”方面做出的努力

1:元搜索引擎

元搜索引擎(Metasearch Engine),是一种调用其它独立搜索引擎的引擎,亦称“搜索引擎之母(The mother of searce engines)”。在这里,“元”(Meta)为“总的”、“超越”之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。

元搜索引擎是用户同时利用多引擎进行网络搜索的中介。

元搜索的优点:

1:含盖较多的搜索资源,能够在尽可能短的时间内提供相对全面、准确的检索结果

2:省时。不用就同一搜索一次次地访问所选定的搜索引擎

缺点:

1:在检索结果上,元搜索引擎只能返回十几、数十条“相关度”较高的结果,大量可能有价值的源搜索引擎的检索结果被忽视,影响检索结果的全面性。

2:元搜索并没有解决通用搜索引擎上面所提到的那些缺点

2:集成搜索引擎

集成搜索引擎( All-in-One Search Page),亦称为“多引擎同步检索系统 ”是在一个WWW页面上链接若干种独立的搜索引擎,检索时需点选或指定搜索引擎,一次检索输入,多引擎同时搜索,搜索结果由各搜索引擎分别以不同页面提交,其实质是利用网站链接技术形成的搜索引擎集合,而并非真正意义上的搜索引擎。

3:垂直搜索引擎

垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。

做得比较好的有搜房,职位搜索等搜索引擎

但是:这些只是搜索通用搜索引擎在专业性信息方面的一个补充,并没有对通用搜索引擎在文本搜索领域的缺点作出贡献,当然他弥补了通用搜索引擎在专业领域的不足。

搜索引擎在面对这些问题的时候就真的无能为力了吗?

是的!至少到目前为止这些问题还一直没有得到解决。

当机器无能为力的时候我们便求助于大脑。

社会化搜索引擎—-搜索也需要互动

以关键词、链接为核心的搜索引擎面对用户需求已经力不从心,意识到罗列海量的信息最终会归于平庸和同质化,因为对于用户而言,只要一个最好的答案。于是,搜索市场出现了一种新的趋势或者统治话语权,那就是与基于计算机算法搜索技术对应的人机互动的社会化搜索。

在web2.0时代,体现的是一种搜索的去中心化,是计算机算法与人类能动性和参与精神的综合,不仅仅是搜索和社区的简单叠加。如果说机器算法为搜索结果提供了量的保证,那么用户搜索行为和爱好就为结果提供了质的相关,社会化搜索是对用户搜索结果的重新排序,结果是使搜索结果与用户的兴趣更加匹配

搜索引擎从关键字到综合搜索引擎的元搜索到搜索的2.0时代,发展的最终轨迹都是为了提供有针对性的合适的搜索结果,个性化的搜索体验。

通用搜索引擎的社会化搜索

1:google search wiki

Google推出了一个新的服务 SearchWiki,它可以让你对搜索结果按照自己喜好进行修改。比如你可以把某个某个你喜欢的搜索结果一道顶部或者添加新的网址,你也可以给某个搜索结果发表评论,删除你认为不对的搜索结果。以后你搜索同样关键字的时候,这些修改都会出现。目前 SearchWiki 只有登陆用户才能使用,Google 并且会把用户的修改结果保存到其 Google 账号下.

我们可以通过点击 "See all notes for this SearchWiki" (查看该关键字 SearchWiki 的留言)这个链接来看大家对搜索结果的看法。

SearchWiki 的意思应该是用户可以对每个关键字都可以评价,重新排名等,其实这也相当于也是一种 Wiki,搜索关键字的 Wiki.

Google这样做的好处是搜索引擎的用户不再是孤立的了,这些用户之间可以互相对搜索结果产生影响,而且还能对搜索结果进行评价,这样搜索引擎在去除垃圾信息方面应该就会有很大进展。不过现在好像用户只能对自己的搜索结果进行控制,并不能影响到其他的用户的搜索结果。

一些猜想:

Google在未来将可能通过你的Gmail去辨别你的好友,并利用他们的搜索历史记录去影响与你及你的社交网络里的人员有关的 Google搜索结果。一开始这种关系网会基于Gmail联系人,但也不排除Google会直接从第三方社交网站(比如MySpace、Facebook等)里导 入用户的好友信息。一些基于Google搜索引擎技术的第三方网站因为社会化搜索特性很可能使它们重排搜索结果

2:百度贴吧,百度知道,百度百科

百度的战略更加明显,百度知道、百度贴吧这种具有粘性的社区形式的“圈子”让这些搜索用户形成一个巨大的社交网络,通过这些关系来弥补搜索引擎的不足。

3:AnooX

AnooX的最初搜索结果是有搜索机器人生成的,在此基础上,根据“每个关键词一人一票”的原则,搜索的结果将由投票结果而改变。这样一来对比机器生成的结果,这种结果更加精确。(创意是不错,可是有没有人会去费事投这个票呢?)但是经过几年的运作anoox现在的全球排名是28000名,也就是说访问量还可以

4:Gravee

Gravee其实跟Anoox差不多,也是在搜索结果进行投票,只不过用户还可以为搜索结果添加标签

Gravee给人印象最深刻的是它的商业模式或者盈利模式: Gravee允许出现在搜索结果页面上的网站分享他的广告收入。根据gravee的广告分享计划,当一个用户点击了Gravee上的广告后,由此所产生的收入的70%分配给搜索结果页面上的10个网站,即每个网站分到7%的收入。如果你的网站加入Gravee联盟,即在你的网站安装了Gravee的搜索框, 那么由你的网站带来的流量的收入的35%就归你所有!

社会化搜索更大的困难在于用户忠诚度的维持

人力搜索

其实人力搜索应该归为社会化搜索的一部分,但是我更愿意把他当做是社会化搜索的过渡阶段。

所谓人力搜索即人参与到搜索中来,协助机器一起完成搜索任务。常见的模式有如下几种

1:chacha 纯粹的人力搜索

Chacha 之前的模式是,你输入要搜索的关键字,然后就会有相关专业的人工联系你,问你究竟是想要哪些信息。然后这位向导跟据你提供的信息去互联网上找到你要的信息然后把这些信息给你。

很显然,这样用户的确可以得到很好的搜索结果。但是在面对庞大的搜索请求面前,这些人工便显得力不从心了。所以chacha也放弃了这种模式,而改成提供手机问答服务了

2:Mahalo

Mahalo通过编辑预先将一些搜索结果进行人工编辑,加上一些简单的描述,并在页面上集成资讯搜索的结果 以及图片搜索的结果 等等…也就相当于前面的整合搜索。并且对这些搜索结果进行编辑(将垃圾结果删除,将高质量连接顶到最顶上)。再在这些页面上加上其他的一些描述以及连接。感觉上有点像wiki+整合搜索+人工搜索结果排序 的味道

这样做得好处是:大大提高了搜索结果的准确度与质量,同时也可以人为的为这些结果添加一些你可能感兴趣的相关链接在上面,所以说这样的搜索结果应该是非常的酷。

但是人工能够编辑的页面数量实在是有限,并且既然是人在操作就有可能存在一些人并没有花多少心思在这个页面上,致使页面的质量低下

而且有很多信息是经常更新的,而人工干扰的搜索结果一般是很少去更新的,所以就致使搜索结果页面过期的问题

人力搜索的未来

很多人强调人工比软件做得更好,有三个理由:

1:垃圾信息控制:即使是最狡猾的垃圾信息,人类也可以很容易辨别。

2:重复信息控制:网上有大量重复信息,这很浪费时间。

3:歧异辨别:计算机即使使用非常昂贵和复杂的程序也未必能分清"Apple"到底指的是一种水果,还是一家公司。

两个反面理由:

1:你很难说服人们放弃 Google,除非你在所有搜索领域都做得比 Google 好,只在某些话题上提供比 Google 好的结果并不起作用。

2:作为通用站点,你未必赢得用户,如果用户需要去一些他感兴趣的某个领域的站点,他会通过 Google 找到这个站点。

相关文章

  • 没有相关文章

Leave a Reply