1. <em id="ebajw"><ol id="ebajw"></ol></em>

        <div id="ebajw"></div>

      2. 建站百科Website News

        当前位置:首页 »搜索引擎面对的挑战有哪些?

        搜索引擎面对的挑战有哪些?

        至成科技 2019-06-04 访问量(96) 评论(0)
        摘要:搜索引擎系统是最复杂的计算系统之一,当今主流搜索引擎服务商都是有财力、人力的大公司。即使有技术、人力、财力的保证,搜索引擎还是面临很多技术挑战。搜索引擎诞生后的十多年中,技术已经得到了长足的进步。
        搜索引擎系统是最复杂的计算系统之一,当今主流搜索引擎服务商都是有财力、人力的大公司。即使有技术、人力、财力的保证,搜索引擎还是面临很多技术挑战。搜索引擎诞生后的十多年中,技术已经得到了长足的进步。我们今天看到的搜索结果质量与 10 年 前相比己经好得太多了。?#36824;?#36825;还只是一个开始,搜索引擎必然还会有更多创新,提供更多、更准确的内容。



        总体来说,搜索引擎主要会面对以下几方面的挑战
         
        1.页面抓取需要快而全面

        互联网是一个动态的内容网络,每天有无数页面被更新、创建,无数用户在网站上发布内容、沟通联系,要返回最有用的内容,搜索引擎就要抓取最新的页面,但是由于页面数量巨大,搜索引擎蜘蛛更新一?#38382;?#25454;库中的页面要花很长时间,搜索引擎刚诞生?#20445;?#36825;个抓取周期往往以几个月计算,这也就是Google在 2003 年以前每个月有一次大更新的原因所在。

        现在主流搜索引擎都已经能在几天之内更新重要页面,权重高的网站上的新文件几小时甚至几分钟之内就会被收录,?#36824;?#36825;种快速收录和更新也只能局限于高权重网站,很多页面几个月不被重新抓取和更新,也是非常常见的。

        要返回最好的结果,搜索引擎也必须抓取尽量全面的页面,这?#25176;?#35201;解决很多技术问题。一些网站并不利于搜索引擎蜘蛛爬行和抓取,诸如网站链接结构的缺陷、大量使用Flash,JavaScript 脚本,或者把内容放在用户必须登录以后才能访问的部分,都增大了搜索引擎抓取内容的难度。
         
        2.海量数据存储

        一些大型网站单是一个网站就有百万千万个页面,可以想象网上所有网站的页面加起来是一个什么数据量。搜索引擎蜘蛛抓取页面后,还必须有效存储这些数据,数据结构必须合理,具备极高的扩展性,写入及访问速度要求也很高。

        除了页面数据,搜索引擎还需要存储页面之间的链接关系及大量历史数据,这样的数据量是用户无法想象的,据说 Google 有几十个数据中心,上百万台服务器,这样大规模的数据存储和访问必然存在很多技术挑战 。
         
        我们经常在搜索结果中看到,排名会没有明显原因地上下波动,甚至可能刷新一下页面,就看到不同的排名,有的时候网站数据也可能丟失。这些都可能与大规模数据存储的技术难题有关。

        3.索引处理快速有效,具可扩展性

        搜索引擎将页面数据抓取和存储后,还要进行索引处理,包括链接关系的计算、正向索引、倒排索引?#21462;?#30001;于数据库中页面数量大,进行PR 之类的迭代计算也是耗时费力的要想及时提供相关又及时的搜索结果,仅仅抓取没有用,还必须进行大量索引计算。由于随时都有新数据、新页面加入,因此索引处理也要具备很好的扩展性。
         
        4.查询处理快速准确

        查询是普通用户唯一能看到的搜索引擎工作步骤。用户在搜索框输入关键词,单击“搜索”按钮后,通常不到一秒钟就会看到搜索结果。表面最简单的过程,实际上涉及非常复杂的后台处理。在最后的查询阶段,最重要的难题是怎样在不到一秒钟的时间内,快速从几十万、几百万,甚至几千万包含搜索词的页面中,找到最合理、最相关的 1000个页面并且按照相关性、权威性排?#23567;?br />  
        5.判断用户意?#25216;?#20154;工智能

        应该?#30331;?个挑战现在的搜索引擎都已经能够比较好地解决,但判断用户意图还处在初级阶段,不同用户搜索相同的关键词,很可能是在寻找不同的东西。?#28909;?#25628;索“?#36824;?rdquo;,用户到底是想了解?#36824;?#36825;个水果,还是?#36824;?#30005;脑? 还是电影《?#36824;?#30340;信息? 没有上下文,没有对用户个人搜索习惯的了解,就完全无?#20248;?#26029;。

        搜索引擎目前正在致力于基于用户搜索习惯及历史数据的了解上,判断搜索意图,返回更相关的结果。芜湖网站建设今后搜索引擎是否能达到人工智能水平,真正了解用户搜索词的意义和目的,让我们拭目以待。
         

        网友评论

        登录后可评论,请登录

        全?#31185;?#35770;:0条

        扫描左侧二维码
        关注至成微信公众号

        西安至成信息科技有限公司  Copyright 2012-2019  xazcit.com  All rights reserved.

        Email:[email protected]     邮政编码:710016     《中华人民共和国增值电信业务经营许可证》陕B1.B2-20140011     陕ICP备12008874号-1

        联系地址:西安市经开区凤城四路西安国际企业中心B座23层06-10室    售前咨询热线:029-89390727    售后服务电话:029-89393039

        西安网站建设、网站设计制作公司-至成科技,已为众多企业提供网站建设网站制作响应式网站设计手机网站建设虚拟主机云主机服务器租用等建站解决方案。

        网络警察 12321垃圾信息举报 不良信息举报 中国文明网 西安工商
        ×
        江苏十一选五哪有玩 历史数据库 澳洲幸运10直播开奖结果 481泳坛夺金走势图 内蒙古快三一定牛形态走势图 白小姐传密2019年117 彩经网蓝球杀号 初学者怎样下围棋 贵州11选五助手app下载 qq分分彩是正规的吗 吉林快三遗漏号数据查询 上海基诺发动机装配 浙江20选5开奖号码是 湖北11选5开奖号 36期开家禽还是野兽 全国25选7