1. <em id="ebajw"><ol id="ebajw"></ol></em>

        <div id="ebajw"></div>

      2. 建站百科Website News

        当前位置:首页 »蜘蛛爬行抓取的地址库和文件存储

        蜘蛛爬行抓取的地址库和文件存储

        至成科技 2019-06-04 访问量(138) 评论(0)
        摘要:为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被抓取的页面地址库中的 URL 有几个来源
        地址库

        为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被抓取的页面地址库中的 URL 有几个来源:
         


        (1) 人工录入的种子网站。

        (2) 蜘蛛抓取页面后,从 HTML 中解析出新的链接 URL 与地址库中的数据进行?#21592;齲?#22914;果是地址库中没有的网址,就存入待访问地址库。
         
        (3) 站长通过搜索引擎网页提交表格提交进来的网址。

        蜘蛛按重要?#28304;?#24453;访问地址库中提取 URL,访问并抓取页面,然后把这个 URL,从待访问地址库中?#22659;?#25918;进已访问地址库中。

        大部分主流搜索引擎都提供一个表格,让站长提交网址。?#36824;?#36825;些提交来的网址都只是存入地址库而已,是否收录还要看页面重要性如何。搜索引擎所收录的绝大部分页面是蜘蛛自己跟踪链接得到的。可以说提交页面基本上是毫无用处的,搜索引擎更?#19981;?#33258;己沿着链接发现新页面。
         
        文件存储

        搜索引擎蜘蛛抓取的数据存入原始页面芜湖网站设计数据库。其中的页面数据与?#27809;?#27983;览器得到的HTML 是完全一样的,每个URL都有一个独特的文件编号 。

        网友评论

        登录后可评论,请登录

        全?#31185;?#35770;:0条

        扫描左侧二维码
        关注至成微信公众号

        西安至成信息科技有限公司  Copyright 2012-2019  xazcit.com  All rights reserved.

        Email:[email protected]     邮政编码:710016     《中华人民共和国增?#26723;?#20449;业务经营许可证》陕B1.B2-20140011     陕ICP备12008874号-1

        联系地址:西安市经开区凤城四路西安国际企业?#34892;腂座23层06-10室    售前咨询热线:029-89390727    售后服务电话:029-89393039

        西安网站建设、网站设计制作公司-至成科技,已为众多企业提供网站建设网站制作响应式网站设计手机网站建设虚拟主机云主机服务器租用等建站解决方案。

        网络警察 12321垃圾信息举报 不良信息举报 中国文明网 西安工商
        ×
        江苏十一选五哪有玩 pk10冠军定位走势 南粤26选5最新开奖结果 手机高频彩推荐群 甘肃十一选五开奖列表 p3试机号关注金码 pk10牛牛 广东36选7开奖结果 抓码王高手论坛彩图 广西快乐十分开将结果开将结果 排列三复式投注玩法 甘肃福彩快3开奖结果 王中王一家人 北单专家推荐预测 浙江飞鱼玩法 篮球让分胜负怎么玩法