爬虫技术技术知多少 - 问答 - 中暑虚脱中暑虚脱 - Powered by BBS!NT

我的中心

中暑虚脱 » 常识 » 预防 » 爬虫技术技术知多少

返回列表

发新话题

回复该主题

查看: 18\|回复: 0	爬虫技术技术知多少 [复制链接]

发送短消息 UID 222 精华 0 查看公共资料搜索主题搜索帖子 TUhjnbcbe TUhjnbcbe 组别乞丐生日帖子-178 积分-1957 性别注册时间2020-03-27	1^# 字体大小: t T 发表于 2021-06-21 22:57 \|只看楼主白癜风的治疗与控制 http://m.39.net/pf/a_6020116.html 导读：网络爬虫是一种很好的自动采集数据的通用手段。本文将会对爬虫的类型进行介绍。作者：赵国生王健来源：大数据DT（ID：hzdashuju）聚焦网络爬虫是“面向特定主题需求”的一种爬虫程序，而通用网络爬虫则是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分，主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。增量抓取意即针对某个站点的数据进行抓取，当网站的新增数据或者该站点的数据发生变化后，自动地抓取它新增的或者变化后的数据。Web页面按存在方式可以分为表层网页（surfaceWeb）和深层网页（deepWeb，也称invisibleWebpages或hiddenWeb）。表层网页是指传统搜索引擎可以索引的页面，即以超链接可以到达的静态网页为主来构成的Web页面。深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的Web页面。01聚焦爬虫技术聚焦网络爬虫（focusedcrawler）也就是主题网络爬虫。聚焦爬虫技术增加了链接评价和内容评价模块，其爬行策略实现要点就是评价页面内容以及链接的重要性。基于链接评价的爬行策略，主要是以Web页面作为半结构化文档，其中拥有很多结构信息可用于评价链接重要性。还有一个是利用Web结构来评价链接价值的方法，也就是HITS法，其通过计算每个访问页面的Authority权重和Hub权重来决定链接访问顺序。而基于内容评价的爬行策略，主要是将与文本相似的计算法加以应用，提出Fish-Search算法，把用户输入查询词当作主题，在算法的进一步改进下，通过Shark-Search算法就能利用空间向量模型来计算页面和主题相关度大小。面向主题爬虫，面向需求爬虫：会针对某种特定的内容去爬取信息，而且会保证信息和需求尽可能相关。一个简单的聚焦爬虫使用方法的示例如下所示。一个简单的爬取图片的聚焦爬虫 importurllib.request#爬虫专用的包urllib，不同版本的Python需要下载不同的爬虫专用包importre#正则用来规律爬取keyname=""#想要爬取的内容key=urllib.request.quote(keyname)#需要将你输入的keyname解码，从而让计算机读懂foriinrange(0,5)(0,5)数字可以自己设置，是淘宝某产品的页数url="
	分享转发

	TOP

上一主题| 下一主题

发新话题

回复该主题