发布时间:2020-04-28 17: 02: 09
Internet Download Manager(简称IDM)是一款能和多个浏览器相互补充的强大的下载工具,抓取视频,极速下载等功能都不在话下。但小编最近由于学习的需求,有一个其他的需求,就是要爬一下某些会议的论文集,但和那些so easy的网络爬虫不同的是,小编还需要对提取出的数据进行过滤,这就大大加大了工作量。但没关系,利用IDM,这个问题就能解决。
第一步:点击IDM下载器的站点抓取,填入文件网址,并按照你自己的要求方案模板(这个就根据你自己所要下载的文件类型来选择就可以啦,小编想下载的是这网页上所有的pdf文件)。
图1:抓取站点设置
第二步:选择文件所存储的目录,默认的是按分类分别下载(如果你需要爬虫的数据不是很多,其实可以将所有数据保存到同一目录中)。
图2:文件保存方式设置
第三步:设置探索器。这步有一个决定爬虫时间的很重要的选项-选择你要探索的链接深度。拿自己的链接举例,小编需要的pdf最多只需要跳转两次链接就可以下载,因此只需要探索深度为2的链接就足够啦。大家可以根据自己的需求来设置。
图3:设置探索器
第四步:设置文件过滤器。过滤器功能出现啦!由于小编需要爬的是论文都是pdf形式的,因此只需要设置过滤器为pdf类型的文件就可以了。大家可以根据自己的需要自行选择!
如果已有的IDM的过滤器无法满足要求的话可以选择添加过滤器—添加来自定义的创建所需要的过滤内容。
图4:设置过滤器
第五步:开始爬虫啦,简直美滋滋!
图5:论文抓取界面
最后给大家看一个完成效果吧,爬好的论文都在所选取的文件夹中啦,非常方便快捷。
图6:完成效果图
小编自己的感受是IDM是非常容易上手的下载软件,利用这款软件可以高速并行的下载论文合集,再也不用一篇一篇的手动下载了,这简直是广大学生党的福音!想了解更多IDM的使用技巧,欢迎访问IDM中文网站!
展开阅读全文
︾