A.数据分析
B.数据处理
C.数据采集
D.数据可视化
第1题
B、网络爬虫被广泛用于互联网搜索引擎或其他类似网站
C、传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列直到满足系统的一定停止条件
D、目前互联网上的信息分类大多数都是人工完成的
第2题
B、有些网络爬虫能够从网站抓取内容聚合起来
C、有些网络爬虫甚至能发动DDos攻击、发送垃圾邮件等
D、隐藏在表单后的信息无法被网络爬虫发现
第3题
B、通用网络爬虫适用于为搜索引擎搜索广泛的主题,有较强的应用价值。
C、聚焦爬虫根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。
D、增量式爬虫在需要的时候爬行新产生或发生更新的页面,并重新下载所有页面
第4题
B、根据某种抓取策略爬行新发现的URL,如此重复下去
C、爬虫程序会抓取所有网页,以保证搜索正确性
D、对于商业搜索引擎来说,分布式爬虫是必须采用的技术
第5题
B、爬虫程序会抓取所有网页,以保证搜索正确性
C、根据某种抓取策略爬行新发现的URL,如此重复下去
D、对于商业搜索引擎来说,分布式爬虫是必须采用的技术
第8题
A一个网站可以放多个不同robots文件
Brobots文件不可以用xml格式命名
Cdisallow用来描述不希望被访问到的一个URL
Drobots文件可以放在任何位置
第10题
Arobots.txt是搜索引擎中访问网站的时候要查看的第一个文件
Brobots.txt文件告诉蜘蛛程序在服务器上哪些文件不要被收录
Crobots文件不可以用xml格式命名
D一个网站可以放多个不同robots文件
为了保护您的账号安全,请在“上学吧”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!