- 1、小猪外链里发表的文章仅代表作者本人的观点,与本网站立场无关。
2、小猪外链网资源分享仅为个人学习、交流之用,同时向原著作者表达敬意。
3、小猪外链网仅提供信息存储空间服务,小猪外链网信息均来源于用户自行发布,不承担任何法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,可以按照《小猪外链网文章侵权处理流程》进行处理,同时向原著作者表达敬意。
4、内容由网友自主上传,如有侵权、违规请联系邮箱616859395@qq.com进行处理。


软件测试之爬虫测试
很多同学不知道爬虫应该怎么进行测试,我也是刚接触过一点爬虫测试的小白,通过对爬虫的分析,总结了爬虫的测试方法,有其他建议的欢迎补充。
一、测试阶段
对于需要调用第三方平台(比如魔蝎)进行数据采集的流程,大家可能比较熟悉,在第三方的页面进行授权后,第三方会帮我们完成数据采集的任务,我们只需要坐等结果回调回来就行了。但是如果是要自己做爬虫,那么又是个怎样的过程呢。
其实爬虫和其它业务一样,也是有流程的,一般先触发创建任务,爬虫模块进行数据采集,采集完成后再对数据进行解析入库。对于授权爬虫,有SDK页面的也可以直接通过页面进行请求,有的就只能通过请求接口来实现了。还有一类爬虫,在后台配置好任务后会定期到网站爬取数据并更新数据库。当然还有其他很多交互逻辑,每一步都需要分析和评估。
所以我们可以先从创建任务的接口入手,把整个流程连通起来,在接口的响应中添加简单的校验,比如创建任务之后有任务编号,并且可以通过查询接口获取到该次任务的结果数据,再检验数据是否有入库、入库是否准确、是否会乱码等。从接口入手的好处是我们可以将爬虫任务进行自动化检验,检验数据是否可以创建、爬虫是否可以正常爬取、爬取的结果是否入库等。解析的逻辑、入库的准确需要关注,爬虫结果数据的入库关系到数据的分析和应用,对于数据分析来说,如果源头的数据就是错误的,那么不管分析结果如何都是没意义的了。
总结
1.接口测试,调用接口进行数据采集,测试爬虫流程;接口基本测试以及弱网络、接口安全、接口性能等。
2.针对场景,可以通过接口或者SDK进行测试,包括成功的爬取场景和失败的场景,比如无数据、无效数据。
3.解析入库测试,数据采集完成后解析和入库逻辑检验。
4.异常测试,主要针对系统间交互的处理逻辑,如失败的重试机制、服务间的容错机制等。
5.爬虫质量和效率,主要是根据整体设计和代码实现来分析爬虫的处理方式是否是高可用的。
二、线上阶段
爬虫一旦上线给其它业务方使用,可用性和可靠性是需要保证的。对爬虫来说,线上监控非常重要!不仅要保证提供出去的爬虫是可以正常跑的,还要保证当出现异常时,能够在最短的时间内解决,所以监控要从以下三方面着手:
1.通过线上跑接口脚本监控提供的接口可以正常使用,而不是等业务方连基本的接口都调不通再反馈回来再进行修复,成本就比较大了。主动调接口,判断程序是否正常,可以只进行校验接口能跑通,条件允许的话在线上跑真实数据并进行结果校验。
2.监控线上出现的异常情况,比如将创建任务失败、登录失败、数据采集失败、数据解析失败、回调失败、数据入库失败等情况实时监控并且同步邮件,收到异常情况时开发就要尽快排查是什么原因,第一时间发现并解决。
3.监控目标网站的情况,可以通过web自动化,监控目标网站是否可用、是否发生变化等。
对爬虫来说,稳定性是非常重要的,但是很多不可控因素都会导致爬虫成功率下降,我们可以通过做好监控和预防措施,当意外发生时将风险降到最低。
如需了解更多测试技术信息请关注:http://www.duoceshi.cn/深圳多测师软件与技术服务有限公司网站公告
近期本站被人为恶意注册及发布垃圾帖,每一个发帖都会经过审核,一经发现违法或垃圾帖的用户,帖子将被删除或封号,请大家共同维护互联网环境,共创美好互联网未来。
详细的发帖规则请阅读:
《小猪外链网发帖规则》
《小猪外链网最新金币规则》
注:本站严禁发布灰色违禁违法内容,如发现立刻永久封号,如开通会员的概不退款。
免责申明:本网站内容由平台入驻会员撰写,除创始人账号外,其他观点仅代表作者本人,不代表小猪外链网立场。如果内容涉及侵犯其他公司、团体的利益、请联系小猪SEO外链网客服举证删除
您的IP:18.220.244.188,2025-05-02 19:01:06,Processed in 0.52426 second(s).