最近在网站源码上添加PHP采集功能在做采集时老是报Internal Server Error错误,通过优化代码也没有找到好的解决方法。
也就时不时要去刷新页面很是麻烦,于是想到使用Python来监控采集
简单实现方法如下:
from splinter import Browser import time def toget(b, p): if p > 2238: print('全部采集完成') exit() url = 'http://www.chid.com/index/cai/getword/p/' + str(p) + '.html' browser.visit(url) if browser.is_text_present('Internal Server Error'): print("采集%s页面报Internal Server Error,等待10秒后再次请求!" % url) time.sleep(10) toget(b, p) elif browser.is_text_present('采集完成当前页面'): print("采集%s页面成功" % url) p = p + 1 toget(b, p) browser = Browser("chrome") #第二个参数是采集的页码数 toget(browser, 11)
效果截图:
如果本文对你有帮助,欢迎打赏本站