最近在网站源码上添加PHP采集功能在做采集时老是报Internal Server Error错误,通过优化代码也没有找到好的解决方法。
也就时不时要去刷新页面很是麻烦,于是想到使用Python来监控采集
简单实现方法如下:
from splinter import Browser
import time
def toget(b, p):
if p > 2238:
print('全部采集完成')
exit()
url = 'http://www.chid.com/index/cai/getword/p/' + str(p) + '.html'
browser.visit(url)
if browser.is_text_present('Internal Server Error'):
print("采集%s页面报Internal Server Error,等待10秒后再次请求!" % url)
time.sleep(10)
toget(b, p)
elif browser.is_text_present('采集完成当前页面'):
print("采集%s页面成功" % url)
p = p + 1
toget(b, p)
browser = Browser("chrome")
#第二个参数是采集的页码数
toget(browser, 11)效果截图:

如果本文对你有帮助,欢迎打赏本站

支付宝扫码打赏
微信扫码打赏
