首页 > Python技术利用Python控制PHP采集页面

利用Python控制PHP采集页面

Python技术 blzxadmin179 5年前 (11-14) 次浏览已收录暂无评论扫描二维码

最近在网站源码上添加PHP采集功能在做采集时老是报Internal Server Error错误，通过优化代码也没有找到好的解决方法。

也就时不时要去刷新页面很是麻烦，于是想到使用Python来监控采集

简单实现方法如下：

from splinter import Browser
import time


def toget(b, p):
    if p > 2238:
        print('全部采集完成')
        exit()
    url = 'http://www.chid.com/index/cai/getword/p/' + str(p) + '.html'
    browser.visit(url)
    if browser.is_text_present('Internal Server Error'):
        print("采集%s页面报Internal Server Error,等待10秒后再次请求！" % url)
        time.sleep(10)
        toget(b, p)
    elif browser.is_text_present('采集完成当前页面'):
        print("采集%s页面成功" % url)
        p = p + 1
        toget(b, p)

browser = Browser("chrome")
#第二个参数是采集的页码数
toget(browser, 11)

效果截图：