Python 爬虫之 DrissionPage

848 字

4 分钟

Python 爬虫之 DrissionPage

2024-03-15

💻Code

/

🕷️Python

DrissionPage 是什么#

DrissionPage 是一个基于 python 的网页自动化工具。它既能控制浏览器，也能收发数据包，还能把两者合而为一。可兼顾浏览器自动化的便利性和 requests 的高效率。它功能强大，内置无数人性化设计和便捷功能。它的语法简洁而优雅，代码量少，对新手友好。

用 requests 做数据采集面对要登录的网站时，要分析数据包、JS 源码，构造复杂的请求，往往还要应付验证码、JS 混淆、签名参数等反爬手段，门槛较高，开发效率不高。使用浏览器，可以很大程度上绕过这些坑，但浏览器运行效率不高。

因此，这个库设计初衷，是将它们合而为一，同时实现“写得快”和“跑得快”。能够在不同需要时切换相应模式，并提供一种人性化的使用方法，提高开发和运行效率。
除了合并两者，本库还以网页为单位封装了常用功能，提供非常简便的操作和语句，使用户可减少考虑细节，专注功能实现。以简单的方式实现强大的功能，使代码更优雅。

以前的版本是对 selenium 进行重新封装实现的。从 3.0 开始，作者另起炉灶，对底层进行了重新开发，摆脱对 selenium 的依赖，增强了功能，提升了运行效率。

示例代码#

1
from DrissionPage import ChromiumPage
2

3
# 创建页面对象，并启动或接管浏览器
4
page = ChromiumPage()
5
# 跳转到登录页面
6
page.get('https://gitee.com/login')
7

8
# 定位到账号文本框，获取文本框元素
9
ele = page.ele('#user_login')
10
# 输入对文本框输入账号
11
ele.input('您的账号')
12
# 定位到密码文本框并输入密码
13
page.ele('#user_password').input('您的密码')
14
# 点击登录按钮
15
page.ele('@value=登 录').click()

应用实例#

淘宝商品截图#

1
# 部分代码
2
page = ChromiumPage(co)
3
page.get(img_url,retry=1, interval=1, timeout=1.5)
4

5
img = page('tag:img')
6
img.get_screenshot(path='./', name='temp_img.jpg')

未来工厂订单数据爬取#

1
from DrissionPage import SessionPage, SessionOptions # pip install DrissionPage
2
from DrissionPage import ChromiumPage
3
from DrissionPage import ChromiumOptions
4
import re
5
import time
6

7
co = ChromiumOptions(read_file=False)  # 不读取文件方式新建配置对象
8

9
co.set_browser_path(r'C:\Program Files\Google\Chrome\Application\chrome.exe')  # 设置浏览器路径
10
# co.set_argument('--headless')  # 设置无头模式 隐藏浏览器界面
11
# 设置配置文件路径
12
co.set_user_data_path(r'C:\Users\weiek\AppData\Local\Google\Chrome\User Data')
13

14

15
url_base = "https://www.wenext.cn/index.php?route=account/order&filter_time=6&page="
16

17
page = ChromiumPage(co)
18

19

20
# cp = ChromiumPage(co)
21

22
for i in range(1, 20):
23
    print(i)
24
    url = url_base + str(i)
25
    page.get(url)
26
    # 等待页面加载完成
27
    page.wait.doc_loaded()
28
    # 从 page.html 正则匹配订单号 订单编号 86027961
29
    result_num = re.findall(r'订单编号 (\d+)', page.html)
30
    # print(result_num)
31
    try:
32
        for i in result_num:
33
            page.get('https://www.wenext.cn/index.php?route=account/order/info&order_id=' + i)
34
            page.wait.doc_loaded()
35
            # print(page.html)
36
            # 正则匹配订单金额 余额(158.00) 余额(158)
37
            result_money = re.findall(r'余额\((.*?)\)', page.html)[0]
38
            print(result_money)
39
            # time.sleep(10)
40
            # 正则匹预计在2024-03-17前发货
41
            result_time1 = re.findall(r'预计在(.*?)前发货', page.html)[0].replace('23:00:00', ' ')
42
            print(result_time1)
43

44
            # 正则匹配                   <td class="order-body-time">2024-03-10</td>
45
    # <td class="order-body-time">2024-03-10</td>
46
    # <td class="order-body-time">已发货，待签收</td>
47
            result_time2_list = re.findall(r'<td class="order-body-time">(.*?)</td>', page.html, re.S)
48
            result_time2 = '0'
49
            for j in result_time2_list:
50
                if j == '已发货，待签收':
51
                    # 获取索引
52
                    index = result_time2_list.index(j)
53
                    # 获取发货时间
54
                    result_time2 = result_time2_list[index - 1]
55
            if result_time2 != '0':
56
                with open('wenext.txt', 'a') as f:
57
                    # 写入文件 订单号 订单金额 预计发货时间  实际发货时间
58
                    f.write(i + '  ' + result_money + '  ' + result_time1 + '  ' + result_time2 + '    '+'\n')
59
            print(result_time2)
60
            # time.sleep(1)
61
    except:
62
        with open('wenexterr.txt', 'a') as f:
63
            f.write(i + '  ' + 'error' + '  ' + 'error' + '  ' + 'error' + '    '+'\n')