基于DrissionPage的爬虫方法

在面对一个需要大批量获取数据的任务时，如获取抖音评论、购物购车平台评分等，这部分数据除了氪金购买外，一般的做法是使用网络爬虫进行获取。但目前这些平台为了防止数据的泄露，近年来也在不断加强网站的反爬机制，因此网络爬虫在实际过程中的运用难度越来越高。网站爬虫的一般操作是:首先分析出所需数据的xpath或者正则表达来定位数据，再基于Selenium或者BeautifulSoup模拟浏览器运行、PyQuery解析和操作HTML文档，然后获取平台中商品价格、销量、地区、评论等信息，并存储于文档中。另一类则有不同思路，并非使用python模拟人类的浏览器操作，而是使用requests库直接向服务器发送请求数据包，以获取所需要的数据。由于Selenium库虽然可以操作浏览器、模拟用户行为，但使得浏览器运行 …