在面对一个需要大批量获取数据的任务时,如获取抖音评论、购物购车平台评分等,这部分数据除了氪金购买外,一般的做法是使用网络爬虫进行获取。但目前这些平台为了防止数据的泄露,近年来也在不断加强网站的反爬机制,因此网络爬虫在实际过程中的运用难度越来越高。 网站爬虫的一般操作是:首先分析出所需数据的xpath或者正则表达来定位数据,再基于Selenium或者BeautifulSoup模拟浏览器运行、PyQuery解析和操作HTML文档,然后获取平台中商品价格、销量、地区、评论等信息,并存储于文档中。另一类则有不同思路,并非使用python模拟人类的浏览器操作,而是使用requests库直接向服务器发送请求数据包,以获取所需要的数据。 由于Selenium库虽然可以操作浏览器、模拟用户行为,但使得浏览器运行 …