好久没有写爬虫了,最近用Python的BeautifulSoup4、Scrapy分别对以前写的spider进行优化,发现python3.5后这些库变化了很多,遇到了许多问题,在这里做一下总结。
切换环境:
由于我在windows上安装了Python2.7和Python3.5,在PyCharm上切换环境时,即使已经在setting的interpreter里面切换了相应的版本号,但是仍需要重启PyCharm才能起作用。
另外,如果不想节外生枝,直接把系统变量PATH改掉。
#如果是python3.5.x,改成 C:\Users\Administrator\AppData\Local\Programs\Python\Python35\Scripts\;C:\Users\Administrator\AppData\Local\Programs\Python\Python35\;C:\Users\Administrator\AppData\Roaming\npm #如果是python2.7.x,改成D:\Python27\Scripts\;D:\Python27\;C:\Users\Administrator\AppData\Roaming\npm
除此之外,如果由于环境变量的切换不完全,使用pip安装各种库时,非常容易出错,建议把“\Lib\site-packages”中类似“\beautifulsoup4-4.5.1.dist-info”的信息数据删除,再重新使用pip安装。
忽略信任报错:
以下代码可以解决访问Https时不受信任SSL证书问题
import sslssl._create_default_https_context = ssl._create_unverified_context
这段时间继续深入优化我的爬虫,如果遇到其他问题再总结更新..