当python爬虫遇到url上有中文时

今天准备捣鼓个豆瓣爬书爬虫,但QQ图片20150525210658遇到了这样的URL中间有个中文,这个容易我曾经有学过爬虫知道有个,urllib.quote 这个方法可以完美解决这个问题,但是编码却不正确 转到的是 %B1%E0%B3%CC’  而豆瓣上的是 %E7%BC%96%E7%A8%8B 这让我十分疑惑,还好巡查不久便知道问题出在哪了。问题出在编码上由于windows下输入默认是gbk 编码所以转的是这个 %B1%E0%B3%CC’QQ图片20150525211132先将gbk转换为unicode然后再转换为utf-8 就可以输出 %E7%BC%96%E7%A8%8B了。完美解决这个问题。

python爬虫模拟登陆,及正则。

最近准备返回琢磨爬虫,经过网站后端稍微多点代码的历练果然对代码的理解能力强了许多。这回看了一些大大的博客资料搞懂了爬虫的基本登陆和正则。

首先爬虫的基本爬一个网站的Html

QQ图片20150521171236这是基本的帮大家回顾下,基本的爬虫原理可以google查看大神博客来学习,这里就不多做赘述。

账号模拟登入:

QQ图片20150521171542这里以知乎为例子1-11行分别是输入账号信息和爬知乎的基本HTML。 这里我们利用wireshark抓包知道想要模拟登入知乎需要提交四个信息{_xsrf , email, password, rememberme} _xsrf需要从html源码中抓取或者也可以直接在源码中查看,11-17行我们从源码中抓取了_xsrf。接着输入知乎的登录界面的url,然后输入头部信息和需要post的四个信息仔细研究源码就完成了基本的登录。