February 16, 2017

python scrapy爬虫练手

简介

初步了解和实践了一下用python写个爬虫,有现成的库,学起来的方便。

用的爬虫框架是:scrapy 官网链接

参考的网页是:Segmentfault.com的这篇文章

我的代码存放在:GitHub link

新增加的技能点

基本了解scrapy的用法,爬虫的最基本的思路

python 3的语法里,print是一定要有括号的

xpath基础知识掌握和应用,简单的抓取用xpath基本够了,不过以后要来高精专的字符提取,还是得精通正则

python yield关键字的了解,它通常会出现在某个generator函数里,当这个generator函数执行的时候,遇到yield表达式,......