两只小爬虫
冯兄推荐文学院的洪学姐,帮忙爬取旅游网站的数据用在毕业论文里,其一是出行矩阵,其二是词频统计,目标网站是马蜂窝和携程,反爬虫做的很烂,可以用Request库,还好两天加班加点把矩阵和词频统计都做出来了,学姐之前还开玩笑说做不完就毕不了业,现在应该可以毕业了:smile:
代码写了两部分,第一个代码是爬取游记链接并保存到文件,第二段代码是爬取游记文本并进行文本分析
1 | # 爬取携程的第一个代码 |
1 | # 爬取携程的第二段代码 |
统计词频的代码
1 | # 从文本中读取数据 |
这周完成的第二件事情是和两位同学做数模比赛,很巧的是我们选的也是旅游类型的赛题,做路线规划,更巧的是又是我去爬数据(请携程爸爸放过我),所以很多东西就很熟悉了,但是这份代码数据解析的部分真的烦,要做好多解析,话不多少,贴上代码还有爬取下来文件的百度云链接
1 | # Stage1 |
第二段代码进行解析,写的有点乱,没有进行优化
1 | # Stage2 |
密码: t3x7
今天好像还是母亲节……忘记给老妈打电话了……