网易数读栏目——数据采集师实习笔试
网易数读栏目——数据采集师实习笔试
- 题目
- 分析
- 资料收集
- 结局
题目
请爬取豆瓣APP“下厨房”小组中,各分栏(厨具讨论、一人食、黑暗料理等栏目)的热门帖子及该帖子前30条评论,并对爬取内容进行词性分词和词频统计。
提交格式要求:包括所有回答和统计结果两个文件,请分别用txt文档和Excel文档保存提交。
分析
本想着直接在网页版爬取就完事儿了,但前前后后在豆瓣网页版与app版之间对比发现:豆瓣网页版虽然是可以看到“下厨房”等小组的内容的,但是只有app版会对该栏目的发布内容进行分类,即各分栏(厨具讨论、一人食、黑暗料理等)。似乎,爬取app数据才是唯一一条路。
于是乎,对我本人来说:词性分词与词频统计并不是难点,难点在于平时多数接触的是网页数据爬取,对于app的数据爬取从未接触过。
资料收集
搜索了一定资料后发现,似乎使用fiddler分析app请求是一个不错的方法。
结局
网络问题一直请求失败,我崩溃了,最终放弃了。
发布评论