经产观察
IT资讯
IT产业动态
业界
网站运营
站长资讯
互联网
国际互联网新闻
国内互联网新闻
通信行业
通信设备
通信运营商
消费电子
数码
家电
国内互联网新闻

爬虫大作业(2017年科技界发生了哪些变化——爬取17年腾讯新闻科技板块下的所有

作者:habao 来源: 日期:2019-11-3 23:47:41 人气:

  本次作业是通过爬取腾讯新闻科技板块下2017年所有的新闻数据来分析17年科技界都发生了哪些热门事件,通过词云分析得出17年度科技界最热的词语。

  2、但由于具体哪一天到底有几页新闻列表页是不确定的(如下图,有些一天的新闻列表页只有一页,有些两页或者三页。由于三页的情况比较少,所以我只考虑了一页两页的情况)

  通过观察网页源代码可知,当某天新闻列表页存在第二页的情况下,第二页新闻列表页网址是在第一页网址基础上追加“_2来表示的,如下图

  3、在爬取到了17年全天的新闻列表页的情况下,接下来就是爬取具体新闻列表页的所有新闻详情的网址链接了

  可以看到,新闻详情页链接放在li标签里的a标签下,所以只需爬取a标签的href属性值,代码如下:

  通过查看源代码,可知新闻正文放在”Cnt-Main-Article-QQ“里的P标签下,如图

  但由于腾讯新闻种类繁多,有些是图集新闻,没有正文内容,如果还按照有正文的方式爬取便会出错,而且有些新闻代码风格也不一致,正文放的DIV名字不相同,所以要区别对待爬取,代码如下:

  5、在爬取新闻正文之后,还要注意把内容保存起来,这里我把爬取到的新闻正文内容保存到TechNews.txt里。代码如下:

  7、由词云图可以看出,17年科技界比较火的就是大数据,人工智能,物联网,区块链等等。其中也可以看出,腾讯,谷歌,阿里巴巴,梦见放炮微软,谷歌这几家公司几乎是占据着科技新闻的头条,可以是科技界的大哥大了

  

推荐文章