chapter 14 数据获取到话题提取: 爬虫(Requests/ bs4/ RegExp)

简单页面的爬取

查询User agent

熟悉网站结构

爬取并保存到本地

稍微复杂的爬虫

上面的例子其实降低了我们的效率,单个网址我们直接用浏览器看反而更高效。

我们希望看到一个列表(部门,标题,链接),大致判断感兴趣的内容,再点开看细节。怎么获得这样的列表呢?

目标 最新政策 list 的爬取 url="http://www.gov.cn/zhengce/zuixin.htm"

正则表达式简介

使用 BeautiSoup 进行 html 解析

python的两个解析html的库: lxml 和 BeautifulSoup。

爬取新闻目录页面并保存为csv

对文本数据进行话题提取

当爬取的内容很多时,看着很花时间。能否快速了解几万字的核心内容呢?

下载大量内容

使用 潜在狄利克雷分布 进行话题提取

潜在狄利克雷分布(Latent Dirichlet Allocation, LDA)是基于不同的词语共同出现的频率来进行分组的模型。

进一步学习

爬虫:推荐 Scrapy,是目前最常用的用于开发爬虫的工具之一。

自然语言处理:循环神经网络 RNN。