当前位置:首页 > 新游发布 > 正文

巧用“八爪鱼”批量爬取网上的信息

这篇文章不长,但是看完你肯定受益。案例一:爬取北京语言大学官网学校各机构的名字在今天我给本地化班上的《术语学》课上,我以“如何建立北京语言大学术语库”为例给同学们讲解如何设计这个术语库的架构,其中有一部分是在思维导图中列举学校所有机构的名字,如下图所示:大家会发现,如果一个个去粘贴各个单位的名字会非...

这篇文章不长,但是看完你肯定受益。案例一:爬取北京语言大学官网学校各机构的名字在今天我给本地化班上的《术语学》课上,我以“如何建立北京语言大学术语库”为例给同学们讲解如何设计这个术语库的架构,其中有一......

这篇文章不长,但是看完你肯定受益。

案例一:爬取北京语言大学官网学校各机构的名字

在今天我给本地化班上的《术语学》课上,我以“如何建立北京语言大学术语库”为例给同学们讲解如何设计这个术语库的架构,其中有一部分是在思维导图中列举学校所有机构的名字,如下图所示:

大家会发现,如果一个个去粘贴各个单位的名字会非常麻烦,最好能够批量添加,因为北语官网上有个这样的列表,唯一的问题是不方便直接复制:

为了给同学们展示批量添加的办法,我在课上展示了如何使用一款叫“八爪鱼”的工具。这个工具使用起来简单到令人发指。下面我展示一下这个工具的使用方法:

第一步:下载、安装并免费注册“八爪鱼”

地址:

第二步:启动八爪鱼

第六步:选中“教学单位”中的任何一项,八爪鱼自动识别出要采集的所有内容

第十步:在采集页面查看采集进度,或最小化窗口等待采集完成

第十一步:采集完成后选择“导出数据”,并以Excel表格的形式存储采集结果

第十二步:在Excel表格中查看文本并复制所有内容

第十三步:将上面的数据粘贴到思维导图中

如果你觉得这个案例还不过瘾,可以自己去试试,比如下面这个案例:

案例二:爬取教育部全部直属高校的名字和官网

教育部全部直属高校的目录在教育部的网站上可以查到:

如下图:

用八爪鱼可以获取到下面这个结果:

如果你也想试试的话,不妨现在就去下载八爪鱼。

比如把外交部官网上所有的新闻发布会中英文内容爬取下来

最新文章