这篇文章不长,但是看完你肯定受益。案例一:爬取北京语言大学官网学校各机构的名字在今天我给本地化班上的《术语学》课上,我以“如何建立北京语言大学术语库”为例给同学们讲解如何设计这个术语库的架构,其中有一......
这篇文章不长,但是看完你肯定受益。
案例一:爬取北京语言大学官网学校各机构的名字
在今天我给本地化班上的《术语学》课上,我以“如何建立北京语言大学术语库”为例给同学们讲解如何设计这个术语库的架构,其中有一部分是在思维导图中列举学校所有机构的名字,如下图所示:
大家会发现,如果一个个去粘贴各个单位的名字会非常麻烦,最好能够批量添加,因为北语官网上有个这样的列表,唯一的问题是不方便直接复制:
为了给同学们展示批量添加的办法,我在课上展示了如何使用一款叫“八爪鱼”的工具。这个工具使用起来简单到令人发指。下面我展示一下这个工具的使用方法:
第一步:下载、安装并免费注册“八爪鱼”
地址:
第二步:启动八爪鱼
第六步:选中“教学单位”中的任何一项,八爪鱼自动识别出要采集的所有内容
第十步:在采集页面查看采集进度,或最小化窗口等待采集完成
第十一步:采集完成后选择“导出数据”,并以Excel表格的形式存储采集结果
第十二步:在Excel表格中查看文本并复制所有内容
第十三步:将上面的数据粘贴到思维导图中
如果你觉得这个案例还不过瘾,可以自己去试试,比如下面这个案例:
案例二:爬取教育部全部直属高校的名字和官网
教育部全部直属高校的目录在教育部的网站上可以查到:
如下图:
用八爪鱼可以获取到下面这个结果:
如果你也想试试的话,不妨现在就去下载八爪鱼。
比如把外交部官网上所有的新闻发布会中英文内容爬取下来