|
使用实例分析5--163社区论坛帖子
学会了下面这个比较复杂一些的例子,以后你就可以对这个软件运用自如了,以后想抓什么网站就抓什么网站。
基本操作:
查看网页源代码:点击IE浏览器的查看,再点“源文件”。 网页编辑软件Dreamweaver的使用:下载安装这个软件,打开软件后点击
三个按钮中最中间的这个,软件界面就分成了两大块,上面显示网页代码,下面显示网页的大致样子。我们经常要把网页源代码粘贴到Dreamweaver的代码区域,然后就可以看到网页的样子。学会这个,主要是为了找到信息的标识。
1.点击新建任务这个按钮,点击后会出现如下界面:
任务名称:随便起个名字,就叫163社区论坛帖子吧 由于这个网站的网址会自动转向,比如 http://b3.club.163.com/viewArticleByWWW.m?boardId=drivecar&articleId=drivecar_105b488dfea37e0&boardOffset=0 打开IE,访问这个页面,网址会自动变为http://b5.club.163.com/viewArticleByWWW.m?articleId=drivecar_105b488dfea37e0&boardId=drivecar 为了确保能抓到内容,我们最好选中“自动转向”。 有的网页是框架网页,为了抓取框架中的内容,需要选中“是否抓取框架网页”
任务起始地址:随便找了两个论坛板块:汽车天地、各行各业。把起始地址添加进去。
由于帖子回复数是在顶层页面中才能看到的,在帖子内容页面看不到,所以需要设置顶层页面。 以http://b3.club.163.com/viewHotArticles.m?boardId=car为例,分隔帖子标题、回复的字符串是<tr
bgcolor="#f2f2f2">,所以信息列表循环标志就是<tr
bgcolor="#f2f2f2">。 然后找到回复次数的前后标识(回复次数前后固定不变的那段代码),名称取“回复次数”,添加进去。
ok,这部分就设置好了。
2.切换到“采集对象网址标识”选项卡,设置标识
采集对象所在网页网址标识:这里的设置和实例1、实例2原理一样,请参照。
下页网址关键字:就是viewHotArticles.m?
,注意间隔一栏此时必须填0
3.切换到“采集对象前后标识”选项卡
这里的设置和设置实例1、实例2原理一样,不多说了,请参照。
唯一需要特别注意的是“信息循环间隔标识”一栏,由于帖子内容往往有很多个回复,要把这些回帖的内容也抓到就需要设置这栏。以http://b3.club.163.com/viewArticleByWWW.m?boardId=racecar&articleId=racecar_104955f79d6326f&boardOffset=0 为例,分隔帖子内容的字符串是<table width="660" height="25" border="0"
cellpadding="0" cellspacing="0" style="overflow:hidden;">
,所以就填这个字符串。
好了,全部设置完毕,点击“更新任务设置”返回,然后点击载入任务,把“163社区论坛帖子”载入,并且选中。点击“开始”按钮开始采集,就可以看到采集到的结果了。
|