采集规则之内容分页

小说站越来越喜欢内容分页了,这个是提升pv的有效手段,虽然**

遇到这种站点如何采集呢?我们以元尊小说网为例介绍!

https://www.yuanzun.cc/go/41652/13461822.html

采集内容分页的原理就是找到章节分页标识,下图的这个就是章节分页标识了

下一页所对应的链接就是当前章节的分页标识,查看源代码,找到如下

<p class="text-center">
<a id="linkPrev" class="btn btn-default" href="https://www.yuanzun.cc/go/41652/">上一章</a>
<a id="linkIndex" class="btn btn-default" href="https://www.yuanzun.cc/go/41652/">章节目录</a>
<a id="linkNext" class="btn btn-default" href="https://www.yuanzun.cc/go/41652/13461822_2.html">下一页</a>
</p>

在这段代码当中,https://www.yuanzun.cc/go/41652/13461822_2.html就是我们要获取的分页标识
这个对应的正则就是

<a id="linkNext" class="btn btn-default" href="(https://www.yuanzun.cc/go/\d+/\d+_\d+.html)">下一页</a>

填写进去在测试是不是就ok了?

完成后的章节部分规则如下

提醒

一、一般开启内容分页的站点内容页有点不同,结束标签不一样,比如这个站点<p class="text-danger text-center">本章未完,点击下一页继续阅读</p>前面页面有而分页最后一页没有,一定不要写错末尾标签否则取不到最后一页内容


联系我们
qq
QQ:3358162308
weixin
电报:@PTCMS
email
邮件:support#ptcms.com
address
地址:北京中关村车库咖啡
Copyright © 2009 - 2014 PTCMS Studio All Right Reserved。苏ICP备13037930号