php168讨论区论坛 » PHP168帮助中心 » 数据采集指南 » 如何采集一篇文章中的多页?(进阶)

PHP168专用空间1G 150元/年 送域名和数据库

广告位招租,联系QQ:81684210

1G双线双IP高速空间+200M数据库=158 整站系统v5.0正式版下载
PHP168整站系统安装及使用教程 PHP168整站4.0风格精选区

P8-Server服务器套件(方便大家在自己的电脑上调试)


本页主题: 如何采集一篇文章中的多页?(进阶) 打印 | 加为IE收藏 | 收藏主题 | 上一主题 | 下一主题

龙城 该用户目前不在线

级别: 超级管理员
发帖: 10805
积分: 29078 点
铜板: 88 个
注册时间:2003-07-12
最后登录:2008-10-11

如何采集一篇文章中的多页?(进阶)

关于这个问题.相对来说复杂一点.但也并不是很难的.

首先.修改内容规则.
然后点击选中:
显示不常用的高级设置(一般不用)

如下图





以上图中标志了三项输入框,需要进行设置.


对于第一项表单而言

比如:
内容的第一页http://php168.com/1/index-22.html
内容的第二页http://php168.com/1/index-22_2.htm
那么表单填.html
分析规则就是对比第一页与第二页的网址从左到右哪个字符出现不同,就把第一页网址之后的字符复制出来

如果是这种情况
http://php168.com/1/index.php?id=2&page=1
http://php168.com/1/index.php?id=2&page=2

对于这种情况,他后面不同的是一个数字,即是页码数字的话,就不需要填写.留空即可



对于第二项表单而言
第一页http://php168.com/1/index-22.html
第二页http://php168.com/1/index-22_2.htm
那么右边的表单填_[page].htm
分析规则就是对比第一页与第二页的网址从左到右哪个字符出现不同,就把第二页的网址之后的字符复制出来,并把变动的页码数字用[page]替换

如果是这种情况
http://php168.com/1/index.php?id=2&page=1
http://php168.com/1/index.php?id=2&page=2

对于这种情况,他后面不同的是一个数字,即是页码数字的话,更简单,只需要填写[page]即可



对于第三项表单而言
第一页http://php168.com/1/index.html
第二页http://php168.com/1/index_1.html
此时属于怪癖的,理论上应该是
第三页http://php168.com/1/index_2.html
所以表单请选择是,但一般情况都是选否的,也就是说页码数字为1却是第二页.页码数为2却是第三页.就属于特殊现象.需要选则是.
顶端 Posted: 2008-04-17 18:10 | [楼 主]
邱比特之箭 该用户目前不在线
近期活跃奖
授权用户
级别: 硕士
发帖: 1766
积分: 5755 点
铜板: 51 个
注册时间:2006-04-29
最后登录:2008-09-04

站住在说
*****************************************
*      签名档欠费,点击续费!        *
*****************************************
顶端 Posted: 2008-04-17 18:13 | 1 楼
邱比特之箭 该用户目前不在线
近期活跃奖
授权用户
级别: 硕士
发帖: 1766
积分: 5755 点
铜板: 51 个
注册时间:2006-04-29
最后登录:2008-09-04

最近正在学习采集,呵呵,
*****************************************
*      签名档欠费,点击续费!        *
*****************************************
顶端 Posted: 2008-04-17 18:14 | 2 楼
龙城 该用户目前不在线

级别: 超级管理员
发帖: 10805
积分: 29078 点
铜板: 88 个
注册时间:2003-07-12
最后登录:2008-10-11

对于是这种情况的话

http://php168.com/1/index.php?id=2&page=1
http://php168.com/1/index.php?id=2&page=2


请查看一下你的程序文件
admin/gather.php
能不能查找到这句话
preg_replace("/(.*)([^\d]+)([\d]*)$/is","\\1\\2",$curl)

如果不能的话.请查找

$nexturl=$curl.str_replace("[page]",$i,$rsdb[show_morepage]);

替换成


$nexturl=preg_replace("/(.*)([^\d]+)([\d]*)$/is","\\1\\2",$curl).str_replace("[page]",$i,$rsdb[show_morepage]);
顶端 Posted: 2008-04-17 18:56 | 3 楼
飞鸿踏雪 该用户目前在线
荣誉市民奖 灌水天才奖 五一雷锋奖 宣传贡献奖 优秀斑竹奖
头衔:信念成就未来 信念成就未来
授权用户
级别: 总版主
发帖: 8179
积分: 9554 点
铜板: 1318 个
注册时间:2007-09-28
最后登录:2008-10-11

开始找点感觉了。

飞蓬欲卷世时寒  鸿鹄凌云志比天
  踏破尘路闲入梦  雪霁方晴作笑谈
顶端 Posted: 2008-04-17 19:46 | 4 楼
zxjxl918 该用户目前不在线
优秀斑竹奖 荣誉市民奖 终身荣誉奖
头衔:超级版猪 超级版猪

1星级VIP用户
授权用户
级别: 斑竹
发帖: 6982
积分: 3138 点
铜板: 827 个
注册时间:2005-03-31
最后登录:2008-10-11

好东西啊
顶端 Posted: 2008-04-18 15:56 | 5 楼
vodkey 该用户目前不在线

级别: 托儿所
发帖: 23
积分: 37 点
铜板: 0 个
注册时间:2008-04-08
最后登录:2008-08-26

http://www.cps.com.cn/news/Html/Supervision/case/index.html  我按照这个方法采集这个地址 不管用啊  还是只能采集到第一页, 后面的 网页第二页 等连接也采集回来了 但是内容没有回来 连接地址 是别的人的,  请帮助谢谢!!!
*****************************************
*      签名档欠费,点击续费!        *
*****************************************
顶端 Posted: 2008-05-03 15:57 | 6 楼
vivaken 该用户目前不在线

级别: 小学生
发帖: 87
积分: 130 点
铜板: 0 个
注册时间:2008-03-31
最后登录:2008-07-08

顶端 Posted: 2008-05-17 12:24 | 7 楼
lxkjpf 该用户目前不在线

级别: 幼儿园
发帖: 56
积分: 70 点
铜板: 0 个
注册时间:2008-02-23
最后登录:2008-09-15

   
*****************************************
*      签名档欠费,点击续费!        *
*****************************************
顶端 Posted: 2008-05-30 00:37 | 8 楼
cigo 该用户目前不在线

级别: 幼儿园
发帖: 91
积分: 89 点
铜板: 0 个
注册时间:2008-03-06
最后登录:2008-10-04

学习了.
*****************************************
*      签名档欠费,点击续费!        *
*****************************************
顶端 Posted: 2008-07-01 01:28 | 9 楼
jajie13 该用户目前不在线

级别: 幼儿园
发帖: 40
积分: 55 点
铜板: 0 个
注册时间:2008-07-09
最后登录:2008-09-09

还是不明白
顶端 Posted: 2008-08-04 15:32 | 10 楼
risezhc 该用户目前不在线

级别: 小学生
发帖: 94
积分: 175 点
铜板: 0 个
注册时间:2007-05-11
最后登录:2008-10-10

经过反复测试,我发现采集规则里面关于下一页或者第二页等内容不能作为第一页的采集内容,也就是{content=*}后面应该是其他页面连接之前的字符
顶端 Posted: 2008-08-06 11:58 | 11 楼
newmember 该用户目前不在线

级别: 本科生
发帖: 521
积分: 4472 点
铜板: 32 个
注册时间:2007-08-11
最后登录:2008-10-10

*****************************************
*      签名档欠费,点击续费!        *
*****************************************
顶端 Posted: 2008-08-06 12:15 | 12 楼
klmn463 该用户目前不在线

级别: 禁止发言
发帖: 40
积分: 46 点
铜板: 0 个
注册时间:2008-08-05
最后登录:2008-08-13

用户被禁言,该主题自动屏蔽!
顶端 Posted: 2008-08-07 19:50 | 13 楼
maiken 该用户目前不在线

级别: 禁止发言
发帖: 21
积分: 116 点
铜板: 0 个
注册时间:2008-07-16
最后登录:2008-09-30

用户被禁言,该主题自动屏蔽!
*****************************************
*      签名档欠费,点击续费!        *
*****************************************
顶端 Posted: 2008-08-13 09:32 | 14 楼
kulerop 该用户目前不在线

级别: 托儿所
发帖: 22
积分: 47 点
铜板: 22 个
注册时间:2008-02-15
最后登录:2008-10-01

还是觉得欠详细,我以前用别的一些软件就没有感觉这么麻烦,完全就是填空,可是用PHP168 什么都好 就是采集水平次了些
*****************************************
*      签名档欠费,点击续费!        *
*****************************************
顶端 Posted: 2008-08-13 21:21 | 15 楼
dust3000 该用户目前不在线



级别: 托儿所
发帖: 19
积分: 16 点
铜板: 0 个
注册时间:2008-03-01
最后登录:2008-10-04

不懂 ,啊有没有视频教程, 然给我看着学
顶端 Posted: 2008-09-09 01:55 | 16 楼
xiangai20088 该用户目前不在线



级别: 托儿所
发帖: 1
积分: 6 点
铜板: 0 个
注册时间:2008-09-08
最后登录:2008-09-16

在采集前需要改变采集规则吗?

在采集前需要改变采集规则吗?
为什么我一用采集功能,他就提示我没有一个标题?标题是自己添加吗?添加在那里
顶端 Posted: 2008-09-10 02:05 | 17 楼
v鲁珏 该用户目前不在线



级别: 托儿所
发帖: 6
积分: 7 点
铜板: 0 个
注册时间:2008-09-06
最后登录:2008-10-01

专利技术光盘下载网诚征分站:www.99pat.com

专利检索下载,专利光盘定制-----一站式服务隆重招商
中国九九专利网是一个专利技术检索下载专利技术光盘定制的专业门户网站,现诚招各地分站、代理商。为您提供四大专利致富工具:

1、  85年至今的230多万项发明专利和实用新型专利(可以以光盘形式或硬盘形式)。
2、  一个独立经营、自已全权管理的大型专利技术门户推广网站(独立域名,独立后台,全动态管理)。
3、  一个专利技术检索、专利技术下载平台,(含专利检索数据库和专利下载数据库)
4、  专利光盘定制器或专利数据包定制器,让您从百万项专利中一次性将您所需要的一项或多项专利技术(数量不限)直接形成专利数据包或直接制成专利光盘,让专利技术的定制程序化、简单化。
有了以上四大致富利器,何愁事业不成,中国九九专利网本着携手创业,诚信共赢的原则,对分站实行扶上马送到家,让您创业有路,致富无忧。
详情请登陆:www.99pat.cnom
电话:0431-86189079
联系人:大力
顶端 Posted: 2008-09-12 09:16 | 18 楼
jalick 该用户目前不在线



级别: 托儿所
发帖: 15
积分: 27 点
铜板: 0 个
注册时间:2008-05-08
最后登录:2008-10-11

我要学习采集!刚买的虚拟空间,不知道能否采集?
顶端 Posted: 2008-09-18 15:01 | 19 楼
php168讨论区论坛 » 数据采集指南
好友买卖 争车位一切尽在-欢乐网 以铜板换广告位二 以铜板换广告位三 菜根站长-免费为新手仿制模板
以铜板换广告位五 以铜板换广告位六 以铜板换广告位七 以铜板换广告位八

Total 0.404495(s) query 4, Time now is:10-11 19:44, Gzip disabled
Powered by PHPWind v5.3 Certificate Code © 2003-07 PHPWind.com Corporation 京ICP备05047353号