phpcms 使用指南及二次开发向导 --- 采集篇

14

Click here to load reader

Upload: corina

Post on 11-Jan-2016

161 views

Category:

Documents


10 download

DESCRIPTION

PHPCMS 使用指南及二次开发向导 --- 采集篇. www.phpcms.cn. 采集篇 采集实例介绍 网址规则 内容规则 自定义规则 高级配置 发布采集内容 导入 / 导出采集规则. 一、采集实例 本教程以采集新浪新闻为例子,对 V9 采集系统进行介绍,首先看一下,采集要求:. 采集目标网址: http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml 要求:只采集中间新闻列表,其它链接不采集. 说明 :只采集此处新闻列表. 网址规则 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: PHPCMS  使用指南及二次开发向导 ---  采集篇

PHPCMS 使用指南及二次开发向导--- 采集篇

www.phpcms.cn

Page 2: PHPCMS  使用指南及二次开发向导 ---  采集篇

PHPCMS 网络培训课程 --- 内容发布与管理篇

PHPCMS 项目部 王官庆制作

• 采集篇1. 采集实例介绍

1. 网址规则2. 内容规则3. 自定义规则4. 高级配置

2. 发布采集内容

3. 导入 / 导出采集规则

Page 3: PHPCMS  使用指南及二次开发向导 ---  采集篇

PHPCMS 网络培训课程 --- 内容发布与管理篇

PHPCMS 项目部 王官庆制作

一、采集实例本教程以采集新浪新闻为例子,对 V9 采集系统进行介绍,首先看一下,采集要求:

采集目标网址: http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml要求:只采集中间新闻列表,其它链接不采集

说明:只采集此处新闻列表

Page 4: PHPCMS  使用指南及二次开发向导 ---  采集篇

PHPCMS 网络培训课程 --- 内容发布与管理篇

PHPCMS 项目部 王官庆制作

网址规则设置目标网址,然后设置目标网址开始和结束标记(以便从此处获取网址),如下图所示:

目标网址有多种设置方案,不同方案填写不同的规则。

获取网址的设置,为目标网页源代码中,全页面唯一的开始处代码和全页面唯 一的结束时代码。主要是为了定位获取网址的位置!以便精确获取要采集的网址!

此二处必须是目标网页源代码中,唯一的存在!

Page 5: PHPCMS  使用指南及二次开发向导 ---  采集篇

PHPCMS 网络培训课程 --- 内容发布与管理篇

PHPCMS 项目部 王官庆制作

内容规则设置目标网址,然后设置目标网址开始和结束标记(以便从此处获取网址),如下图所示:

标题:用了 <title> 和 </title> 作为边界,由于 title 中都含有“ _ 新闻中心 _ 新浪网”这里用了信息替换功能。

内容: <!-- 正文内容 begin --> 和 <!-- 正文内容 end --> 作为边界,并把内容里面的 js, 或者 div 都去除掉,这个需要你根据情况设置。

来源:同标题设置

1 、匹配规则请设置开始和结束符,具体内容使用“ [ 内容 ]” 做为通配符 。2 、过滤选项格式为“要过滤的内容 [|] 替换值”,要过滤的内容支持正则表达式,每行一条。

Page 6: PHPCMS  使用指南及二次开发向导 ---  采集篇

PHPCMS 网络培训课程 --- 内容发布与管理篇

PHPCMS 项目部 王官庆制作

自定义规则何时用到自定义规则:如果系统提供的规则不够,或者你想重新定义适合语意的规则,则可以通过自定义规则来操作,规则的操作配置原理和内容规则部分是一样的,如下图所示:

实例:以采集下载列表为实例,介绍如下:

匹配规则:同标题设置

自定义规则的中英文名称。

Page 7: PHPCMS  使用指南及二次开发向导 ---  采集篇

PHPCMS 网络培训课程 --- 内容发布与管理篇

PHPCMS 项目部 王官庆制作

高级配置此项是对采集规则时的配置,比较简单,如下图所示:

提示:如果选择 下载图片 , 因为图片保存到服务器采集时速度会稍慢一些 .

Page 8: PHPCMS  使用指南及二次开发向导 ---  采集篇

PHPCMS 网络培训课程 --- 内容发布与管理篇

PHPCMS 项目部 王官庆制作

二、采集并发布内容配置完毕采集规则,接下来我们将进行信息采集的操作,步骤如下图所示:

提示:在正式采集数据之前,我们可以先测试一下采集,看配置的规则是否有问题 .

Page 9: PHPCMS  使用指南及二次开发向导 ---  采集篇

PHPCMS 网络培训课程 --- 内容发布与管理篇

PHPCMS 项目部 王官庆制作

采集并发布内容配置完毕采集规则,接下来我们将进行信息采集的操作,步骤如下图所示:

采集步骤:系统依次进行 采集网址 -> 采集内容 -> 内容的发布。

Page 10: PHPCMS  使用指南及二次开发向导 ---  采集篇

PHPCMS 网络培训课程 --- 内容发布与管理篇

PHPCMS 项目部 王官庆制作

发布内容采集完毕以后,就可以进行信息的发布了,步骤如下图所示:

选择要发布的内容 选择要导入的栏目

Page 11: PHPCMS  使用指南及二次开发向导 ---  采集篇

PHPCMS 网络培训课程 --- 内容发布与管理篇

PHPCMS 项目部 王官庆制作

发布内容采集完毕以后,就可以选择字段对应,进行信息的发布了,步骤如下图所示:

所选栏目对应字段

与栏目字段对应的采集字段

Page 12: PHPCMS  使用指南及二次开发向导 ---  采集篇

PHPCMS 网络培训课程 --- 内容发布与管理篇

PHPCMS 项目部 王官庆制作

发布内容结果采集到的数据导入到 军事新闻 栏目以后,至此采集内容已经完全操作完成,结果如下图所示:

提示:发布完成后,可以通过更新对应栏目和栏目下的内容页就行了。

Page 13: PHPCMS  使用指南及二次开发向导 ---  采集篇

PHPCMS 网络培训课程 --- 内容发布与管理篇

PHPCMS 项目部 王官庆制作

三、采集规则的导入与导出写好的采集规则,可以导出成文件形式,以备其它地方使用,如下图所示:

Page 14: PHPCMS  使用指南及二次开发向导 ---  采集篇

Thank you!