织梦系统建站:[4]采集规则写法

织梦系统采集规则的写法如下:

织梦系统建站:[4]采集规则写法

织梦系统建站:[4]采集规则写法

节点名称与编码:填写节点名称和编码(用于系统识别)。

列表网址获取规则:以百度经验为例,分析URL规律。如首页为http://jingyan.baidu.com/list/50,第二页为http://jingyan.baidu.com/list/50?pn=26,可推断分页参数为pn,步长为25。填写规则后测试生成的分页链接是否正确。

织梦系统建站:[4]采集规则写法

分页代码定位:通过查看网页源代码,找到唯一的分页起始和结束代码(如<div >)。

设置匹配规则:填写起始和结束代码,保存后测试是否能正确提取列表项。

织梦系统建站:[4]采集规则写法

包含与排除规则:如需屏蔽/list/链接,保留/article/链接,在规则中设置“必须包含”和“不能包含”条件。

织梦系统建站:[4]采集规则写法

标题获取:从文章页源代码中提取标题(如<title>北海道戚风蛋糕(低糖版)_百度经验</title>),填写匹配规则。

正文内容获取:定位正文唯一标识(如<div >),设置匹配规则并屏蔽无关标签(如script、div等)。

织梦系统建站:[4]采集规则写法

保存并测试:完成规则配置后,点击“保存并测试”,检查提取的数据是否准确。

执行采集:确认无误后,开始采集数据。

织梦系统建站:[4]采集规则写法

注意事项