织梦系统采集规则的写法如下:
![织梦系统建站:[4]采集规则写法](/upload/images/2026/0413/84da648e.jpg)
![织梦系统建站:[4]采集规则写法](/upload/images/2026/0413/70b36db2.jpg)
节点名称与编码:填写节点名称和编码(用于系统识别)。
列表网址获取规则:以百度经验为例,分析URL规律。如首页为http://jingyan.baidu.com/list/50,第二页为http://jingyan.baidu.com/list/50?pn=26,可推断分页参数为pn,步长为25。填写规则后测试生成的分页链接是否正确。
![织梦系统建站:[4]采集规则写法](/upload/images/2026/0413/1aec4c4b.jpg)
分页代码定位:通过查看网页源代码,找到唯一的分页起始和结束代码(如<div >)。
设置匹配规则:填写起始和结束代码,保存后测试是否能正确提取列表项。
![织梦系统建站:[4]采集规则写法](/upload/images/2026/0413/7e0c7f6a.jpg)
包含与排除规则:如需屏蔽/list/链接,保留/article/链接,在规则中设置“必须包含”和“不能包含”条件。
![织梦系统建站:[4]采集规则写法](/upload/images/2026/0413/dcdf5ecd.jpg)
标题获取:从文章页源代码中提取标题(如<title>北海道戚风蛋糕(低糖版)_百度经验</title>),填写匹配规则。
正文内容获取:定位正文唯一标识(如<div >),设置匹配规则并屏蔽无关标签(如script、div等)。
![织梦系统建站:[4]采集规则写法](/upload/images/2026/0413/558ec398.jpg)
保存并测试:完成规则配置后,点击“保存并测试”,检查提取的数据是否准确。
执行采集:确认无误后,开始采集数据。
![织梦系统建站:[4]采集规则写法](/upload/images/2026/0413/27e26e8c.jpg)
注意事项:
