梦织德德收藏方法教程
方法/步骤
1.首先我们打开织梦后台,点击。
收购& mdash& mdash采购管理& mdash& mdash添加新节点
2.这里以收藏普通物品为例。我们选择普通的文章,然后确定
3.我们进入采集的设置页面,填写节点名称,也就是给这个新节点起一个名字。你可以在这里随意填写。
然后打开想要收藏的文章列表页面,打开链接页面,右键& mdash& mdash查看源文件
找到目标页面代码,就在charset后面。
4.页面的基本信息一般会被忽略。填好之后请参考图。
5.现在让我们填写列表URL来获取规则。
看文章列表第一页地址jianzhinde/list _ 49 _ 1 . html 49 _ 1.html。
比较第二页的地址jianzhinde/list _ 49 _ 2 . html。
我们发现除了49_,后面的数字都一样,所以可以这样写。
/jianzhinde/list _ 49 _(*)。超文本标记语言
就是把1改成(*)
因为这里只有两页,我们就从1到2来填。
增量当然是每页1,2-1…等于1?
我们到此为止。
6.可能大家收藏的一些列表没有规则,你要手动指定列表网址,如图。
7.每行写一页地址。
规则列表写好之后,我们就开始写文章URL匹配规则。返回文章列表页面。
右键单击查看源文件
找到区域开头的HTML,也就是找到文章列表开头的标志。
8.我们很容易就找到了,如图所示& 新闻列表
。从这里开始,后面是文章列表。
让我们在文章列表的末尾找到HTML。
9.就是它,一个容易找到的标志。
如果链接包含图片:
没有治疗
收集缩略图。
在这里根据自己的需求来选择。
重新过滤区域URL:
(使用正则表达式)
必须包含:
(优先级高于后者)
不能包含:
当我们打开源文件时,我们可以清楚地看到文章链接全部以。超文本标记语言
所以,我们填进去。html后面必须包含。
如果你对一些列表有困难,你也可以填写那些不能包含的列表。
8.我们点击保存设置进入下一步,可以看到我们得到的文章的网址。
看到这些就对了。让我们保存信息,然后进入下一步,设置内容字段获取规则。
看看文章有没有分页。随便进一篇文章看看。。我们看到这里的文章没有分页。
所以我们在这里默认。
9.先找找文章标题之类的。
输入任意文章并右键单击以查看源文件。
看看这些。
10.根据源代码填写。
1.让我们把文章的开头和结尾填上。
如上,找到开始和结束标志。
12.开始:
12.结束:
13.在过滤规则里把你想过滤的写在文章里,比如过滤文章里的图片。
选择通用规则。
14.再次检查IMG,然后确认
15.这样,我们就过滤了文本中的图片。
设置完成后,点击保存设置并预览。
这样的收款规则是这样写的。很简单。有些网站很难写,但是需要更多的努力。
16.我们单击保存并开始收集& mdash& mdash开始收集网页。
收集工作将在一分钟内完成。
来看看我们收集的文章吧。
18.好像成功了。让我们导出数据。
dede采集图片的时候,目标站点是相对路径。图片采集不下来。听说用自定义处理接口可以完成,但是弄不来?
有可能是你的相对路径出错了,重新在上传缩略图里修改下相对路径就可以解决这个问题了。
云采集软件怎么样?
秀餐网的云采集软件,是秀餐网结合三年来在网络数据采集、正文内容提取和智能分析算法领域的技术积累,面向各类中小网站、网络媒体、行业门户、公关公司、企业竞争情报部门,推出的云应用产品和服务,可以让您畅享互联网资讯信息大餐!
云采集实现了互联网内容的实时发现、抓取、结构化萃取、内容加工、排重、搜索等功能。您只需要输入资讯或者文章的链接地址,或者给出指定关键词,就能精准的采集并获取对应正文内容!
云采集软件免费版,可以适用于大部分网站。通过云采集软件,用户可以方便的采集内容并发布到自己网站上,可以支持任意CMS系统,目前支持phpcms、dedecms、destoon等知名CMS系统,也可以定制化对接用户自有系统。
云采集具有无人值守执行采集任务功能,能采集分页、多页,能自动判别目标网页是否为内容网页,可以通过get和post方式自动获取用户网站新闻分类信息和提交采集内容,能够采集新闻对应图片等。
秀餐网云采集系统亮点:
简单易用:云采集软件和普通软件一样的安装方式。和同类产品火车头、三人行等相比,不需要写任何采集规则,和海纳、TRS等产品相比,能够更好的和用户CMS系统对接,并且批量化入库更加灵活方便。
提高效率:原来20个编辑的工作量,借助于云采集系统,现在3-5个编辑就能完成。
降低成本:按月收费,对于采集次数较少的用户完全免费!同时效率的大幅提升也降低了运营成本。