• 欢迎访问举个栗子网站
  • 小说APP下载 xsz.tw 不带广告的小说站

dhzw.org关关小说采集规则

软件 举个栗子 2年前 (2018-03-30) 1210次浏览 0个评论 扫描二维码

DHzw 这个站点资料不少。这里整理发布能用的采集规则。

介绍一下关关采规则当中需要用到的一些标签
\d* 表示数字 \s* 表示空格+换行 .+? 表示字符(不能为空) .* 表示字符(可以为空)
() 表示我们需要的部分 ((.|\n)*) 章节的内容部分,包括了换行。
=====与杰奇后台标签的对应关系=====
!!!! 相当于 ([^><]*)   ~~~~ 相当于 ([^><‘”]*)   ^^^^ 相当于 ([^><\d]*)
$$$$ 相当于 ([\d]*)
**** 相当于 (.*)
如果不行。就根据相关提示调整 复制代码保存为 xml 文件。放在关关规则文件夹里。在关关里面选择即可,规则适用于 V1.20.7.9 版本,关关文件夹日期:2016.4.28 这个版本的关关

<?xml version="1.0"?>
<RuleConfigInfo xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:xsd="http://www.w3.org/2001/XMLSchema">
 <RuleVersion>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern>www.xsz.tw 小说 TXT</Pattern>
 <RegexName>RuleVersion</RegexName>
 </RuleVersion>
 <RuleID>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern>91</Pattern>
 <RegexName>RuleID</RegexName>
 </RuleID>
 <GetSiteName>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern>dhzw</Pattern>
 <RegexName>GetSiteName</RegexName>
 </GetSiteName>
 <GetSiteCharset>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern>gbk</Pattern>
 <RegexName>GetSiteCharset</RegexName>
 </GetSiteCharset>
 <GetSiteUrl>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern />
 <RegexName>GetSiteUrl</RegexName>
 </GetSiteUrl>
 <NovelSearchUrl>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern />
 <RegexName>NovelSearchUrl</RegexName>
 </NovelSearchUrl>
 <NovelSearchData>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern />
 <RegexName>NovelSearchData</RegexName>
 </NovelSearchData>
 <NovelSearch_GetNovelKey>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern />
 <RegexName>NovelSearch_GetNovelKey</RegexName>
 </NovelSearch_GetNovelKey>
 <NovelListUrl>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern>https://www.dhzw.org/</Pattern>
 <RegexName>NovelListUrl</RegexName>
 </NovelListUrl>
 <NovelListFilter>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern />
 <RegexName>NovelListFilter</RegexName>
 </NovelListFilter>
 <NovelList_GetNovelKey>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern>&lt;span class="s2"&gt;&lt;a href="https://www.dhzw.org/book/\d+/(\d+)/"&gt;(.+?)&lt;/a&gt;&lt;/span&gt;</Pattern>
 <RegexName>NovelList_GetNovelKey</RegexName>
 </NovelList_GetNovelKey>
 <NovelUrl>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern>https://www.dhzw.org/book/{NovelKey/1000}/{NovelKey}/</Pattern>
 <RegexName>NovelUrl</RegexName>
 </NovelUrl>
 <NovelErr>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern>对不起,该文章不存在!</Pattern>
 <RegexName>NovelErr</RegexName>
 </NovelErr>
 <NovelName>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern>&lt;h1&gt;(.+?)&lt;/h1&gt;</Pattern>
 <RegexName>NovelName</RegexName>
 </NovelName>
 <NovelAuthor>
 <FilterPattern>&lt;a.+?&gt;
&lt;/a&gt;
&amp;nbsp;</FilterPattern>
 <Method>Match</Method>
 <Options>Singleline</Options>
 <Pattern>&lt;i&gt;作者:(.+?)&lt;/i&gt;</Pattern>
 <RegexName>NovelAuthor</RegexName>
 </NovelAuthor>
 <LagerSort>
 <FilterPattern>&lt;a.+?&gt;
&lt;/a&gt;
&amp;nbsp;</FilterPattern>
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern>&lt;i&gt;类别:(.+?)&lt;/i&gt;</Pattern>
 <RegexName>LagerSort</RegexName>
 </LagerSort>
 <SmallSort>
 <FilterPattern>&lt;a.+?&gt;
&lt;/a&gt;
&amp;nbsp;</FilterPattern>
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern>&lt;i&gt;类别:(.+?)&lt;/i&gt;</Pattern>
 <RegexName>SmallSort</RegexName>
 </SmallSort>
 <NovelIntro>
 <FilterPattern>&lt;script((.|\n)*?)&lt;/script&gt;
&amp;lt;♂&lt;
&amp;gt;♂&gt;
&lt;a.+?&lt;/a&gt;
&lt;/div&gt;
&lt;/p&gt;
</FilterPattern>
 <Method>Match</Method>
 <Options>Singleline</Options>
 <Pattern>简介:&lt;/b&gt;&lt;br /&gt;((.|\n)*?)&lt;/br&gt;各位书友要是觉得</Pattern>
 <RegexName>NovelIntro</RegexName>
 </NovelIntro>
 <NovelKeyword>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern>&lt;h1&gt;(.+?)&lt;/h1&gt;</Pattern>
 <RegexName>NovelKeyword</RegexName>
 </NovelKeyword>
 <NovelDegree>
 <FilterPattern>a♂已完结
b♂连载中</FilterPattern>
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern>&lt;i&gt;状态:(.+?)&lt;/i&gt;</Pattern>
 <RegexName>NovelDegree</RegexName>
 </NovelDegree>
 <NovelCover>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern>&lt;div id="fmimg"&gt;&lt;img alt=".+?" src="(.+?)" onerror="src='/modules/article/images/nocover.jpg'" </Pattern>
 <RegexName>NovelCover</RegexName>
 </NovelCover>
 <NovelDefaultCoverUrl>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern>nocover.jpg</Pattern>
 <RegexName>NovelDefaultCoverUrl</RegexName>
 </NovelDefaultCoverUrl>
 <NovelInfo_GetNovelPubKey>
 <FilterPattern />
 <Method>Match</Method>
 <Options>Singleline</Options>
 <Pattern>&lt;a href="(.+?)" target="_blank"&gt;TXT 下载&lt;/a&gt;&lt;/p&gt;&lt;/div&gt;</Pattern>
 <RegexName>NovelInfo_GetNovelPubKey</RegexName>
 </NovelInfo_GetNovelPubKey>
 <PubCookies>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern />
 <RegexName>PubCookies</RegexName>
 </PubCookies>
 <PubIndexUrl>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern>https://www.dhzw.org/book/{NovelKey/1000}/{NovelKey}/</Pattern>
 <RegexName>PubIndexUrl</RegexName>
 </PubIndexUrl>
 <PubIndexErr>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern>获得目录页错误</Pattern>
 <RegexName>PubIndexErr</RegexName>
 </PubIndexErr>
 <PubVolumeContent>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern />
 <RegexName>PubVolumeContent</RegexName>
 </PubVolumeContent>
 <PubVolumeSplit>
 <FilterPattern />
 <Method>Spilt</Method>
 <Options>None</Options>
 <Pattern />
 <RegexName>PubVolumeSplit</RegexName>
 </PubVolumeSplit>
 <PubVolumeName>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern />
 <RegexName>PubVolumeName</RegexName>
 </PubVolumeName>
 <PubChapterName>
 <FilterPattern>~伪后记~|伪后记</FilterPattern>
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern>&lt;dd&gt;&lt;a href="\d+.html" title="(.+?)"&gt;</Pattern>
 <RegexName>PubChapterName</RegexName>
 </PubChapterName>
 <PubChapter_GetChapterKey>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern>&lt;dd&gt;&lt;a href="(\d+.html)" title=".+?"&gt;</Pattern>
 <RegexName>PubChapter_GetChapterKey</RegexName>
 </PubChapter_GetChapterKey>
 <PubContentUrl>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern>{ChapterKey}</Pattern>
 <RegexName>PubContentUrl</RegexName>
 </PubContentUrl>
 <PubContentErr>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern>获得章节内容页错误</Pattern>
 <RegexName>PubContentErr</RegexName>
 </PubContentErr>
 <PubTextUrl>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern />
 <RegexName>PubTextUrl</RegexName>
 </PubTextUrl>
 <PubContentText>
 <FilterPattern>&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;
&lt;br /&gt;&lt;br /&gt;♂&lt;br /&gt;
|手机用户浏览 m23wxwcc 阅读,|更优质的阅读体验。|更多完本 |关注微信公众号 |新笔趣阁进入首页 |很多精彩等着你|</FilterPattern>
 <Method>Match</Method>
 <Options>IgnoreCase</Options>
 <Pattern>&lt;div id="BookText"&gt;((.|\n)+?)&lt;/div&gt;</Pattern>
 <RegexName>PubContentText</RegexName>
 </PubContentText>
 <PubContentPageUrl>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern />
 <RegexName>PubContentPageUrl</RegexName>
 </PubContentPageUrl>
 <PubContentPageKey>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern />
 <RegexName>PubContentPageKey</RegexName>
 </PubContentPageKey>
 <PubContentReplace>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern>[WwWwωщщψшШ].{0,3}[WwWwωщщψшШ].{0,3}[WwWwωщщψшШ].{0,3}[00OoOoο].{0,3}[00OoOoο].{0,3}[XxXxχ].{0,3}[SsSs].{0,7}[CcCcСΓ].{0,3}[00OoOoοó].{0,3}[MmMmМ]|[00OoOoο].{0,3}[00OoOoο].{0,3}[XxXxχ].{0,3}[SsSs].{0,7}[CcCcСΓ].{0,3}[00OoOoοó].{0,3}[MmMmМ]|[HhHΗh].{0,3}[TtTt].{0,3}[TtTt].{0,3}[PpPpρр]://|[WwWwωщщψ].{0,3}[WwWwωщщψ].{0,3}[WwWwωщщψ]|[WwWwωщщψ].{0,3}[AaàAaαа].{0,3}[PpPpρр]|[CcCcС].{0,3}[00OoOoο].{0,3}[MmMmМ]|[NnNnΠ∩η].{0,3}[EeEeε].{0,3}[TtTt]|[00OoOoο].{0,3}[RrRr].{0,3}[GgGg]|[CcCcС].{0,3}[NnNnΠ∩η]</Pattern>
 <RegexName>PubContentReplace</RegexName>
 </PubContentReplace>
 <PubContentChapterName>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern />
 <RegexName>PubContentChapterName</RegexName>
 </PubContentChapterName>
 <PubContentChapterNum>
 <FilterPattern />
 <Method>Match</Method>
 <Options>None</Options>
 <Pattern />
 <RegexName>PubContentChapterNum</RegexName>
 </PubContentChapterNum>
</RuleConfigInfo>

举个栗子 , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:dhzw.org 关关小说采集规则
喜欢 (0)
举个栗子
关于作者:
建筑工地上施工员,闲暇时弄个博客打发时间,
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址