Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in / Register
K
kb
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 2
    • Issues 2
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • Operations
    • Operations
    • Incidents
  • Analytics
    • Analytics
    • Repository
    • Value Stream
  • Wiki
    • Wiki
  • Members
    • Members
  • Activity
  • Graph
  • Create a new issue
  • Commits
  • Issue Boards
Collapse sidebar
  • granite
  • kb
  • Wiki
    • Data_stream
    • Pc
  • pc_wenshu

pc_wenshu · Changes

Page history
Update pc_wenshu authored Aug 17, 2021 by 蒋家升's avatar 蒋家升
Hide whitespace changes
Inline Side-by-side
Showing with 44 additions and 67 deletions
+44 -67
  • data_stream/pc/pc_wenshu.md data_stream/pc/pc_wenshu.md +44 -67
  • No files found.
data_stream/pc/pc_wenshu.md
View page @ dd75b944
......@@ -33,16 +33,12 @@ https://wenshu.court.gov.cn/website/parse/rest.q4w
<!--说明该项数据更新频率,存量数据的更新频率及策略、新增数据的采集频率及策略-->
### 全量更新策略
### 存量更新策略
<!--无需更新?每天全量更新?逐条轮询更新?多久更新完一轮?或其他-->
```buildoutcfg
存量连续更新,预计一周更新一轮。
db_host:
db_name:
db_user:
db_password:
存量策略待讨论决定
```
### 增量采集策略
......@@ -50,7 +46,7 @@ db_password:
<!--新增数据怎么来?无需单独采集新增数据?-->
```buildoutcfg
接数据库已有数据的最后的时间开始,截止到当前的时间进行增量采集
```
---
......@@ -100,14 +96,16 @@ wenshu_spider
```json
{
"cprq": "2021-08-01 TO 2021-08-01",
"cprq_start": "2021-07-01",
"cprq_end": "2021-07-15",
"search_keys": "cprq",
"order": "s41:desc",
"username": "17146647754"
"order": "s51:desc",
"username": "16521260653"
}
{
"cprq": "2021-08-02 TO 2021-08-02",
"cprq_start": "2021-07-16",
"cprq_end": "2021-07-31",
"s6": "01",
"search_keys": "cprq,s6",
"order": "s41:asc",
......@@ -128,7 +126,8 @@ wenshu_spider
```json
{
"cprq": "2021-08-08 TO 2021-08-08",
"cprq_start": "2021-08-01",
"cprq_end": "2021-08-01",
"search_keys": "cprq",
"order": "s51:desc",
"username": "17146647754"
......@@ -137,8 +136,10 @@ wenshu_spider
> + 主要参数,必填:
> + search_keys:输入条件参数名称,以英文逗号分隔。作用:取task_params中各对应的值,然后作为参数搜索值。
> + 条件参数(至少一个,通常为时间 `cprq`),目前支持参数如下:
> + cprq:时间查询,格式 `%Y-%m-%d TO %Y-%m-%d`
> + 条件参数(至少一个,通常为裁判日期),目前支持参数如下:
> + cprq:裁判日期,需要对应以下两个参数,格式均为 `%Y-%m-%d`
> + cprq_start:开始
> + cprq_end:结束
> + s4:法院层级
> + "1": 最高法院
> + "2": 高级法院
......@@ -178,14 +179,14 @@ wenshu_spider
> + s51:裁判日期
> + s52:审判程序
> + 冒号后为顺序:desc降序,asc升序
> + account:指定账号,不填时从配置文件中随机选择
> + account:指定账号,可选,默认为从配置文件中随机选择其一账号
## data_type说明
<!--可能产生的data_type说明-->
```buildoutcfg
detail: 详情信息 列表,其中每个字典为一条数据,只有这一种类型
detail: 详情信息,其中每个字典为一条数据,只有这一种类型
```
## 爬虫结果的超级数据
......@@ -193,37 +194,7 @@ detail: 详情信息 列表,其中每个字典为一条数据,只有这一种类
<!--包含所有字段的json数据,每个value都要有样例值-->
```json
{
"data":
{
"detail_items":
[
{
"caseReason": ["合同、无因管理、不当得利纠纷"],
"litigant": ["刘方"],
"html": "<!DOCTYPE HTML PUBLIC -//W3C//DTD HTML 4.0 Transitional//EN'><HTML><HEAD><TITLE></TITLE></HEAD><BODY><div id='qt' style='TEXT-ALIGN: center; LINE-HEIGHT: 25pt; MARGIN: 0.5pt 0cm; FONT-FAMILY: 黑体; FONT-SIZE: 18pt;'>贵州省息烽县人民法院</div><div id='qt' style='TEXT-ALIGN: center; LINE-HEIGHT: 25pt; MARGIN: 0.5pt 0cm; FONT-FAMILY: 黑体; FONT-SIZE: 18pt;'>结 案 通 知 书</div><div id='1' style='TEXT-ALIGN: right; LINE-HEIGHT: 25pt; MARGIN: 0.5pt 0cm; FONT-FAMILY: 宋体;FONT-SIZE: 15pt; '>(2021)黔0122执1295号</div><div id='2' style='LINE-HEIGHT: 25pt; TEXT-INDENT: 30pt; MARGIN: 0.5pt 0cm;FONT-FAMILY: 宋体; FONT-SIZE: 15pt;'>本院依据已经发生法律效力的(2017)黔0122刑初155号刑事判决书,立案执行刘方缴纳罚金一案,经本院执行,被执行人已将生效法律文书所确定的义务履行完毕,本案以执行完毕结案。</div><div id='qt' style='LINE-HEIGHT: 25pt; TEXT-INDENT: 30pt; MARGIN: 0.5pt 0cm;FONT-FAMILY: 宋体; FONT-SIZE: 15pt;'>特此通知。</div><div id='qt' style='TEXT-ALIGN: right; LINE-HEIGHT: 25pt; MARGIN: 0.5pt 36pt 0.5pt 0cm;FONT-FAMILY: 宋体; FONT-SIZE: 15pt;'>审判员  杨熙勇</div><div id='qt' style='TEXT-ALIGN: right; LINE-HEIGHT: 25pt; MARGIN: 0.5pt 36pt 0.5pt 0cm;FONT-FAMILY: 宋体; FONT-SIZE: 15pt;'>二〇二一年八月八日</div><div id='7' style='TEXT-ALIGN: right; LINE-HEIGHT: 25pt; MARGIN: 0.5pt 36pt 0.5pt 0cm;FONT-FAMILY: 宋体; FONT-SIZE: 15pt;'>书记员  简厚鑫</div></BODY></HTML>",
"content": "本院依据已经发生法律效力的(2017)黔0122刑初155号刑事判决书,立案执行刘方缴纳罚金一案,经本院执行,被执行人已将生效法律文书所确定的义务履行完毕,本案以执行完毕结案",
"case_code": "(2021)黔0122执1295号",
"docid": "be5c58ab4ffe4249a193ad7f016d7dde"
}
]
}
"task_result": 1000,
"data_type": "detail",
"spider_start_time": "2021-08-17 09:25:10",
"spider_end_time": "2021-08-17 09:26:01",
"task_params":
{
"cprq": "2021-08-08 TO 2021-08-08",
"search_keys": "cprq",
"order": "s41:desc",
"username": "17146647754"
},
"metadata":{},
"spider_name": "wenshu_spider",
"spider_ip": "192.168.108.74",
"spider_proxy_source": "",
}
同以下实际爬虫结果
```
## 实际爬虫结果的数据结构
......@@ -234,35 +205,41 @@ detail: 详情信息 列表,其中每个字典为一条数据,只有这一种类
```json
{
"data":
{
"detail_items":
[
{
"caseReason": ["合同、无因管理、不当得利纠纷"],
"litigant": ["刘方"],
"html": "<!DOCTYPE HTML PUBLIC -//W3C//DTD HTML 4.0 Transitional//EN'><HTML><HEAD><TITLE></TITLE></HEAD><BODY><div id='qt' style='TEXT-ALIGN: center; LINE-HEIGHT: 25pt; MARGIN: 0.5pt 0cm; FONT-FAMILY: 黑体; FONT-SIZE: 18pt;'>贵州省息烽县人民法院</div><div id='qt' style='TEXT-ALIGN: center; LINE-HEIGHT: 25pt; MARGIN: 0.5pt 0cm; FONT-FAMILY: 黑体; FONT-SIZE: 18pt;'>结 案 通 知 书</div><div id='1' style='TEXT-ALIGN: right; LINE-HEIGHT: 25pt; MARGIN: 0.5pt 0cm; FONT-FAMILY: 宋体;FONT-SIZE: 15pt; '>(2021)黔0122执1295号</div><div id='2' style='LINE-HEIGHT: 25pt; TEXT-INDENT: 30pt; MARGIN: 0.5pt 0cm;FONT-FAMILY: 宋体; FONT-SIZE: 15pt;'>本院依据已经发生法律效力的(2017)黔0122刑初155号刑事判决书,立案执行刘方缴纳罚金一案,经本院执行,被执行人已将生效法律文书所确定的义务履行完毕,本案以执行完毕结案。</div><div id='qt' style='LINE-HEIGHT: 25pt; TEXT-INDENT: 30pt; MARGIN: 0.5pt 0cm;FONT-FAMILY: 宋体; FONT-SIZE: 15pt;'>特此通知。</div><div id='qt' style='TEXT-ALIGN: right; LINE-HEIGHT: 25pt; MARGIN: 0.5pt 36pt 0.5pt 0cm;FONT-FAMILY: 宋体; FONT-SIZE: 15pt;'>审判员  杨熙勇</div><div id='qt' style='TEXT-ALIGN: right; LINE-HEIGHT: 25pt; MARGIN: 0.5pt 36pt 0.5pt 0cm;FONT-FAMILY: 宋体; FONT-SIZE: 15pt;'>二〇二一年八月八日</div><div id='7' style='TEXT-ALIGN: right; LINE-HEIGHT: 25pt; MARGIN: 0.5pt 36pt 0.5pt 0cm;FONT-FAMILY: 宋体; FONT-SIZE: 15pt;'>书记员  简厚鑫</div></BODY></HTML>",
"content": "本院依据已经发生法律效力的(2017)黔0122刑初155号刑事判决书,立案执行刘方缴纳罚金一案,经本院执行,被执行人已将生效法律文书所确定的义务履行完毕,本案以执行完毕结案",
"case_code": "(2021)黔0122执1295号",
"docid": "be5c58ab4ffe4249a193ad7f016d7dde"
}
]
}
"task_result": 1000,
"data_type": "detail",
"spider_start_time": "2021-08-17 09:25:10",
"spider_end_time": "2021-08-17 09:26:01",
"spider_start_time": "2021-08-17 18:12:55",
"spider_end_time": "2021-08-17 18:13:20",
"task_params":
{
"cprq": "2021-08-08 TO 2021-08-08",
"cprq_start": "2021-08-15",
"cprq_end": "2021-08-15",
"search_keys": "cprq",
"order": "s41:desc",
"username": "17146647754"
"order": "s51:desc",
"username": "17102540314"
},
"metadata":{},
"metadata": {},
"spider_name": "wenshu_spider",
"spider_ip": "192.168.108.74",
"spider_proxy_source": "",
"data":
{
"detail_items":
[
{
"title": "张锦生、李丽借款合同纠纷执行实施类执行裁定书",
"court_name": "辽宁省朝阳市双塔区人民法院",
"case_code": "(2021)辽1302执580号",
"trial_procedure": "执行实施",
"caseReason":["借款合同纠纷"],
"litigant":["张锦生","李丽"],
"content": "本院在执行申请执行人张锦生与被执行人李丽借款合同纠纷一案中,申请执行人张锦生于2021年3月2日向本院申请执行。本院在执行过程中,申请执行人书面向本院提出撤回执行程序申请",
"judgedate": "2021-08-15",
"publishdate": "2021-08-16",
"docid": "3ecd6e53234a4af69ceaad8500ea6100",
"html": "<!DOCTYPE HTML PUBLIC -//W3C//DTD HTML 4.0 Transitional//EN'><HTML><HEAD><TITLE></TITLE></HEAD><BODY><div style='TEXT-ALIGN: center; LINE-HEIGHT: 25pt; MARGIN: 0.5pt 0cm; FONT-FAMILY: 黑体; FONT-SIZE: 18pt;'>辽宁省朝阳市双塔区人民法院</div><div style='TEXT-ALIGN: center; LINE-HEIGHT: 25pt; MARGIN: 0.5pt 0cm; FONT-FAMILY: 黑体; FONT-SIZE: 18pt;'>执 行 裁 定 书</div><div id='1' style='TEXT-ALIGN: right; LINE-HEIGHT: 25pt; MARGIN: 0.5pt 0cm; FONT-FAMILY: 宋体;FONT-SIZE: 15pt; '>(2021)辽1302执580号</div><div id='2' style='LINE-HEIGHT: 25pt; TEXT-INDENT: 30pt; MARGIN: 0.5pt 0cm;FONT-FAMILY: 宋体; FONT-SIZE: 15pt;'>申请执行人张锦生,男,1951年3月5日出生,汉族,退休职工,住朝阳市双塔区。</div><div style='LINE-HEIGHT: 25pt; TEXT-INDENT: 30pt; MARGIN: 0.5pt 0cm;FONT-FAMILY: 宋体; FONT-SIZE: 15pt;'>被执行人李丽,女,1960年12月28日出生,汉族,朝阳县教师进修学校教师,住朝阳市双塔区。</div><div id='2' style='LINE-HEIGHT: 25pt; TEXT-INDENT: 30pt; MARGIN: 0.5pt 0cm;FONT-FAMILY: 宋体; FONT-SIZE: 15pt;'>本院在执行申请执行人张锦生与被执行人李丽借款合同纠纷一案中,申请执行人张锦生于2021年3月2日向本院申请执行。本院在执行过程中,申请执行人书面向本院提出撤回执行程序申请,依照《中华人民共和国民事诉讼法》第二百五十七条第一项,裁定如下:</div><div id='1' style='LINE-HEIGHT: 25pt; TEXT-INDENT: 30pt; MARGIN: 0.5pt 0cm;FONT-FAMILY: 宋体; FONT-SIZE: 15pt;'>终结(2021)辽1302执580号案件的执行。</div><div style='LINE-HEIGHT: 25pt; TEXT-INDENT: 30pt; MARGIN: 0.5pt 0cm;FONT-FAMILY: 宋体; FONT-SIZE: 15pt;'>本裁定送达后立即生效。</div><div style='TEXT-ALIGN: right; LINE-HEIGHT: 25pt; MARGIN: 0.5pt 36pt 0.5pt 0cm;FONT-FAMILY: 宋体; FONT-SIZE: 15pt;'>审判长 席 牧</div><div style='TEXT-ALIGN: right; LINE-HEIGHT: 25pt; MARGIN: 0.5pt 36pt 0.5pt 0cm;FONT-FAMILY: 宋体; FONT-SIZE: 15pt;'>审判员 吴建军</div><div style='TEXT-ALIGN: right; LINE-HEIGHT: 25pt; MARGIN: 0.5pt 36pt 0.5pt 0cm;FONT-FAMILY: 宋体; FONT-SIZE: 15pt;'>审判员 于 江</div><div style='TEXT-ALIGN: right; LINE-HEIGHT: 25pt; MARGIN: 0.5pt 36pt 0.5pt 0cm;FONT-FAMILY: 宋体; FONT-SIZE: 15pt;'>二〇二一年八月十五日</div><div id='7' style='TEXT-ALIGN: right; LINE-HEIGHT: 25pt; MARGIN: 0.5pt 36pt 0.5pt 0cm;FONT-FAMILY: 宋体; FONT-SIZE: 15pt;'>书记员 赵 爽</div></BODY></HTML>"
}
]
}
}
```
......
Clone repository
  • README
  • basic_guidelines
  • basic_guidelines
    • basic_guidelines
    • dev_guide
    • project_build
    • 开发流程
  • best_practice
  • best_practice
    • AlterTable
    • RDS
    • azkaban
    • create_table
    • design
    • elasticsearch
    • elasticsearch
      • ES运维
    • logstash
View All Pages