Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in / Register
K
kb
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 2
    • Issues 2
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • Operations
    • Operations
    • Incidents
  • Analytics
    • Analytics
    • Repository
    • Value Stream
  • Wiki
    • Wiki
  • Members
    • Members
  • Activity
  • Graph
  • Create a new issue
  • Commits
  • Issue Boards
Collapse sidebar
  • granite
  • kb
  • Wiki
    • Data_stream
    • Equity_penetration
  • qcc

Last edited by 蒋家升 Jun 14, 2023
Page history
This is an old version of this page. You can view the most recent version or browse the history.

qcc

基本信息

股权穿透QCC爬虫
equity_penetration_qcc,通过scrapy部署
项目名称:project-gravel
分支:develop_equity_penetration

数据名称(中文)

股权穿透QCC爬虫

数据英文名称

equity_penetration_qcc

采集网站(采集入口)

官网PC端入口:
https://www.qcc.com

采集文件存放路径:
/data/gravel_spiders/equity_penetration_qcc

采集频率及采集策略

存量更新策略

目前全量更新一轮地域与公司遍历

增量采集策略


爬虫

股权穿透QCC爬虫 equity_penetration_qcc

责任人

蒋家升

爬虫名称

equity_penetration_qcc

代码地址

项目地址: http://tech.pingansec.com/granite/project-gravel/-/tree/develop_equity_penetration

队列名称及队列地址

  • redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
  • redis port: 6379
  • redis db: 7
  • redis key:
    • qcc

优先级队列说明

  • equity_penetration 支持队列优先级

任务来源

任务输入参数(样例)

# 地域列表任务
{"area_code": "AH_340100", "page": "1"}

# 搜索列表任务
{"search_key": "北京出国邦出入境服务有限公司"}

# 详情页信息
{"fid": "0727d5d1a4f95d791ff4b7ce5d6e975a"}

任务样例

任务参数说明

  • area_code: 省份/市区编码,例如:安徽(AH); 合肥(AH_340100)
  • page: 页码
  • search_key: 搜索框输入内容
  • fid: QCC企业id

data_type说明

  • list_region: 地域列表
  • list_search: 搜索列表
  • detail_company: 公司详情页信息
  • detail_person: 个人详情页信息

爬虫结果的超级数据

同以下实际爬虫结果

实际爬虫结果的数据结构

  • 地域列表任务结果
{
  "data":
  [
    {
      "fid": "13df1591b2302573e518c410acd7b2b4",
      "qcc_url": "https://www.qcc.com/firm/13df1591b2302573e518c410acd7b2b4.html",
      "company_name": "大渡口区玖贰辉荟服装经营部"
    },
    {
      "fid": "b028024bb8010add7d668bed6e8b0079",
      "qcc_url": "https://www.qcc.com/firm/b028024bb8010add7d668bed6e8b0079.html",
      "company_name": "重庆心揽科技发展有限公司"
    },
    ...
  ],
  "http_code": 200,
  "error_msg": "",
  "task_result": 1000,
  "data_type": "list_region",
  "spider_start_time": "2021-11-24 22:41:29.584",
  "spider_end_time": "2021-11-24 22:41:29",
  "task_params": {"area_code": "CQ_500104","page": "5"},
  "metadata": {"area_code": "CQ_500104","page": "5"},
  "spider_name": "equity_penetration_qcc",
  "spider_ip": "10.8.6.51"
}
  • 公司页详情结果
{
  "data":
  {
    "business_license":
    {
      "登记状态": "存续(在营、开业、在册)",
      "成立日期": "2015-07-27",
      "人员规模": "1000-1999人",
      "曾用名": "上海识装贸易有限公司",
      "进出口企业代码": "3100351008055",
      "统一社会信用代码": "91310000351008055W",
      "企业名称": "上海识装信息科技有限公司",
      "注册资本": "100万元人民币",
      "实缴资本": "100万元人民币",
      "核准日期": "2021-06-23",
      "组织机构代码": "35100805-5",
      "工商注册号": "310141000181698",
      "纳税人识别号": "91310000351008055W",
      "企业类型": "其他有限责任公司",
      "营业期限": "2015-07-27至2045-07-26",
      "纳税人资质": "-",
      "所属行业": "批发业",
      "所属地区": "上海市",
      "登记机关": "虹口区市场监督管理局",
      "最新年报地址": "上海市杨浦区黄兴路221号互联宝地C栋4层(2020年报)",
      "经营范围": "许可项目:第二类增值电信业务;拍卖业务;出版物互联网销售;出版物零售;货物进出口;技术进出口;食品经营。(依法须经批准的项目,经相关部门批准后方可开展经营活动,具体经营项目以相关部门批准文件或许可证件为准)一般项目:从事网络信息、计算机科技专业领域内的技术开发、技术转让、技术咨询、技术服务;互联网数据服务;大数据服务;数据处理服务;电子商务(不得从事增值电信、金融业务);广告设计、代理;广告作;广告发布(非广播电台、电视台、报刊出版单位);商务信息咨询(不含投资类咨询);互联网销售(除销售需要许可的商品);票务代理服务;销售日用百货,鞋帽,箱包,钟表,服装服饰,化妆品,电子产品,通信设备及相关产品,针纺织品,厨房用品,卫生洁具,家用电器,体育用品及器材,健身器材,文化用品,日用杂品,宠物食品及用品;食品经营(限分支机构经营)。(除依法须经批准的项目外,凭营业执照依法自主开展经营活动)",
      "法定代表人":
      {
        "legal_person": "杨冰",
        "pid": "p533ed7fc11205e102e124f5c85df3cc"
      },
      "参保人数": "1074",
      "英文名": "ShanghaiMdtInfoTechLtd",
      "注册地址": "上海市虹口区中山北一路121号B6-2005室"
    },
    "main_members":
    [
      {
        "职务": "执行董事,法定代表人",
        "持股比例": "**********",
        "最终受益股份": "**********",
        "姓名":
        {
          "member": "杨冰",
          "pid": "p533ed7fc11205e102e124f5c85df3cc",
          "tags":
          [
            "实际控制人",
            "最终受益人",
            "大股东"
          ]
        }
      },
      {
        "职务": "监事",
        "持股比例": "**********",
        "最终受益股份": "**********",
        "姓名":
        {
          "member": "田俊杰",
          "pid": "pbd488fa8078b7a8a994f83cf1f58f94"
        }
      }
    ],
    "shareholders":
    [
      {
        "持股比例": "**********",
        "最终受益股份": "**********",
        "认缴出资额(万元)": "**********",
        "认缴出资日期": "2025-07-30",
        "参股日期": "2018-04-11",
        "关联产品/机构": "-",
        "股东及出资信息":
        {
          "shareholder": "杨冰",
          "pid": "p533ed7fc11205e102e124f5c85df3cc",
          "tags":
          [
            "大股东",
            "实际控制人",
            "最终受益人"
          ]
        }
      },
      {
        "持股比例": "**********",
        "最终受益股份": "**********",
        "认缴出资额(万元)": "**********",
        "认缴出资日期": "2025-07-30",
        "参股日期": "2015-11-27",
        "关联产品/机构": "-",
        "股东及出资信息":
        {
          "shareholder": "上海唯物信息系统合伙企业(有限合伙)",
          "fid": "9a52086f6b6040033482e987b348d0c5",
          "tags":
          [
            "有股权出质"
          ]
        }
      },
      {
        "持股比例": "**********",
        "最终受益股份": "**********",
        "认缴出资额(万元)": "**********",
        "认缴出资日期": "2025-07-30",
        "参股日期": "2018-10-22",
        "关联产品/机构": "虎扑",
        "股东及出资信息":
        {
          "shareholder": "虎扑(上海)文化传播股份有限公司",
          "fid": "39430a805f1438038656d3bd346e0116",
          "tags":
          [
            "有股权出质"
          ]
        }
      }
    ],
    "company_pv": "19万+"
  },
  "http_code": 200,
  "error_msg": "",
  "task_result": 1000,
  "data_type": "detail_company",
  "spider_start_time": "2021-12-01 16:13:50.975",
  "spider_end_time": "2021-12-01 16:13:53",
  "task_params":
  {
    "fid": "72e4caf95a05c8122ba9c8e9bc90e7f1"
  },
  "metadata":
  {
    "fid": "72e4caf95a05c8122ba9c8e9bc90e7f1"
  },
  "spider_name": "equity_penetration_qcc",
  "spider_ip": "10.8.1.30"
}

爬虫运行环境

scrapy

爬虫部署信息

target: node_51
project: equity_penetration
spider_name: equity_penetration_qcc

Taskhub地址

提交任务地址: 
代码编写地址: 

Taskhub调度规则说明

task_result=1000    # 正常获取到详情任务
task_result=1101    # 无结果信息
task_result=9101    # 超时错误,需要进行重试,目前重试5次
task_result=8000    # 参数错误

爬虫监控指标设计

(先观察,待补充)
索引: 
监控频率: 
监控起止时间: 
报警条件: 
报警群:  
报警内容: 

数据归集

责任人

数据归集方式

  • 爬虫直接写kafka

  • 爬虫写文件logstash采集

爬虫结果目录

采集文件存放路径:
/data/gravel_spiders/equity_penetration_qcc

归集后存放目录

/data2_227/grvael_spider_result/equity_penetration_qcc

logstash配置文件名称

logstash文件采集type

equity_penetration_qcc

数据归集的topic

general-taxpayer

ES日志索引及筛选条件

gravel-spider-data-*

监控指标看板

数据保留策略


数据清洗

责任人

代码地址

部署地址

部署方法及说明

  • crontab + data_pump
  • supervisor + data_pump
  • supervisor + consumer

数据接收来源

数据存储表地址

  • 数据库地址:
  • 表名:
Clone repository
  • README
  • basic_guidelines
  • basic_guidelines
    • basic_guidelines
    • dev_guide
    • project_build
    • 开发流程
  • best_practice
  • best_practice
    • AlterTable
    • RDS
    • azkaban
    • create_table
    • design
    • elasticsearch
    • elasticsearch
      • ES运维
    • logstash
View All Pages