... | @@ -11,7 +11,10 @@ company_name: # 名称(自定义) |
... | @@ -11,7 +11,10 @@ company_name: # 名称(自定义) |
|
path: "hdfs://hdp-nn-001:8020/user/data/digest_company_name/"
|
|
path: "hdfs://hdp-nn-001:8020/user/data/digest_company_name/"
|
|
formater: company_name_digest
|
|
formater: company_name_digest
|
|
pattern: "*.gz"
|
|
pattern: "*.gz"
|
|
|
|
offset:
|
|
|
|
path: "/home/collie/product/offset_store"
|
|
```
|
|
```
|
|
* **path**:文件路径,支持hdfs、ftp和本地文件
|
|
* **path**:文件路径,支持hdfs、ftp和本地文件
|
|
* **formater**: 格式化处理器
|
|
* **formater**: 格式化处理器
|
|
* **pattern**: 文件名匹配模式。比如```*.py```匹配.py结尾的文件,```*.gz```匹配.gz格式压缩文件
|
|
* **pattern**: 文件名匹配模式。比如```*.py```匹配.py结尾的文件,```*.gz```匹配.gz格式压缩文件
|
|
|
|
* **offset**: 读取起始的偏移量。如果读取本地文件,将offset设为True, offset文件放在path(init)目录下面。如果读取集群文件,要指定offset文件的存放目录,如示例所示。如果读取的是单个文件,一定要指定offset文件的存放目录。offset文件的命名格式为'.{offset}.db'.format(offset=name), 如示例,则offset文件的路径为:/home/collie/product/offset_store/.company_name.db |