Skip to content

Commit

Permalink
[hdfswriter] optimize code (wgzhao#465)
Browse files Browse the repository at this point in the history
  • Loading branch information
wgzhao authored Dec 6, 2021
1 parent d9c8940 commit 1733039
Show file tree
Hide file tree
Showing 5 changed files with 131 additions and 237 deletions.
11 changes: 4 additions & 7 deletions docs/writer/hdfswriter.md
Original file line number Diff line number Diff line change
Expand Up @@ -18,7 +18,7 @@ HdfsWriter 提供向HDFS文件系统指定路径中写入 `TEXTFile` , `ORCFil
| fileName | 是 | 无 | 要写入的文件名,用于当作前缀
| column ||| 写入的字段列表 |
| writeMode ||| 写入模式,支持 `append`, `overwrite`, `nonConflict` |
| fieldDelimiter || `,` | 指定文本文件的字段分隔符,二进制文件不需要指定该项 |
| fieldDelimiter || `,` | 指定文本文件(即`fileType` 指定为 `text`)的字段分隔符,二进制文件不需要指定该项 |
| encoding || `utf-8` | 文件的编码配置, 目前仅支持 `utf-8` |
| nullFormat ||| 自定义哪些字符可以表示为空,例如如果用户配置: `"\\N"` ,那么如果源头数据是 `"\N"` ,视作 `null` 字段 |
| haveKerberos ||| 是否启用 Kerberos 认证,如果启用,则需要同时配置 `kerberosKeytabFilePath``kerberosPrincipal` |
Expand All @@ -29,14 +29,12 @@ HdfsWriter 提供向HDFS文件系统指定路径中写入 `TEXTFile` , `ORCFil

### path

存储到 Hadoop hdfs文件系统的路径信息,HdfsWriter 会根据并发配置在 `Path` 目录下写入多个文件。为与hive表关联,请填写hive表在hdfs上的存储路径。
例:Hive上设置的数据仓库的存储路径为:`/user/hive/warehouse/` ,已建立数据库:`test`,表:`hello`
则对应的存储路径为:`/user/hive/warehouse/test.db/hello` (如果建表时指定了`location` 属性,则依据该属性的路径)
存储到 Hadoop hdfs文件系统的路径信息,HdfsWriter 会根据并发配置在 `Path` 目录下写入多个文件。为与hive表关联,请填写hive表在hdfs上的存储路径。 例:Hive上设置的数据仓库的存储路径为:`/user/hive/warehouse/`
,已建立数据库:`test`,表:`hello`; 则对应的存储路径为:`/user/hive/warehouse/test.db/hello` (如果建表时指定了`location` 属性,则依据该属性的路径)

### defaultFS

Hadoop hdfs文件系统 namenode 节点地址。格式:`hdfs://ip:port` ;例如:`hdfs://127.0.0.1:9000` ,
如果启用了HA,则为 servicename 模式,比如 `hdfs://sandbox`
Hadoop hdfs文件系统 namenode 节点地址。格式:`hdfs://ip:port` ;例如:`hdfs://127.0.0.1:9000` , 如果启用了HA,则为 servicename 模式,比如 `hdfs://sandbox`

### fileType

Expand All @@ -49,7 +47,6 @@ Hadoop hdfs文件系统 namenode 节点地址。格式:`hdfs://ip:port` ;例
- seq 表示sequence file文件格式
- csv 表示普通hdfs文件格式(逻辑二维表)


### column

写入数据的字段,不支持对部分列写入。为与hive中表关联,需要指定表中所有字段名和字段类型, 其中:`name` 指定字段名,`type` 指定字段类型。
Expand Down
8 changes: 1 addition & 7 deletions lib/addax-storage/pom.xml
Original file line number Diff line number Diff line change
Expand Up @@ -58,13 +58,7 @@
<artifactId>aircompressor</artifactId>
<version>${aircompressor.version}</version>
</dependency>

<dependency>
<groupId>io.trino.hadoop</groupId>
<artifactId>hadoop-apache</artifactId>
<version>${hadoop.version}</version>
</dependency>


<dependency>
<groupId>org.apache.commons</groupId>
<artifactId>commons-csv</artifactId>
Expand Down
Loading

0 comments on commit 1733039

Please sign in to comment.