tidyverse_dot.Rmd

# tidyverse中的dot {#tidyverse-dot}

本章介绍tidyverse的语法中经常遇到`.`， 不同的场景，含义不同。因此很有必要弄清楚各自的含义。

```{r dot-1, message = FALSE, warning = FALSE}
library(tidyverse)
```


## 每一行的 `.` 各自代表什么意思呢?

```{r dot-2, eval = F}
read_csv("./data/wages.csv") %>%
  mutate(letter = str_extract(race, "(?<=h)(.)")) %>%
  select(., -letter) %>%
  mutate_at(vars(race), ~ as.factor(.)) %>%
  mutate_at(vars(sex), ~ if_else(. == "male", 1, 0)) %>%
  filter_if(~ is.numeric(.), all_vars(. != 0)) %>%
  split(.$sex) %>%
  map(~ lm(earn ~ ., data = .)) %>%
  map_dfr(~ broom::tidy(.), .id = "sex")
```

回答之前，我们先介绍一些相关知识点

## 占位符

管道符号` %>%` 主要功能是传递参数。

- `y %>% f()` is equivalent to `f(y)` 

- `y %>% f(x, .)` is equivalent to `f(x, y)` 
 
- `z %>% f(x, y, arg = .)` is equivalent to `f(x, y, arg  = z)`

我们经常这样写
```{r dot-3}
mtcars %>%
  select(cyl, disp, hp) %>%
  head(2)
```

实际上，这里是有占位符的
```{r dot-4}
mtcars %>%
  select(., cyl, disp, hp) %>%
  head(., 2)
```

## Lambda函数

`.`出现在函数`.f`的位置上， 就是 purrr 风格的Lambda函数`~ fun(.)`， 
```{r dot-5}
mtcars %>%
  select_at(vars(contains("ar")), ~ toupper(.)) %>%
  head(3)
```

有时候程序员会将`~toupper(.) `简写成 `toupper`
```{r dot-6}
mtcars %>%
  select_at(vars(contains("ar")), toupper) %>%
  head(3)
```


## 正则表达式

```{r dot-7}
words <- "the fattest cat."
```


```{r dot-8}
words %>% str_replace_all("t.", "-")
```


```{r dot-9}
words %>% str_replace_all("t\\.", "-")
```


## Unary funciton (只带一个参数的函数)
<!-- A pipeline with a dot (.) as LHS will create a unary function. -->

```{r dot-10}
mean_rm <- . %>% mean(na.rm = T)

c(1, 2, 3, NA) %>% mean_rm()
```

等价于
```{r dot-11}
# is equivalent to
c(1, 2, 3, NA) %>% mean(., na.rm = T)
```


## more placeholder


```{r dot-12}
iris %>% subset(1:nrow(.) %% 30 == 0)
```


```{r dot-13}
1:10 %>% {
  c(min(.), max(.))
}
```


## 当mutate遇到map

当`dplyr::mutate`遇到`purrr::map`，情况就复杂很多了。然而，这种情况，tidyverse比比皆是。我就多说几句吧

```{r dot-14}
iris %>%
  head(3) %>%
  mutate(., r_sum = pmap_dbl(select_if(., is.numeric), sum))
```

这里`mutate()`行，有两个`.`, 实际这两个`.`都是等待`iris %>% head(3)`传来的data.frame


```{r dot-15, warning=FALSE, message=FALSE}
df <- tibble(
  mean = c(1, 2),
  sd = c(2, 4)
)
df


df %>%
  dplyr::mutate(., rand = map(mean, ~ rnorm(5, .))) %>%
  tidyr::unnest_wider(col = rand, names_sep = " ")
```


- 第一个 `.`， 是`df`
- 第二个 `.`， 是`df`中的`mean`


```{r dot-16, warning=FALSE, message=FALSE}
df %>%
  dplyr::mutate(rand = map2(mean, sd, ~ rnorm(5, .x, .y))) %>%
  tidyr::unnest_wider(rand, names_sep = " ")
```

- `mean`传给 `.x`
- `sd`传给 `.y`


再来一个变态的。（我们不一定要这样写，但我们尽可能的要明白它的意思。）

```{r dot-17}
df <- tribble(
  ~a, ~b,
  1, 10,
  2, 11
)


df %>%
  dplyr::mutate(., sum = purrr::pmap_dbl(., ~ sum(...)))
```


## Dot dot dot
```{r dot-18}
commas <- function(...) {
  stringr::str_c(..., collapse = ", ")
}


commas(letters[1:10])
```


## Don't confuse 

<!-- Don't confuse with many function arguments that are prefixed with a . -->
注意：有些函数的参数前缀是 .

```{r dot-19, eval= F}
mutate_all(.tbl, .funs, ...)

mutate_if(.tbl, .predicate, .funs, ...)

mutate_at(.tbl, .vars, .funs, ..., .cols = NULL)

select_all(.tbl, .funs = list(), ...)

rename_all(.tbl, .funs = list(), ...)
```


## 小结

* tidyvere中
  + 占位符(时常经常和 `%>%` 一起)
  + Lambda函数
  + 一元函数（LHS）
 
* 其他情形
  + 回归公式
  + 正则表达式
 
* 注意
  + 有些函数参数以 . 前缀(不要混淆喔! )
 
 
## 回答问题

现在回答本章开始的问题

```{r dot-20, warning=FALSE, message=FALSE}
read_csv("./demo_data/wages.csv") %>%
  dplyr::mutate(letter = str_extract(race, "(?<=h)(.)")) %>%
  dplyr::select(., -letter) %>%
  dplyr::mutate_at(vars(race), ~ as.factor(.)) %>%
  dplyr::mutate_at(vars(sex), ~ if_else(. == "male", 1, 0)) %>%
  dplyr::filter_if(~ is.numeric(.), all_vars(. != 0)) %>%
  split(.$sex) %>%
  purrr::map(~ lm(earn ~ ., data = .)) %>%
  purrr::map_dfr(., ~ broom::tidy(.), .id = "sex")
```

- 第1行：路径中`.`代表当前位置，如果是`..`表示上一级目录
- 第2行：正则表达式，代表任何字符
- 第3行：占位符，等待数据框的传入，也可以简写`select(-letter)`
- 第4行: lambda函数，`~ as.factor(.)`也可以简写`as.factor`，`~`和`(.)`要么都写，要么都不写
- 第5行：同上,lambda函数
- 第6行：第一个`.`代表lambda函数; 第二个`.`也是lambda函数，但这里它是`all_vars(expr)`中expr的一种特有写法，代表所有数值型变量，***行方向构成的向量**, `all_vars(. != 0)`函数返回TRUE或FALSE，从而帮助`filter()`是否筛选该行
- 第7行：占位符，代表上面传来的数据框
- 第8行：回归模型`lm`中，第一个`.`代表除**因变量**earn之外所有的变量，第二个`.`占位符，留给上面的数据框
- 第9行：第一个`.`是占位符，代表上面传来的list，第二个`.`lambda函数，依次对list的元素迭代处理，第二个`.`是参数名，`.id`是特有的一个符号。


```{r dot-21, echo = F}
# remove the objects
# rm(list=ls())
rm(df, mean_rm, words, commas)
```

```{r dot-22, echo = F, message = F, warning = F, results = "hide"}
pacman::p_unload(pacman::p_loaded(), character.only = TRUE)
```