2021/10/12

rosinality · Oct 12, 2021 · 19c4b52 · 19c4b52 · dhkim0225 · Oct 12, 2021
1 parent 899f72c
commit 19c4b52
Show file tree

Hide file tree

Showing 43 changed files with 387 additions and 9 deletions.
diff --git a/README.md b/README.md
diff --git a/papers/210824 SimVLM.md b/papers/210824 SimVLM.md
@@ -0,0 +1,10 @@
+https://arxiv.org/abs/2108.10904
+
+SimVLM: Simple Visual Language Model Pretraining with Weak Supervision (Zirui Wang, Jiahui Yu, Adams Wei Yu, Zihang Dai, Yulia Tsvetkov, Yuan Cao)
+
+심플한 (그렇지만 쓴 데이터의 규모는 심플하지 않은) vision language model. 이미지와 텍스트 시퀀스의 앞 부분을 트랜스포머어 넣어주고 텍스트의 나머지를 autoregressive decoding하게 하는 방식으로 학습시켰군요. 쓴 데이터를 보니까 다른 모델을 다 깨버리겠다는 각오가 눈에 띄네요.
+
+이런 형태의 generative pretraining으로는 [[210318 All NLP Tasks Are Generation Tasks]]이 생각나는군요. 물론 이쪽이 더 심플하긴 합니다.
+
+#vision-language #generative_model 
+
diff --git a/papers/210825 Multi-Task Self-Training for Learning General Representations.md b/papers/210825 Multi-Task Self-Training for Learning General Representations.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2108.11353
+
+Multi-Task Self-Training for Learning General Representations (Golnaz Ghiasi, Barret Zoph, Ekin D. Cubuk, Quoc V. Le, Tsung-Yi Lin)
+
+마침 좋은 결과가 나왔네요. multitask learning을 하고 싶은데 이미지에 달려 있는 레이블의 종류가 부족하다면 없는 레이블은 pseudo label을 만들어서 쓰면 된다는 발상. 꽤 괜찮아 보이네요.
+
+#multitask
diff --git a/papers/210826 Train Short, Test Long.md b/papers/210826 Train Short, Test Long.md
@@ -0,0 +1,9 @@
+https://ofir.io/train_short_test_long.pdf
+
+Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation (Ofir Press, Noah A. Smith, Mike Lewis)
+
+학습때 본 시퀀스 길이 이상에서도 작동하는 attention (positional encoding) 만들기. 더 복잡한 pe가 아니라 오히려 더 단순하게 relative position에 대한 고정된 scalar bias * 고정된 헤드별 scalar weight로 만들어놨습니다.
+
+다만 이 extrapolation의 효과는 inference시에 더 긴 시퀀스에서 더 긴 context를 모델링하는 효과라기보다는 학습 당시에 본 길이만큼으로 attention을 억제하는 효과에 가깝긴 하네요. (다시 말해 다른 pe와는 달리 터지지 않는다는 쪽에 가깝습니다.) 모두가 꿈꾸는 context를 더 주면 더 잘 하는 모델은 여전히 쉽지 않을 것 같네요. (애초에 가능한 것인지 좀 의심스럽기는 합니다만...)
+
+#positional_encoding #attention 
diff --git a/papers/210827 Injecting Text in Self-Supervised Speech Pretraining.md b/papers/210827 Injecting Text in Self-Supervised Speech Pretraining.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2108.12226
+
+Injecting Text in Self-Supervised Speech Pretraining (Zhehuai Chen, Yu Zhang, Andrew Rosenberg, Bhuvana Ramabhadran, Gary Wang, Pedro Moreno)
+
+transcription이 없는 speech를 사용한 프리트레이닝에 tts를 사용해서 speech가 없는 텍스트에 대한 프리트레이닝을 결합. asr도 self supervision이 상당히 효과적으로 돌아가고 있는 것 같네요.
+
+#asr #self_supervised 
diff --git a/papers/210830 A Battle of Network Structures.md b/papers/210830 A Battle of Network Structures.md
@@ -0,0 +1,13 @@
+https://arxiv.org/abs/2108.13002
+
+A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP (Yucheng Zhao, Guangting Wang, Chuanxin Tang, Chong Luo, Wenjun Zeng, Zheng-Jun Zha)
+
+똑같은 형태의 네트워크를 만들고 conv, self attention, mlp를 갈아끼워넣으면서 성능이 가장 잘 나오는 게 어느쪽인지 테스트해보자는 발상. 결과적으로 스코어는 비슷비슷하긴 합니다. (미묘하게 트랜스포머가 가장 나아보이기도 하지만)
+
+추가로 멀티스테이지 구조와 로컬리티가 중요하다는 것을 발견. 요것도 친숙하긴 하죠.
+
+거기에 cnn과 트랜스포머의 하이브리드가 좋지 않을까 하는 것도 발견. 이것도 요즘 (다들) 해볼만한 생각이긴 하죠.
+
+사실 전 이미지넷보다는 디텍션이나 세그먼테이션 같은 다운스트림 과제로 넘어갔을 때의 퍼포먼스에 주목해야하지 않을까 싶긴 합니다. 다만 mlp 구조 중에 이쪽으로 넘어갈 수 있는 친구들이 거의 없는 상태죠.
+
+#cnn #transformer #mlp #backbone
diff --git a/papers/210830 Shatter.md b/papers/210830 Shatter.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2108.13032
+
+Shatter: An Efficient Transformer Encoder with Single-Headed Self-Attention and Relative Sequence Partitioning (Ran Tian, Joshua Maynez, Ankur P. Parikh)
+
+bert 학습이 빠른 트랜스포머. attention 행렬에 적당한 relative position에 따라 변화하는 적당한 polynomial을 곱해서 relative position bias처럼 사용하기, softmax 대신 sigmoid attention 사용하기, multi head 대신 single head를 사용해서 key projection을 빼버리기, 추가로 query, value에 대해 position에 대한 bias를 query/value에 대한 projection으로 계산 등이 들어갔습니다. 기묘하네요.
+
+#bert #transformer
diff --git a/...210902 Do Prompt-Based Models Really Understand the Meaning of their Prompts.md b/...210902 Do Prompt-Based Models Really Understand the Meaning of their Prompts.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2109.01247
+
+Do Prompt-Based Models Really Understand the Meaning of their Prompts? (Albert Webson, Ellie Pavlick)
+
+프롬프트를 사용해서 파인튜닝을 했을 때 프롬프트가 어떤 형태인지가 영향을 미치는가에 대한 실험. 그러니까 말도 안 되는 프롬프트를 주면 어떻게 되는가인데...이런 실험을 했다는 것에서 이미 결론을 알 수 있듯 별 차이가 안 보인다는 발견입니다. 역으로 중요한 건 예측 대상 단어, 즉 yes/no를 예측하도록 학습시키는가 혹은 true/false 같은 걸 예측하도록 학습시키는가였다고 하네요.
+
+#lm #prompt
diff --git a/papers/210902 Skim-Attention.md b/papers/210902 Skim-Attention.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2109.01078
+
+Skim-Attention: Learning to Focus via Document Layout (Laura Nguyen, Thomas Scialom, Jacopo Staiano, Benjamin Piwowarski)
+
+문서의 레이아웃 정보, 즉 토큰의 좌표 정보를 미리 인코더에 집어넣어서 attention mask를 만들고 이걸 사용해서 sparse attention을 만든다...이런 아이디어네요. 일반적인 layoutlm과 많이 비슷하지만 목표가 다릅니다. 이걸 보니 unsupervised layout analysis가 가능하지 않을까 하는 생가도 드네요.
+
+#layout
diff --git a/papers/210903 Finetuned Language Models Are Zero-Shot Learners.md b/papers/210903 Finetuned Language Models Are Zero-Shot Learners.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2109.01652
+
+Finetuned Language Models Are Zero-Shot Learners (Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, Quoc V. Le)
+
+구글 사람들은 llm 가지고 뭘 안 하나 싶었는데 이런 걸 하고 있었군요. 다양한 nlp 과제를 일정한 템플릿(일종의 과제 지시문) 형태로 변형해서 이 과제를 풀도록 파인튜닝 했을 때 학습에 나오지 않은 과제에 대해서도 성능이 크게 향상된다...는 아이디어군요.
+
+#lm #zero-shot
diff --git a/...Empirical Study on Few-shot Knowledge Probing for Pretrained Language Models.md b/...Empirical Study on Few-shot Knowledge Probing for Pretrained Language Models.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2109.02772
+
+An Empirical Study on Few-shot Knowledge Probing for Pretrained Language Models (Tianxing He, Kyunghyun Cho, James Glass)
+
+bert knowledge probing에서 결과가 잘 안 나오는 이유는 예측 결과의 카테고리가 안 맞기 때문인 경우가 많다. 예를 들어 태어난 도시를 묻는데 태어난 국가나 태어난 연도를 예측해서 틀리는 이슈가 많다는 것. few shot으로 살짝 파인튜닝해주면 훨씬 나아진다. 재미있는 점은 파인튜닝 할 때 프롬프트 이상으로 bias만 학습시켜주는 접근이 효과적이었다는 것.
+
+#few_shot #knowledge_base #bert #prompt
diff --git a/papers/210906 Parsing Table Structures in the Wild.md b/papers/210906 Parsing Table Structures in the Wild.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2109.02199
+
+Parsing Table Structures in the Wild (Rujiao Long, Wen Wang, Nan Xue, Feiyu Gao, Zhibo Yang, Yongpan Wang, Gui-Song Xia)
+
+오...드디어 실제 촬영 이미지로 구축한 테이블 데이터셋이 나왔군요! centernet에 키포인트 검출을 엮어 structure parsing 모델도 만들었네요.
+
+#table
diff --git a/papers/210907 Beyond Preserved Accuracy.md b/papers/210907 Beyond Preserved Accuracy.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2109.03228
+
+Beyond Preserved Accuracy: Evaluating Loyalty and Robustness of BERT Compression (Canwen Xu, Wangchunshu Zhou, Tao Ge, Ke Xu, Julian McAuley, Furu Wei)
+
+bert compression에서 accuracy 같은 메트릭 뿐만 아니라 teacher와 student 사이의 예측 레이블의 차이, 예측 확률 분포의 차이 등을 고려해보자 이런 아이디어군요. 예측 레이블은 비슷비슷한데 예측 확률은 차이가 꽤 있어보이네요. distillation이 들어가면 예측 확률의 차이가 줄어든다는 결과. 추가로 post training quantization을 하면 adversarial attack에 대한 robustness가 꽤 향상되는군요.
+
+#bert #lightweight #distillation 
diff --git a/papers/210907 Datasets.md b/papers/210907 Datasets.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2109.02846
+
+Datasets: A Community Library for Natural Language Processing (Quentin Lhoest, Albert Villanova del Moral, Yacine Jernite, Abhishek Thakur, Patrick von Platen, Suraj Patil, Julien Chaumond, Mariama Drame, Julien Plu, Lewis Tunstall, Joe Davison, Mario Šaško, Gunjan Chhablani, Bhavitvya Malik, Simon Brandeis, Teven Le Scao, Victor Sanh, Canwen Xu, Nicolas Patry, Angelina McMillan-Major, Philipp Schmid, Sylvain Gugger, Clément Delangue, Théo Matussière, Lysandre Debut, Stas Bekman, Pierric Cistac, Thibault Goehringer, Victor Mustar, François Lagunas, Alexander M. Rush, Thomas Wolf)
+
+huggingface datasets. 논문 거의 대부분이 acknowledgements, references, authors이긴 하네요.
+
+#dataset 
diff --git a/papers/210907 How much pretraining data do language models need to learn syntax.md b/papers/210907 How much pretraining data do language models need to learn syntax.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2109.03160
+
+How much pretraining data do language models need to learn syntax? (Laura Pérez-Mayos, Miguel Ballesteros, Leo Wanner)
+
+음 더 많은 데이터를 쓰면 더 잘 배우고 downstream task에 대해서도 성능이 높아지고 그렇기는 합니다. https://arxiv.org/abs/2011.04946 에서 1억 단어 정도면 syntactic/semantic한 정보는 대부분 배우는 것 같다고 보고했었는데 결과가 상통하는 점이 있는 것 같네요. 그 이상의 데이터는 commonsense의 문제일 수도 있겠죠.
+
+#bert #pretraining
diff --git a/papers/210907 Rare Words Degenerate All Words.md b/papers/210907 Rare Words Degenerate All Words.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2109.03127
+
+Rare Words Degenerate All Words (Sangwon Yu, Jongyoon Song, Heeseung Kim, Seong-min Lee, Woo-Jong Ryu, Sungroh Yoon)
+
+단어 임베딩 벡터의 singular value가 좁은 영역에 몰리는 방식으로 학습되는 이슈가 있었군요. rare word 때문에 발생하는 현상이라고 하는데...이걸 보완하고자 하는 방법입니다. 보고 있으니 word2vec 시대도 생각나고 그렇네요.
+
+#embedding 
diff --git a/...210908 A Recipe For Arbitrary Text Style Transfer with Large Language Models.md b/...210908 A Recipe For Arbitrary Text Style Transfer with Large Language Models.md
@@ -0,0 +1,11 @@
+https://arxiv.org/abs/2109.03910
+
+A Recipe For Arbitrary Text Style Transfer with Large Language Models (Emily Reif, Daphne Ippolito, Ann Yuan, Andy Coenen, Chris Callison-Burch, Jason Wei)
+
+구글 사람들이 요즘 llm으로 해보고 있는 것들. text style transfer인데...프롬프트 튜닝에서 style transfer 사례들을 추가할 때(few-shot) 타게팅하는 스타일을 입력해주는 것이 아니라 여러 스타일 사례들을 프롬프트로 추가해서 style transfer라는 일반적인 과제로 모델을 가이드한다...이런 느낌이군요.
+
+한 가지 재미있는 트릭이 있는데 모델이 삑살난 케이스를 검출하기 위해 중괄호({)를 프롬프트에 추가해서 닫는 중괄호가 나오지 않으면 거르는 방식을 썼네요.
+
+nlp에는 bert 이후에 그랬던 것처럼 한동안 llm 하나 만들어놓고 이것저것 해보고 찔러보는 연구들이 많이 나오겠네요.
+
+#lm #prompt 
diff --git a/papers/210908 Panoptic SegFormer.md b/papers/210908 Panoptic SegFormer.md
@@ -0,0 +1,11 @@
+https://arxiv.org/abs/2109.03814
+
+Panoptic SegFormer (Zhiqi Li, Wenhai Wang, Enze Xie, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Tong Lu, Ping Luo)
+
+panoptic segmentation 모델이 하나 나왔네요. multiscale feature를 deformable attention encoder로 결합, location decoder로 각 instance의 위치 정보를 찾아낸 다음 이 정보를 mask decoder에 쿼리로 입력해 마스크를 뽑는 방식이군요. 흥미롭네요. deformable attention과 location을 쿼리의 초기값으로 잡는 방식이 디자인을 쉽게 만드는 측면이 있는 것 같습니다.
+
+(segformer라는 이름이 붙어있긴 한데 역시 과제가 과제라서 그런지 segformer스러운 극단적인 심플함은 없긴 하네요.)
+
+pvtv2를 백본으로 썼는데...어느새 pvtv2가 나왔었군요. 입력 크기를 줄이는 방식으로 태클하는 모델이라 한계가 있다는 생각을 했었는데 어쩌면 보통 쓰는 정도의 입력 크기에서 경쟁력이 있을 수도 있겠네요.
+
+#panoptic_segmentation #transformer #detr 
diff --git a/papers/210908 Scaled ReLU Matters for Training Vision Transformers.md b/papers/210908 Scaled ReLU Matters for Training Vision Transformers.md
@@ -0,0 +1,9 @@
+https://arxiv.org/abs/2109.03810
+
+Scaled ReLU Matters for Training Vision Transformers (Pichao Wang, Xue Wang, Hao Luo, Jingkai Zhou, Zhipeng Zhou, Fan Wang, Hao Li, Rong Jin)
+
+vit에서 stem에 conv를 써주면 좋다는 건 이제 잘 알려진 사실일 것 같긴 합니다. 이 논문은 추가로 scaled relu, 그러니까 일반적으로는 normalization + relu가 conv stem에 들어가는 것이 중요하다는 이야기를 합니다. 음 activation과 normalization이 들어가면 안정화되는 것/성능이 향상되는 것은 자연스럽지 않나 싶긴 한데요. 반대로 patch stem에 scaled relu가 들어갔을 때의 변화 등으로 효과가 나타나면 좋았을 듯 한데 그 부분은 강하지 않은 것 같네요.
+
+어쨌든 conv stem이 고성능/학습 안정성에 도움이 된다는 건 이제 분명해보이네요. dino에 대해 실험한 결과도 있어서 유용하네요.
+
+#vit #cnn
diff --git a/papers/210909 Bag of Tricks for Optimizing Transformer Efficiency.md b/papers/210909 Bag of Tricks for Optimizing Transformer Efficiency.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2109.04030
+
+Bag of Tricks for Optimizing Transformer Efficiency (Ye Lin, Yanyang Li, Tong Xiao, Jingbo Zhu)
+
+nmt 모델 추론 속도 가속하기. 대부분의 시간을 디코더에서 잡아막으니 디코더를 깎는 것이 핵심인데...ffn이 없는 1 헤드 1 디코더 블럭으로 디코더를 축소했군요. 그냥 lstm 쓰기와 비교하면 어떨지 궁금하네요. (이정도로 줄이면 비슷할 것 같긴 하네요.)
+
+#nmt #transformer #lightweight 
diff --git a/papers/210909 PIMNet.md b/papers/210909 PIMNet.md
@@ -0,0 +1,3 @@
+https://arxiv.org/abs/2109.04145
+
+PIMNet: A Parallel, Iterative and Mimicking Network for Scene Text Recognition (Zhi Qiao, Yu Zhou, Jin Wei, Wei Wang, Yuan Zhang, Ning Jiang, Hongbin Wang, Weiping Wang)
diff --git a/papers/210910 Instance-Conditioned GAN.md b/papers/210910 Instance-Conditioned GAN.md
@@ -0,0 +1,9 @@
+https://arxiv.org/abs/2109.05070
+
+Instance-Conditioned GAN (Arantxa Casanova, Marlène Careil, Jakob Verbeek, Michal Drozdzal, Adriana Romero-Soriano)
+
+pretrain된 네트워크로 이미지 임베딩을 뽑은 다음 이 이미지 임베딩을 condition으로 generator와 discriminator에 주입 & 이미지 임베딩의 k-nn 임베딩을 학습에 사용. 사실 이미지 한 장이 열 클래스 레이블보다 낫긴 하죠.
+
+feature embedding을 써서 학습을 향상시키는 작업은 이전에도 있었지만 좀 더 과감하긴 하네요.
+
+#gan
diff --git a/papers/210910 LibFewShot.md b/papers/210910 LibFewShot.md
@@ -0,0 +1,9 @@
+https://arxiv.org/abs/2109.04898
+
+LibFewShot: A Comprehensive Library for Few-shot Learning (Wenbin Li, Chuanqi Dong, Pinzhuo Tian, Tiexin Qin, Xuesong Yang, Ziyi Wang, Jing Huo, Yinghuan Shi, Lei Wang, Yang Gao, Jiebo Luo)
+
+각종 few shot learning 알고리즘들을 모아 정리하고 조건을 맞춰 비교 실험을 해봤군요. 이런 어마어마한 청소 작업을 해내다니 대단하네요.
+
+파인튜닝 기반 방법들에서 딱히 실제로 파인튜닝이 필요한 건 아니고 임베딩을 잘 뽑았다면 l2 normalize를 해주고 k-nn을 돌려도 비슷하게 나온다거나 하는 점은 흥미롭네요.
+
+#few_shot 
diff --git a/papers/210910 Panoptic Narrative Grounding.md b/papers/210910 Panoptic Narrative Grounding.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2109.04988
+
+Panoptic Narrative Grounding (C. González, N. Ayobi, I. Hernández, J. Hernández, J. Pont-Tuset, P. Arbeláez)
+
+오...visual grounding에서 한 발짝 더 나아갔군요. 이미지 캡션에 대해서 상응하는 panoptic segmentation map을 생성하는 과제, 데이터셋, 베이스라인 모델을 만들어 공개했습니다.
+
+#visual_grounding #panoptic_segmentation 
diff --git a/papers/210910 ReasonBERT.md b/papers/210910 ReasonBERT.md
@@ -0,0 +1,9 @@
+https://arxiv.org/abs/2109.04912
+
+ReasonBERT: Pre-trained to Reason with Distant Supervision (Xiang Deng, Yu Su, Alyssa Lees, You Wu, Cong Yu, Huan Sun)
+
+엔티티 사이의 관계를 추론할 수 있는 능력을 탑재한 bert. 프리트레이닝 시에 단순히 mlm을 하는 게 아니라, 텍스트에서 엔티티들의 페어를 찾은 다음 그 페어가 들어있는 다른 텍스트를 찾아서 추가 정보로 제공한 다음 엔티니 하나를 마스킹하고 예측하게 학습시켰습니다.
+
+좀 흥미로운 부분은 qa 벤치마크에서 파인튜닝 데이터셋이 증가할수록 reasonbert가 다른 프리트레이닝 방법에 대해 보이는 성능 차이가 감소한다는 점이겠네요. 여러모로 qa 같은 문제에 대해 휴리스틱으로 만들어낸 weak supervision 데이터로 학습시키는 것이라고 보이기는 합니다.
+
+#bert #pretraining #reasoning #qa
diff --git a/papers/210913 Pose with Style.md b/papers/210913 Pose with Style.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2109.06166
+
+Pose with Style: Detail-Preserving Pose-Guided Image Synthesis with Conditional StyleGAN (Badour AlBahar, Jingwan Lu, Jimei Yang, Zhixin Shu, Eli Shechtman, Jia-Bin Huang)
+
+포즈 기반 이미지 생성이 여기까지 올라왔군요. 이쪽도 시간이 좀 지나면 인상적인 수준까지 향상될 수 있을 것 같네요.
+
+#pose
diff --git a/papers/210913 STraTA.md b/papers/210913 STraTA.md
@@ -0,0 +1,11 @@
+https://arxiv.org/abs/2109.06270
+
+STraTA: Self-Training with Task Augmentation for Better Few-shot Learning (Tu Vu, Minh-Thang Luong, Quoc V. Le, Grady Simon, Mohit Iyyer)
+
+pretrained lm으로 mnli 데이터셋에 대해 generative한 모델을 만들고, 이 모델을 사용해서 개별 과제들에 대해서 nli 트레이닝 데이터를 만들고(즉 in domain 텍스트에 대한 nli 데이터 생성), nli에 학습시킨 모델을 만든 다음 pseudo label을 만들어서 self training을 한다, 이런 few shot training 절차네요.
+
+결과적으로는 nli라는 개별 과제에 학습시키기 전에 사용되는 중간 단계의 과제가 성능을 끌어올릴 수 있다는 것을 다시 한 번 확인한 것이 될 것 같은데, 이런 과제를 설계하는 것도 그 자체로 흥미로운 일이 아닌가 싶긴 하네요. 물론 요즘 같은 대 unsupervised pretraining 시대에는 좀 안 맞는 것 같긴 합니다만.
+
+어쨌든 sst-2는 이제 샘플 16개만 있으면 풀리는 군요.
+
+#pretraining #finetuning #semi_supervised_learning #few_shot
diff --git a/...ce-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition.md b/...ce-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2109.06870
+
+Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition (Felix Wu, Kwangyoun Kim, Jing Pan, Kyu Han, Kilian Q. Weinberger, Yoav Artzi)
+
+wav2vec 2.0을 깎아서 더 빠르고 정확하게 만들었군요. ocr도 img2vec 같은 게 하나 있으면 좋을까 하는 생각이 드네요.
+
+#asr #pretraining 
diff --git a/...ining and Self-training are Complementary for Natural Language Understanding.md b/...ining and Self-training are Complementary for Natural Language Understanding.md
@@ -0,0 +1,7 @@
+https://arxiv.org/abs/2109.06466
+
+Task-adaptive Pre-training and Self-training are Complementary for Natural Language Understanding (Shiyang Li, Semih Yavuz, Wenhu Chen, Xifeng Yan)
+
+이쪽은 타겟 도메인 데이터에 task adaptive pretraining으로 unsupervised pretraining을 한 다음 pseudo label로 self training을 하는 접근이군요. 사실 이쪽이 unsupervised/semi-supervised로 끝장내는 힙한 방법이긴 한데 전 intermediate task도 그 자체로 흥미로운 방향이 아닌가 싶고 그렇네요.
+
+#pretraining #finetuning #semi_supervised_learning #few_shot
Original file line number	Diff line number	Diff line change
		@@ -0,0 +1,3 @@
		https://arxiv.org/abs/2109.04145

		PIMNet: A Parallel, Iterative and Mimicking Network for Scene Text Recognition (Zhi Qiao, Yu Zhou, Jin Wei, Wei Wang, Yuan Zhang, Ning Jiang, Hongbin Wang, Weiping Wang)