https://arxiv.org/abs/2201.10005
Text and Code Embeddings by Contrastive Pre-Training (Arvind Neelakantan, Tao Xu, Raul Puri, Alec Radford, Jesse Michael Han, Jerry Tworek, Qiming Yuan, Nikolas Tezak, Jong Wook Kim, Chris Hallacy, Johannes Heidecke, Pranav Shyam, Boris Power, Tyna Eloundou Nekoul, Girish Sastry, Gretchen Krueger, David Schnurr, Felipe Petroski Such, Kenny Hsu, Madeleine Thompson, Tabarak Khan, Toki Sherbakov, Joanne Jang, Peter Welinder, Lilian Weng)
clip도 그렇고 openai는 묘하게 retrieval/embedding에 관심이 많네요. 인접한 텍스트를 postive pair/다른 텍스트를 negative pair로 놓고 contrastive training을 한 결과입니다.
다른 것보다 자연어로 코드 검색 결과가 눈에 띄네요. 300M 수준의 그렇게 크지 않은 모델에서도 잘 되는 것처럼 보이는데...stackexchange의 경쟁자일까요?
#retrieval