ml-papers/papers/2023/230719 ZeroQuant-FP.md at main · rosinality/ml-papers · GitHub

https://arxiv.org/abs/2307.09782

ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization Using Floating-Point Formats (Xiaoxia Wu, Zhewei Yao, Yuxiong He)

int8 대신 fp8 activation을 쓰고, 아예 weight도 fp4를 쓰는 것도 괜찮을 것 같은데? 라는 결과네요. H100이 있다면 할 수 있는 일...

#quantization