Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 347 Bytes

230719 ZeroQuant-FP.md

File metadata and controls

7 lines (4 loc) · 347 Bytes

https://arxiv.org/abs/2307.09782

ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization Using Floating-Point Formats (Xiaoxia Wu, Zhewei Yao, Yuxiong He)

int8 대신 fp8 activation을 쓰고, 아예 weight도 fp4를 쓰는 것도 괜찮을 것 같은데? 라는 결과네요. H100이 있다면 할 수 있는 일...

#quantization