Commits

Commits on Sep 13, 2024

[BugFix] fix group_topk (vllm-project#8430 )
dsikka
authored

Commits on Sep 10, 2024

[Misc] Fused MoE Marlin support for GPTQ (vllm-project#8217 )
dsikka
authored

Commits on Sep 6, 2024

[Misc] Remove SqueezeLLM (vllm-project#8220 )
dsikka
authored

Commits on Sep 4, 2024

[Misc] Update fbgemmfp8 to use vLLMParameters (vllm-project#7972 )

dsikka
and
mgoin
authored

Commits on Sep 3, 2024

[Misc] Update GPTQ to use vLLMParameters (vllm-project#7976 )
dsikka
authored

Commits on Aug 29, 2024

[misc] update tpu int8 to use new vLLM Parameters (vllm-project#7973 )
dsikka
authored

Commits on Aug 27, 2024

Commits on Aug 26, 2024

Commits on Aug 23, 2024

[Misc] Update marlin to use vLLMParameters (vllm-project#7803 )
dsikka
authored

Commits on Aug 22, 2024

[Misc] update fp8 to use vLLMParameter (vllm-project#7437 )
dsikka
authored

Commits on Aug 21, 2024

[Kernel] Expand MoE weight loading + Add Fused Marlin MoE Kernel (vllm-project#7527 )

dsikka
and
ElizaWszola
authored

Commits on Aug 9, 2024

[Bugfix] Fix PerTensorScaleParameter weight loading for fused models (vllm-project#7376 )
dsikka
authored

Commits on Aug 7, 2024

[Misc] Refactor linear layer weight loading; introduce BasevLLMParameter and weight_loader_v2 (vllm-project#5874 )
dsikka
authored

Commits on Aug 6, 2024

[BugFix] Fix DeepSeek remote code (vllm-project#7178 )
dsikka
authored

Commits on Jun 30, 2024

[Misc] Fix get_min_capability (vllm-project#5971 )
dsikka
authored

Commits on Jun 25, 2024

[Misc] Update w4a16 compressed-tensors support to include w8a16 (vllm-project#5794 )
dsikka
authored

Commits on Jun 19, 2024

[Misc] Add per channel support for static activation quantization; update w8a8 schemes to share base classes (vllm-project#5650 )
dsikka
authored

Commits on Jun 18, 2024

[Misc] Add channel-wise quantization support for w8a8 dynamic per token activation quantization (vllm-project#5542 )
dsikka
authored

Commits on Jun 17, 2024

[Kernel] compressed-tensors marlin 24 support (vllm-project#5435 )
dsikka
authored

Commits on Jun 13, 2024

[Kernel] w4a16 support for compressed-tensors (vllm-project#5385 )

dsikka
and
robertgshaw2-redhat
authored

Commits on Jun 10, 2024

[Misc] Update to comply with the new compressed-tensors config (vllm-project#5350 )

dsikka
and
mgoin
authored

Commits on Jun 7, 2024

[Kernel] Dynamic Per-Token Activation Quantization (vllm-project#5037 )

authored

Commits on May 23, 2024

[Kernel] Initial Activation Quantization Support (vllm-project#4525 )

authored