GitHub - electron-shaders/FlexGen: Running large language models on a single GPU for throughput-oriented scenarios.

electron-shaders / FlexGen Public

forked from FMInference/FlexLLMGen

Running large language models on a single GPU for throughput-oriented scenarios.

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 122 Commits
benchmark		benchmark
docs		docs
experimental		experimental
flexgen		flexgen
scripts		scripts
.gitignore		.gitignore

About

Running large language models on a single GPU for throughput-oriented scenarios.

No releases published

No packages published