FBGEMM/fbgemm_gpu/bench at main · alanhdu/FBGEMM

History

Name		Name	Last commit message	Last commit date
parent directory ..
scripts		scripts
README.md		README.md
batched_unary_embeddings_benchmark.py		batched_unary_embeddings_benchmark.py
bench_utils.py		bench_utils.py
histogram_binning_calibration_benchmark.py		histogram_binning_calibration_benchmark.py
jagged_tensor_benchmark.py		jagged_tensor_benchmark.py
merge_embeddings_benchmark.py		merge_embeddings_benchmark.py
quantize_ops_benchmark.py		quantize_ops_benchmark.py
run_tbe_benchmark.py		run_tbe_benchmark.py
sparse_ops_benchmark.py		sparse_ops_benchmark.py
split_embeddings_cache_benchmark.py		split_embeddings_cache_benchmark.py
split_table_batched_embeddings_benchmark.py		split_table_batched_embeddings_benchmark.py
ssd_table_batched_embeddings_benchmark.py		ssd_table_batched_embeddings_benchmark.py
stride_gemm_benchmark.py		stride_gemm_benchmark.py
verify_fp16_stochastic_benchmark.cu		verify_fp16_stochastic_benchmark.cu

README.md

Benchmarks

TorchRec FusedTableBatchedEmbeddingBags

Torchrec uses fbgemm_gpu embedding and embedding bag implementations for Fused, Batched, Quantized versions of embedding and embeddingbag (in addition to other kernels). They have run benchmarks on FusedEmbeddingBagCollection, which is implemented with fbgemm_gpu's SplitTableBatchedEmbeddingBagsCodegen. They benchmark utilizing UVM and UVM-caching. The results show between 13x and 23x usecase in DLRM embedding sizes.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

bench

bench

README.md

Benchmarks

TorchRec FusedTableBatchedEmbeddingBags

Files

bench

Directory actions

More options

Directory actions

More options

Latest commit

History

bench

Folders and files

parent directory

README.md

Benchmarks

TorchRec FusedTableBatchedEmbeddingBags