Huanghongru / SGEMM-Implementation-and-Optimization Public

Notifications You must be signed in to change notification settings
Fork 9
Star 35

📝 Some source code about matrix multiplication implementation on CUDA

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 27 Commits
sample		sample
.gitignore		.gitignore
README.md		README.md
blas.cu		blas.cu
get_device_prop.cu		get_device_prop.cu
laboratory.py		laboratory.py
matmul_naive.cu		matmul_naive.cu
matmul_sharedMem.cu		matmul_sharedMem.cu
utils.cpp		utils.cpp

Repository files navigation

README

Some source code about matrix multiplication implementation on CUDA.

Device Properties

--- General Information for device 0 ---

Name: GeForce GTX 1080 Ti

Compute capability: 6.1

Clock rate: 1.68GHz

Device copy overlap: Enabled

Kernel execution timeout: Disabled

--- Memory Information for device 0 ---

Total global mem: 10.91G

Total constant mem: 64KB

Max mem pitch: 2147483647

Texture Alignment: 512

--- MP Information for device 0 ---

Multiprocessor count: 28

Shared mem per blcok: 48KB

Registers per blcok: 65536

Threads in warp: 32

Max threads per block: 1024

Max thread dimensions: (1024, 1024, 64)

Max grid dimensions: (2147483647, 65535, 65535)

Miscellaneous

compile the file as follows:

nvcc *.cu --std=c++11

About

📝 Some source code about matrix multiplication implementation on CUDA

Readme

Activity

35 stars

1 watching

9 forks

Report repository

Releases

No releases published

Packages

No packages published

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

README

Device Properties

Miscellaneous

About

Releases

Packages

Languages

Huanghongru/SGEMM-Implementation-and-Optimization

Folders and files

Latest commit

History

Repository files navigation

README

Device Properties

Miscellaneous

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages