cuda : use CUBLAS_COMPTE_F32 insted of CUBLAS_COMPUTE_F16 #1559

ggerganov · 2023-11-27T09:59:58Z

On some video cards, this can be faster.

GTX 1660

./extra/bench-all.sh 1 1

master

GPU	Config	Model	Th	Enc.	Dec.	Bch5	PP	Commit
GTX 1660	AVX2 BLAS CUDA	tiny	1	105.95	5.90	0.63	0.20	`f52e74d`
GTX 1660	AVX2 BLAS CUDA	tiny-q5_0	1	106.29	2.63	0.31	0.21	`f52e74d`
GTX 1660	AVX2 BLAS CUDA	tiny-q5_1	1	106.35	2.62	0.30	0.20	`f52e74d`
GTX 1660	AVX2 BLAS CUDA	base	1	236.20	7.56	1.01	0.33	`f52e74d`
GTX 1660	AVX2 BLAS CUDA	base-q5_0	1	237.01	4.18	0.44	0.33	`f52e74d`
GTX 1660	AVX2 BLAS CUDA	base-q5_1	1	237.01	4.17	0.43	0.33	`f52e74d`
GTX 1660	AVX2 BLAS CUDA	small	1	890.34	21.70	2.33	1.00	`f52e74d`
GTX 1660	AVX2 BLAS CUDA	small-q5_0	1	893.45	11.79	1.08	1.02	`f52e74d`
GTX 1660	AVX2 BLAS CUDA	small-q5_1	1	893.44	11.77	1.04	1.02	`f52e74d`
GTX 1660	AVX2 BLAS CUDA	medium	1	2767.58	54.52	6.80	2.40	`f52e74d`
GTX 1660	AVX2 BLAS CUDA	medium-q5_0	1	2779.65	26.92	2.57	2.46	`f52e74d`
GTX 1660	AVX2 BLAS CUDA	medium-q5_1	1	2779.30	26.96	2.42	2.46	`f52e74d`
GTX 1660	AVX2 BLAS CUDA	medium-dis	1	2766.26	7.75	1.27	0.40	`f52e74d`

PR

GPU	Config	Model	Th	Enc.	Dec.	Bch5	PP	Commit
GTX 1660	AVX2 BLAS CUDA	tiny	1	105.09	1.19	0.72	0.20	`c8b3bc6`
GTX 1660	AVX2 BLAS CUDA	tiny-q5_0	1	107.15	0.96	0.34	0.21	`c8b3bc6`
GTX 1660	AVX2 BLAS CUDA	tiny-q5_1	1	107.12	0.96	0.33	0.21	`c8b3bc6`
GTX 1660	AVX2 BLAS CUDA	base	1	232.68	1.73	1.18	0.33	`c8b3bc6`
GTX 1660	AVX2 BLAS CUDA	base-q5_0	1	238.91	1.42	0.49	0.34	`c8b3bc6`
GTX 1660	AVX2 BLAS CUDA	base-q5_1	1	238.63	1.44	0.48	0.34	`c8b3bc6`
GTX 1660	AVX2 BLAS CUDA	small	1	921.25	6.14	4.09	1.02	`c8b3bc6`
GTX 1660	AVX2 BLAS CUDA	small-q5_0	1	899.08	3.48	1.27	1.03	`c8b3bc6`
GTX 1660	AVX2 BLAS CUDA	small-q5_1	1	899.34	3.44	1.22	1.03	`c8b3bc6`
GTX 1660	AVX2 BLAS CUDA	medium	1	2891.58	18.21	9.18	2.53	`c8b3bc6`
GTX 1660	AVX2 BLAS CUDA	medium-q5_0	1	2792.70	7.89	2.94	2.47	`c8b3bc6`
GTX 1660	AVX2 BLAS CUDA	medium-q5_1	1	2792.82	7.94	2.80	2.48	`c8b3bc6`
GTX 1660	AVX2 BLAS CUDA	medium-dis	1	2890.40	5.22	1.46	0.42	`c8b3bc6`

Alvarocda · 2023-12-14T18:47:45Z

Is there any prediction on when this PR will be merged?
It is working correctly in the tests I did with my Quadro T1000

RaitoBezarius · 2024-10-09T12:00:08Z

I tested this PR on a Compute Capability 3.7 GPU, and it doesn't seem to be supported, FWIW. I assume this is because there's a mixing between FP16 and FP32, I guess.

cuda : use CUBLAS_COMPTE_F32 insted of CUBLAS_COMPUTE_F16

c8b3bc6

ggerganov mentioned this pull request Nov 27, 2023
Running on GPU is slower. #1540
Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

cuda : use CUBLAS_COMPTE_F32 insted of CUBLAS_COMPUTE_F16 #1559

cuda : use CUBLAS_COMPTE_F32 insted of CUBLAS_COMPUTE_F16 #1559

ggerganov commented Nov 27, 2023•
edited
Loading

Alvarocda commented Dec 14, 2023

RaitoBezarius commented Oct 9, 2024•
edited
Loading

cuda : use CUBLAS_COMPTE_F32 insted of CUBLAS_COMPUTE_F16 #1559

Are you sure you want to change the base?

cuda : use CUBLAS_COMPTE_F32 insted of CUBLAS_COMPUTE_F16 #1559

Conversation

ggerganov commented Nov 27, 2023•edited Loading

GTX 1660

Alvarocda commented Dec 14, 2023

RaitoBezarius commented Oct 9, 2024•edited Loading

ggerganov commented Nov 27, 2023•
edited
Loading

RaitoBezarius commented Oct 9, 2024•
edited
Loading