Michael Yang 11 месяцев назад
Родитель
Сommit
1eb382da5a
1 измененных файлов с 4 добавлено и 1 удалено
  1. 4 1
      llm/ggml.go

+ 4 - 1
llm/ggml.go

@@ -329,7 +329,10 @@ func (llm GGML) GraphSize(context, batch uint64) (partialOffload, fullOffload ui
 			4*batch*(1+4*embedding+context+context*heads),
 			4*batch*(1+4*embedding+context+context*heads),
 		)
 		)
 
 
-		partialOffload = 4*batch*(2*embedding+vocab) + embedding*vocab*105/128
+		partialOffload = max(
+			4*batch*(2*embedding+vocab)+embedding*vocab*105/128,
+			4*batch*(2+3*embedding+context+context*heads),
+		)
 	case "stablelm":
 	case "stablelm":
 		fullOffload = 4 * batch * (context*(1+heads) + 3*embedding + 2)
 		fullOffload = 4 * batch * (context*(1+heads) + 3*embedding + 2)
 		partialOffload = max(
 		partialOffload = max(