Michael Yang
|
b599946b74
add format bytes
|
1 vuosi sitten |
Bruce MacDonald
|
d06bc0cb6e
enable q8, q5, 5_1, and f32 for linux gpu (#699)
|
1 vuosi sitten |
Bruce MacDonald
|
86279f4ae3
unbound max num gpu layers (#591)
|
1 vuosi sitten |
Bruce MacDonald
|
4cba75efc5
remove tmp directories created by previous servers (#559)
|
1 vuosi sitten |
Michael Yang
|
7dee25a07f
fix falcon decode
|
1 vuosi sitten |
Bruce MacDonald
|
09dd2aeff9
GGUF support (#441)
|
1 vuosi sitten |
Bruce MacDonald
|
42998d797d
subprocess llama.cpp server (#401)
|
1 vuosi sitten |
Michael Yang
|
b25dd1795d
allow F16 to use metal
|
1 vuosi sitten |
Michael Yang
|
304f2b6c96
add 34b to mem check
|
1 vuosi sitten |
Michael Yang
|
a894cc792d
model and file type as strings
|
1 vuosi sitten |
Michael Yang
|
e26085b921
close open files
|
1 vuosi sitten |
Michael Yang
|
6de5d032e1
implement loading ggml lora adapters through the modelfile
|
1 vuosi sitten |
Michael Yang
|
d791df75dd
check memory requirements before loading
|
1 vuosi sitten |
Michael Yang
|
020a3b3530
disable gpu for q5_0, q5_1, q8_0 quants
|
1 vuosi sitten |
Michael Yang
|
fccf8d179f
partial decode ggml bin for more info
|
1 vuosi sitten |