Michael Yang
|
01811c176a
comments
|
1 vuosi sitten |
Michael Yang
|
9685c34509
quantize any fp16/fp32 model
|
1 vuosi sitten |
Hernan Martinez
|
86e67fc4a9
Add import declaration for windows,arm64 to llm.go
|
1 vuosi sitten |
Michael Yang
|
9502e5661f
cgo quantize
|
1 vuosi sitten |
Daniel Hiltgen
|
58d95cc9bd
Switch back to subprocessing for llama.cpp
|
1 vuosi sitten |
Michael Yang
|
91b3e4d282
update memory calcualtions
|
1 vuosi sitten |
Michael Yang
|
d338d70492
refactor model parsing
|
1 vuosi sitten |
Patrick Devine
|
1b272d5bcd
change `github.com/jmorganca/ollama` to `github.com/ollama/ollama` (#3347)
|
1 vuosi sitten |
Jeffrey Morgan
|
f9cd55c70b
disable gpu for certain model architectures and fix divide-by-zero on memory estimation
|
1 vuosi sitten |
Daniel Hiltgen
|
6c5ccb11f9
Revamp ROCm support
|
1 vuosi sitten |
Daniel Hiltgen
|
a1dfab43b9
Ensure the libraries are present
|
1 vuosi sitten |
Jeffrey Morgan
|
4458efb73a
Load all layers on `arm64` macOS if model is small enough (#2149)
|
1 vuosi sitten |
Daniel Hiltgen
|
fedd705aea
Mechanical switch from log to slog
|
1 vuosi sitten |
Michael Yang
|
eaed6f8c45
add max context length check
|
1 vuosi sitten |
Daniel Hiltgen
|
7427fa1387
Fix up the CPU fallback selection
|
1 vuosi sitten |
Daniel Hiltgen
|
de2fbdec99
Merge pull request #1819 from dhiltgen/multi_variant
|
1 vuosi sitten |
Michael Yang
|
f4f939de28
Merge pull request #1552 from jmorganca/mxyng/lint-test
|
1 vuosi sitten |
Daniel Hiltgen
|
39928a42e8
Always dynamically load the llm server library
|
1 vuosi sitten |
Daniel Hiltgen
|
d88c527be3
Build multiple CPU variants and pick the best
|
1 vuosi sitten |
Jeffrey Morgan
|
ab6be852c7
revisit memory allocation to account for full kv cache on main gpu
|
1 vuosi sitten |
Daniel Hiltgen
|
8da7bef05f
Support multiple variants for a given llm lib type
|
1 vuosi sitten |
Jeffrey Morgan
|
b24e8d17b2
Increase minimum CUDA memory allocation overhead and fix minimum overhead for multi-gpu (#1896)
|
1 vuosi sitten |
Michael Yang
|
f921e2696e
typo
|
1 vuosi sitten |
Jeffrey Morgan
|
f387e9631b
use runner if cuda alloc won't fit
|
1 vuosi sitten |
Jeffrey Morgan
|
cb534e6ac2
use 10% vram overhead for cuda
|
1 vuosi sitten |
Jeffrey Morgan
|
58ce2d8273
better estimate scratch buffer size
|
1 vuosi sitten |
Jeffrey Morgan
|
08f1e18965
Offload layers to GPU based on new model size estimates (#1850)
|
1 vuosi sitten |
Daniel Hiltgen
|
e9ce91e9a6
Load dynamic cpu lib on windows
|
1 vuosi sitten |
Jeffrey Morgan
|
c0285158a9
tweak memory requirements error text
|
1 vuosi sitten |
Jeffrey Morgan
|
77a66df72c
add macOS memory check for 47B models
|
1 vuosi sitten |