Jeffrey Morgan
|
e093db92c4
sample: temporarily use grammars for constrained generation in new engine (#9586)
|
1 månad sedan |
Jesse Gross
|
a1cda80bcb
model: Update encoder cache to use multimodal input processing handler
|
1 månad sedan |
Jesse Gross
|
4614fafae0
ollamarunner: Don't panic for unimplemented features at runtime.
|
1 månad sedan |
Jesse Gross
|
4100ed7bdd
ml: Add support for quantized KV cache
|
2 månader sedan |
Jesse Gross
|
f52b2615ef
kvcache: Set context for shift offsets
|
1 månad sedan |
Jesse Gross
|
25f9b152f9
ggml-backend: Ensure allocation meet backend requirements
|
1 månad sedan |
Jesse Gross
|
6da8b6a879
kvcache: Support non-causal attention
|
1 månad sedan |
Jesse Gross
|
0daaaef8c9
ollamarunner: Quiet debug logging and panic on unimplemented features
|
1 månad sedan |
Jesse Gross
|
98272fbd58
additional review comments
|
1 månad sedan |
Michael Yang
|
b27e8f3f10
ml/backend/ggml: use backend buffer type
|
1 månad sedan |
Michael Yang
|
45df786f09
comments
|
1 månad sedan |
Michael Yang
|
daaf42e4a4
ml/backend/ggml: clean up
|
2 månader sedan |
Michael Yang
|
2dc60d4620
ml/backend/ggml: offload vision to cpu
|
2 månader sedan |
Michael Yang
|
b5312f30e8
ml/backend/ggml: handle tensor split
|
2 månader sedan |
Michael Yang
|
26c2e0bd35
ml/backend/ggml: handle user specified cpu offloading
|
2 månader sedan |
Michael Yang
|
bf920883d5
ml/backend/ggml: set cpu n_threads
|
2 månader sedan |
Michael Yang
|
58b9ec1f6b
kvcache: update tests
|
2 månader sedan |
Michael Yang
|
7bae7fa5ce
ml/backend/ggml: create tensor on specific backend
|
2 månader sedan |
Michael Yang
|
764e199d67
kvcache: create cache ctx per layer
|
2 månader sedan |
Michael Yang
|
bfce55db3d
model: load non-repeated tensors into multiple backends
|
2 månader sedan |
Michael Yang
|
bab6f34dc0
ml/backend/ggml: update model loading for hybrid/multi backends
|
2 månader sedan |
Parth Sareen
|
0682dae027
sample: improve ollama engine sampler performance (#9374)
|
1 månad sedan |
Breaker
|
1f6986e919
readme: add QwQ to the supported models list (#9565)
|
1 månad sedan |
Jeffrey Morgan
|
4289c74359
llama: fix kv loading on snowflake-arctic-embed models (#9536)
|
1 månad sedan |
Jesse Gross
|
a7e63b82be
ollamarunner: Improve multimodal input handling
|
1 månad sedan |
Jesse Gross
|
b70fc4d51e
model: Don't unconditionally add special tokens
|
1 månad sedan |
Blake Mizerany
|
e2252d0fc6
server/internal/registry: take over pulls from server package (#9485)
|
1 månad sedan |
Daniel Hiltgen
|
cae5d4d4ea
Win: doc new rocm zip file (#9367)
|
1 månad sedan |
Michael Yang
|
05a01fdecb
ml/backend/ggml: consolidate system info logging
|
2 månader sedan |
aritra saha
|
8fe6f69f28
docs: add granite-3.2 to the readme
|
1 månad sedan |