Michael Yang
|
63a394068c
use 2d pooling
|
пре 1 месец |
Michael Yang
|
c5cbe4fc2a
fallback to cpu
|
пре 1 месец |
Michael Yang
|
9e4642e9b3
ollama debug tensor
|
пре 1 месец |
Michael Yang
|
6b0486c216
duplicate token_embd to output
|
пре 1 месец |
Michael Yang
|
8934324b72
use fast attention
|
пре 1 месец |
Michael Yang
|
0df1800436
set non-causal attention
|
пре 1 месец |
Michael Yang
|
4b037a97dc
add gemma vision encoder
|
пре 1 месец |
Patrick Devine
|
5f74d1fd47
gemma2 impl
|
пре 2 месеци |
Jesse Gross
|
4100ed7bdd
ml: Add support for quantized KV cache
|
пре 2 месеци |
Jesse Gross
|
25f9b152f9
ggml-backend: Ensure allocation meet backend requirements
|
пре 1 месец |
Jesse Gross
|
98272fbd58
additional review comments
|
пре 1 месец |
Michael Yang
|
b27e8f3f10
ml/backend/ggml: use backend buffer type
|
пре 2 месеци |
Michael Yang
|
45df786f09
comments
|
пре 2 месеци |
Michael Yang
|
daaf42e4a4
ml/backend/ggml: clean up
|
пре 2 месеци |
Michael Yang
|
2dc60d4620
ml/backend/ggml: offload vision to cpu
|
пре 2 месеци |
Michael Yang
|
b5312f30e8
ml/backend/ggml: handle tensor split
|
пре 2 месеци |
Michael Yang
|
26c2e0bd35
ml/backend/ggml: handle user specified cpu offloading
|
пре 2 месеци |
Michael Yang
|
bf920883d5
ml/backend/ggml: set cpu n_threads
|
пре 2 месеци |
Michael Yang
|
7bae7fa5ce
ml/backend/ggml: create tensor on specific backend
|
пре 2 месеци |
Michael Yang
|
764e199d67
kvcache: create cache ctx per layer
|
пре 2 месеци |
Michael Yang
|
bfce55db3d
model: load non-repeated tensors into multiple backends
|
пре 2 месеци |
Michael Yang
|
bab6f34dc0
ml/backend/ggml: update model loading for hybrid/multi backends
|
пре 2 месеци |
Michael Yang
|
05a01fdecb
ml/backend/ggml: consolidate system info logging
|
пре 2 месеци |
Jesse Gross
|
21aa666a1e
ml: Enable support for flash attention
|
пре 2 месеци |
Jesse Gross
|
ee141cc821
ml: Empty tensor constructor for tensors
|
пре 2 месеци |
Jesse Gross
|
55e5776c44
ggml-backend: Store parent backend as part of tensor
|
пре 2 месеци |
Jesse Gross
|
854a9195f3
attention: Remove unnecessary contiguous operations
|
пре 2 месеци |
Michael Yang
|
3e8b8a1933
ml: update Context.Forward interface
|
пре 2 месеци |
Jesse Gross
|
f53f4198c3
ml: Abstract attention out of model definitions
|
пре 2 месеци |
Michael Yang
|
2192a28eed
ml/backend/ggml: fix rms norm
|
пре 2 месеци |