Commit History

Upphovsman SHA1 Meddelande Datum
  Jeffrey Morgan e093db92c4 sample: temporarily use grammars for constrained generation in new engine (#9586) 1 månad sedan
  Jesse Gross a1cda80bcb model: Update encoder cache to use multimodal input processing handler 1 månad sedan
  Jesse Gross 4614fafae0 ollamarunner: Don't panic for unimplemented features at runtime. 1 månad sedan
  Jesse Gross 4100ed7bdd ml: Add support for quantized KV cache 2 månader sedan
  Jesse Gross f52b2615ef kvcache: Set context for shift offsets 1 månad sedan
  Jesse Gross 25f9b152f9 ggml-backend: Ensure allocation meet backend requirements 1 månad sedan
  Jesse Gross 6da8b6a879 kvcache: Support non-causal attention 1 månad sedan
  Jesse Gross 0daaaef8c9 ollamarunner: Quiet debug logging and panic on unimplemented features 1 månad sedan
  Jesse Gross 98272fbd58 additional review comments 1 månad sedan
  Michael Yang b27e8f3f10 ml/backend/ggml: use backend buffer type 1 månad sedan
  Michael Yang 45df786f09 comments 1 månad sedan
  Michael Yang daaf42e4a4 ml/backend/ggml: clean up 2 månader sedan
  Michael Yang 2dc60d4620 ml/backend/ggml: offload vision to cpu 2 månader sedan
  Michael Yang b5312f30e8 ml/backend/ggml: handle tensor split 2 månader sedan
  Michael Yang 26c2e0bd35 ml/backend/ggml: handle user specified cpu offloading 2 månader sedan
  Michael Yang bf920883d5 ml/backend/ggml: set cpu n_threads 2 månader sedan
  Michael Yang 58b9ec1f6b kvcache: update tests 2 månader sedan
  Michael Yang 7bae7fa5ce ml/backend/ggml: create tensor on specific backend 2 månader sedan
  Michael Yang 764e199d67 kvcache: create cache ctx per layer 2 månader sedan
  Michael Yang bfce55db3d model: load non-repeated tensors into multiple backends 2 månader sedan
  Michael Yang bab6f34dc0 ml/backend/ggml: update model loading for hybrid/multi backends 2 månader sedan
  Parth Sareen 0682dae027 sample: improve ollama engine sampler performance (#9374) 1 månad sedan
  Breaker 1f6986e919 readme: add QwQ to the supported models list (#9565) 1 månad sedan
  Jeffrey Morgan 4289c74359 llama: fix kv loading on snowflake-arctic-embed models (#9536) 1 månad sedan
  Jesse Gross a7e63b82be ollamarunner: Improve multimodal input handling 1 månad sedan
  Jesse Gross b70fc4d51e model: Don't unconditionally add special tokens 1 månad sedan
  Blake Mizerany e2252d0fc6 server/internal/registry: take over pulls from server package (#9485) 1 månad sedan
  Daniel Hiltgen cae5d4d4ea Win: doc new rocm zip file (#9367) 1 månad sedan
  Michael Yang 05a01fdecb ml/backend/ggml: consolidate system info logging 2 månader sedan
  aritra saha 8fe6f69f28 docs: add granite-3.2 to the readme 1 månad sedan