Commit History

Автор SHA1 Съобщение Дата
  Jesse Gross f66216e399 ggml: Support heterogeneous KV cache layer sizes in memory estimation преди 1 месец
  Jesse Gross f4f0992b6e llm: Fix debug logging for memory estimates преди 1 месец
  Michael Yang 033cec232a count gemma3 vision tensors преди 1 месец
  Daniel Hiltgen 1fdb351c37 New engine: vision models and auto-fallback (#9113) преди 1 месец
  Michael Yang 58245413f4 next ollama runner (#7913) преди 2 месеца
  frob 63269668c0 Prevent underflow when FreeMemory < overhead (#8014) преди 4 месеца
  Sam 539be43640 llm: normalise kvct parameter handling (#7926) преди 5 месеца
  Sam 1bdab9fdb1 llm: introduce k/v context quantization (vRAM improvements) (#6279) преди 5 месеца
  Michael Yang d07cf41a97 refactor kv estimation преди 6 месеца
  Patrick Devine c7cb0f0602 image processing for llama3.2 (#6963) преди 6 месеца
  Daniel Hiltgen 05cd82ef94 Rename gpu package discover (#7143) преди 6 месеца
  Daniel Hiltgen 56318fb365 Improve logging on GPU too small (#6666) преди 7 месеца
  Daniel Hiltgen b05c9e83d9 Introduce GPU Overhead env var (#5922) преди 7 месеца
  Michael Yang 8e0641a9bf handle asymmetric embedding KVs преди 10 месеца
  Daniel Hiltgen 359b15a597 Handle models with divergent layer sizes преди 10 месеца
  Daniel Hiltgen 7784ca33ce Tighten up memory prediction logging преди 10 месеца
  Daniel Hiltgen 17df6520c8 Remove mmap related output calc logic преди 10 месеца
  Daniel Hiltgen 6f351bf586 review comments and coverage преди 11 месеца
  Daniel Hiltgen 6fd04ca922 Improve multi-gpu handling at the limit преди 11 месеца
  Michael Yang 6297f85606 gofmt, goimports преди 11 месеца
  Michael Yang e40145a39d lint преди 11 месеца
  Patrick Devine 4cc3be3035 Move envconfig and consolidate env vars (#4608) преди 11 месеца
  Michael Yang 1d359e737e typo преди 11 месеца
  Michael Yang 50b9056e09 count memory up to NumGPU преди 11 месеца
  Jeffrey Morgan bb6fd02298 Don't clamp ctx size in `PredictServerFit` (#4317) преди 11 месеца
  Daniel Hiltgen bee2f4a3b0 Record GPU usage information преди 1 година
  Michael Yang 4736391bfb llm: add minimum based on layer size преди 1 година
  Daniel Hiltgen f56aa20014 Centralize server config handling преди 1 година
  Jeffrey Morgan f0c454ab57 gpu: add 512MiB to darwin minimum, metal doesn't have partial offloading overhead (#4068) преди 1 година
  Michael Yang f81f308118 fix gemma, command-r layer weights преди 1 година