Historie revizí

Autor SHA1 Zpráva Datum
  Daniel Hiltgen 92c81e8117 Give the final model loading more time před 11 měsíci
  Lei Jitang 7487229c34 llm/server.go: Fix 2 minor typos (#4661) před 11 měsíci
  Daniel Hiltgen 0165ba1651 Merge pull request #4638 from dhiltgen/better_error před 11 měsíci
  Daniel Hiltgen c4209d6d21 Report better warning on client closed abort of load před 11 měsíci
  Patrick Devine 4cc3be3035 Move envconfig and consolidate env vars (#4608) před 11 měsíci
  Daniel Hiltgen b37b496a12 Wire up load progress před 11 měsíci
  Jeffrey Morgan 38255d2af1 Use flash attention flag for now (#4580) před 11 měsíci
  Sam e15307fdf4 feat: add support for flash_attn (#4120) před 11 měsíci
  Patrick Devine d1692fd3e0 fix the cpu estimatedTotal memory + get the expiry time for loading models (#4461) před 11 měsíci
  Daniel Hiltgen 853ae490e1 Sanitize the env var debug log před 11 měsíci
  Patrick Devine 6845988807 Ollama `ps` command for showing currently loaded models (#4327) před 1 rokem
  jmorganca 92ca2cca95 Revert "only forward some env vars" před 1 rokem
  Daniel Hiltgen c4014e73a2 Fall back to CPU runner with zero layers před 1 rokem
  Jeffrey Morgan bb6fd02298 Don't clamp ctx size in `PredictServerFit` (#4317) před 1 rokem
  Michael Yang cf442cd57e fix typo před 1 rokem
  Michael Yang ce3b212d12 only forward some env vars před 1 rokem
  Michael Yang 58876091f7 log clean up před 1 rokem
  Daniel Hiltgen d0425f26cf Merge pull request #4294 from dhiltgen/harden_subprocess_reaping před 1 rokem
  Bruce MacDonald cfa84b8470 add done_reason to the api (#4235) před 1 rokem
  Daniel Hiltgen 84ac7ce139 Refine subprocess reaping před 1 rokem
  Daniel Hiltgen 920a4b0794 Merge remote-tracking branch 'upstream/main' into pr3702 před 1 rokem
  Daniel Hiltgen ee49844d09 Merge pull request #4153 from dhiltgen/gpu_verbose_response před 1 rokem
  Daniel Hiltgen bee2f4a3b0 Record GPU usage information před 1 rokem
  Daniel Hiltgen 72700279e2 Detect noexec and report a better error před 1 rokem
  Daniel Hiltgen 380378cc80 Use our libraries first před 1 rokem
  Jeffrey Morgan ed740a2504 Fix `no slots available` error with concurrent requests (#4160) před 1 rokem
  Jeffrey Morgan 1b0e6c9c0e Fix llava models not working after first request (#4164) před 1 rokem
  Daniel Hiltgen f56aa20014 Centralize server config handling před 1 rokem
  Mark Ward 321d57e1a0 Removing go routine calling .wait from load. před 1 rokem
  Mark Ward ba26c7aa00 it will always return an error due to Kill() discarding Wait() errors před 1 rokem