Michael Yang
|
c895a7d13f
some gocritic
|
11 tháng trước cách đây |
Michael Yang
|
829ff87bd1
revert tokenize ffi (#4761)
|
11 tháng trước cách đây |
Jeffrey Morgan
|
a50a87a7b8
partial offloading: allow flash attention and disable mmap (#4734)
|
11 tháng trước cách đây |
Michael Yang
|
26a00a0410
use ffi for tokenizing/detokenizing
|
11 tháng trước cách đây |
Daniel Hiltgen
|
92c81e8117
Give the final model loading more time
|
11 tháng trước cách đây |
Lei Jitang
|
7487229c34
llm/server.go: Fix 2 minor typos (#4661)
|
11 tháng trước cách đây |
Daniel Hiltgen
|
0165ba1651
Merge pull request #4638 from dhiltgen/better_error
|
11 tháng trước cách đây |
Daniel Hiltgen
|
c4209d6d21
Report better warning on client closed abort of load
|
11 tháng trước cách đây |
Patrick Devine
|
4cc3be3035
Move envconfig and consolidate env vars (#4608)
|
11 tháng trước cách đây |
Daniel Hiltgen
|
b37b496a12
Wire up load progress
|
11 tháng trước cách đây |
Jeffrey Morgan
|
38255d2af1
Use flash attention flag for now (#4580)
|
11 tháng trước cách đây |
Sam
|
e15307fdf4
feat: add support for flash_attn (#4120)
|
11 tháng trước cách đây |
Patrick Devine
|
d1692fd3e0
fix the cpu estimatedTotal memory + get the expiry time for loading models (#4461)
|
11 tháng trước cách đây |
Daniel Hiltgen
|
853ae490e1
Sanitize the env var debug log
|
11 tháng trước cách đây |
Patrick Devine
|
6845988807
Ollama `ps` command for showing currently loaded models (#4327)
|
11 tháng trước cách đây |
jmorganca
|
92ca2cca95
Revert "only forward some env vars"
|
11 tháng trước cách đây |
Daniel Hiltgen
|
c4014e73a2
Fall back to CPU runner with zero layers
|
11 tháng trước cách đây |
Jeffrey Morgan
|
bb6fd02298
Don't clamp ctx size in `PredictServerFit` (#4317)
|
11 tháng trước cách đây |
Michael Yang
|
cf442cd57e
fix typo
|
11 tháng trước cách đây |
Michael Yang
|
ce3b212d12
only forward some env vars
|
11 tháng trước cách đây |
Michael Yang
|
58876091f7
log clean up
|
11 tháng trước cách đây |
Daniel Hiltgen
|
d0425f26cf
Merge pull request #4294 from dhiltgen/harden_subprocess_reaping
|
11 tháng trước cách đây |
Bruce MacDonald
|
cfa84b8470
add done_reason to the api (#4235)
|
11 tháng trước cách đây |
Daniel Hiltgen
|
84ac7ce139
Refine subprocess reaping
|
11 tháng trước cách đây |
Daniel Hiltgen
|
920a4b0794
Merge remote-tracking branch 'upstream/main' into pr3702
|
11 tháng trước cách đây |
Daniel Hiltgen
|
ee49844d09
Merge pull request #4153 from dhiltgen/gpu_verbose_response
|
11 tháng trước cách đây |
Daniel Hiltgen
|
bee2f4a3b0
Record GPU usage information
|
1 năm trước cách đây |
Daniel Hiltgen
|
72700279e2
Detect noexec and report a better error
|
1 năm trước cách đây |
Daniel Hiltgen
|
380378cc80
Use our libraries first
|
1 năm trước cách đây |
Jeffrey Morgan
|
ed740a2504
Fix `no slots available` error with concurrent requests (#4160)
|
1 năm trước cách đây |