Daniel Hiltgen
|
34b9db5afc
Request and model concurrency
|
1 năm trước cách đây |
Daniel Hiltgen
|
aa72281eae
Trim spaces and quotes from llm lib override
|
1 năm trước cách đây |
Michael Yang
|
3cf483fe48
add stablelm graph calculation
|
1 năm trước cách đây |
Michael Yang
|
a8b9b930b4
account for all non-repeating layers
|
1 năm trước cách đây |
Michael Yang
|
26df674785
scale graph based on gpu count
|
1 năm trước cách đây |
Michael Yang
|
41a272de9f
darwin: no partial offloading if required memory greater than system
|
1 năm trước cách đây |
Jeffrey Morgan
|
a0b8a32eb4
Terminate subprocess if receiving `SIGINT` or `SIGTERM` signals while model is loading (#3653)
|
1 năm trước cách đây |
Michael Yang
|
7e33a017c0
partial offloading
|
1 năm trước cách đây |
Michael Yang
|
8b2c10061c
refactor tensor query
|
1 năm trước cách đây |
Daniel Hiltgen
|
c5ff443b9f
Handle very slow model loads
|
1 năm trước cách đây |
Michael Yang
|
be517e491c
no rope parameters
|
1 năm trước cách đây |
Michael Yang
|
12e923e158
update graph size estimate
|
1 năm trước cách đây |
Daniel Hiltgen
|
464d817824
Merge pull request #3464 from dhiltgen/subprocess
|
1 năm trước cách đây |
Daniel Hiltgen
|
6589eb8a8c
Revert options as a ref in the server
|
1 năm trước cách đây |
Michael Yang
|
80163ebcb5
fix metal gpu
|
1 năm trước cách đây |
Daniel Hiltgen
|
58d95cc9bd
Switch back to subprocessing for llama.cpp
|
1 năm trước cách đây |