1 year ago · d6e3b64582
--- a/server/sched.go
+++ b/server/sched.go
@@ -149,6 +149,14 @@ func (s *Scheduler) processPending(ctx context.Context) {
 
				 						break
			
 
				 					}
			
 
				 
			
 
				+					// If we're CPU only mode, just limit by loadedMax above
			
 
				+					// TODO handle system memory exhaustion
			
 
				+					if (len(gpus) == 1 && gpus[0].Library == "cpu") || pending.opts.NumGPU == 0 {
			
 
				+						slog.Debug("cpu mode with existing models, loading")
			
 
				+						s.loadFn(pending, ggml, gpus)
			
 
				+						break
			
 
				+					}
			
 
				+
			
 
				 					// No models loaded. Load the model but prefer the best fit.
			
 
				 					if loadedCount == 0 {
			
 
				 						slog.Debug("loading first model", "model", pending.model.ModelPath)
			
--- a/server/sched_test.go
+++ b/server/sched_test.go
@@ -28,19 +28,33 @@ func TestInitScheduler(t *testing.T) {
 
				 	ctx, done := context.WithCancel(context.Background())
			
 
				 	defer done()
			
 
				 	initialMax := loadedMax
			
 
				+	initialParallel := numParallel
			
 
				 	s := InitScheduler(ctx)
			
 
				 	require.Equal(t, initialMax, loadedMax)
			
 
				+	s.loadedMu.Lock()
			
 
				 	require.NotNil(t, s.loaded)
			
 
				+	s.loadedMu.Unlock()
			
 
				 
			
 
				 	os.Setenv("OLLAMA_MAX_LOADED_MODELS", "blue")
			
 
				 	s = InitScheduler(ctx)
			
 
				 	require.Equal(t, initialMax, loadedMax)
			
 
				+	s.loadedMu.Lock()
			
 
				 	require.NotNil(t, s.loaded)
			
 
				+	s.loadedMu.Unlock()
			
 
				 
			
 
				 	os.Setenv("OLLAMA_MAX_LOADED_MODELS", "0")
			
 
				 	s = InitScheduler(ctx)
			
 
				 	require.Equal(t, 0, loadedMax)
			
 
				+	s.loadedMu.Lock()
			
 
				 	require.NotNil(t, s.loaded)
			
 
				+	s.loadedMu.Unlock()
			
 
				+
			
 
				+	os.Setenv("OLLAMA_NUM_PARALLEL", "blue")
			
 
				+	_ = InitScheduler(ctx)
			
 
				+	require.Equal(t, initialParallel, numParallel)
			
 
				+	os.Setenv("OLLAMA_NUM_PARALLEL", "10")
			
 
				+	_ = InitScheduler(ctx)
			
 
				+	require.Equal(t, 10, numParallel)
			
 
				 }
			
 
				 
			
 
				 func TestLoad(t *testing.T) {
			
@@ -51,6 +65,7 @@ func TestLoad(t *testing.T) {
 
				 	req := &LlmRequest{
			
 
				 		ctx:             ctx,
			
 
				 		model:           &Model{ModelPath: "foo"},
			
 
				+		opts:            api.DefaultOptions(),
			
 
				 		successCh:       make(chan *runnerRef, 1),
			
 
				 		errCh:           make(chan error, 1),
			
 
				 		sessionDuration: 2,
			
@@ -63,7 +78,9 @@ func TestLoad(t *testing.T) {
 
				 	s.load(req, ggml, gpus)
			
 
				 	require.Len(t, req.successCh, 0)
			
 
				 	require.Len(t, req.errCh, 1)
			
 
				+	s.loadedMu.Lock()
			
 
				 	require.Len(t, s.loaded, 0)
			
 
				+	s.loadedMu.Unlock()
			
 
				 	err := <-req.errCh
			
 
				 	require.Contains(t, err.Error(), "this model may be incompatible")
			
 
				 
			
@@ -78,7 +95,9 @@ func TestLoad(t *testing.T) {
 
				 	case resp := <-req.successCh:
			
 
				 		require.Equal(t, uint64(10), resp.estimatedVRAM)
			
 
				 		require.Equal(t, uint(1), resp.refCount)
			
 
				+		s.loadedMu.Lock()
			
 
				 		require.Len(t, s.loaded, 1)
			
 
				+		s.loadedMu.Unlock()
			
 
				 	}
			
 
				 
			
 
				 	req.model.ModelPath = "dummy_model_path"
			
@@ -90,7 +109,9 @@ func TestLoad(t *testing.T) {
 
				 	case resp := <-req.successCh:
			
 
				 		t.Errorf("unexpected success %v", resp)
			
 
				 	}
			
 
				+	s.loadedMu.Lock()
			
 
				 	runner := s.loaded["dummy_model_path"]
			
 
				+	s.loadedMu.Unlock()
			
 
				 	require.NotNil(t, runner)
			
 
				 	require.Equal(t, uint(0), runner.refCount)
			
 
				 	time.Sleep(1 * time.Millisecond)
			
@@ -143,6 +164,7 @@ func newScenario(t *testing.T, ctx context.Context, modelName string, estimatedV
 
				 	scenario.req = &LlmRequest{
			
 
				 		ctx:             scenario.ctx,
			
 
				 		model:           model,
			
 
				+		opts:            api.DefaultOptions(),
			
 
				 		sessionDuration: 5 * time.Millisecond,
			
 
				 		successCh:       make(chan *runnerRef, 1),
			
 
				 		errCh:           make(chan error, 1),
			
@@ -171,7 +193,9 @@ func TestRequests(t *testing.T) {
 
				 	// Multiple loaded models
			
 
				 	scenario3a := newScenario(t, ctx, "ollama-model-3a", 1*format.GigaByte)
			
 
				 	scenario3b := newScenario(t, ctx, "ollama-model-3b", 24*format.GigaByte)
			
 
				-	scenario3c := newScenario(t, ctx, "ollama-model-3c", 30) // Needs prior unloaded
			
 
				+	scenario3c := newScenario(t, ctx, "ollama-model-4a", 30)
			
 
				+	scenario3c.req.opts.NumGPU = 0                           // CPU load, will be allowed
			
 
				+	scenario3d := newScenario(t, ctx, "ollama-model-3c", 30) // Needs prior unloaded
			
 
				 
			
 
				 	s := InitScheduler(ctx)
			
 
				 	s.getGpuFn = func() gpu.GpuInfoList {
			
@@ -240,7 +264,9 @@ func TestRequests(t *testing.T) {
 
				 	case <-ctx.Done():
			
 
				 		t.Errorf("timeout")
			
 
				 	}
			
 
				+	s.loadedMu.Lock()
			
 
				 	require.Len(t, s.loaded, 1)
			
 
				+	s.loadedMu.Unlock()
			
 
				 
			
 
				 	loadedMax = 0
			
 
				 	s.newServerFn = scenario3b.newServer
			
@@ -254,28 +280,52 @@ func TestRequests(t *testing.T) {
 
				 	case <-ctx.Done():
			
 
				 		t.Errorf("timeout")
			
 
				 	}
			
 
				+	s.loadedMu.Lock()
			
 
				 	require.Len(t, s.loaded, 2)
			
 
				+	s.loadedMu.Unlock()
			
 
				 
			
 
				-	// Try to load a model that wont fit
			
 
				+	// This is a CPU load with NumGPU = 0 so it should load
			
 
				 	s.newServerFn = scenario3c.newServer
			
 
				 	slog.Info("scenario3c")
			
 
				-	require.Len(t, s.loaded, 2)
			
 
				+	s.pendingReqCh <- scenario3c.req
			
 
				+	select {
			
 
				+	case resp := <-scenario3c.req.successCh:
			
 
				+		require.Equal(t, resp.llama, scenario3c.srv)
			
 
				+		require.Len(t, s.pendingReqCh, 0)
			
 
				+		require.Len(t, scenario3c.req.errCh, 0)
			
 
				+	case <-ctx.Done():
			
 
				+		t.Errorf("timeout")
			
 
				+	}
			
 
				+	s.loadedMu.Lock()
			
 
				+	require.Len(t, s.loaded, 3)
			
 
				+	s.loadedMu.Unlock()
			
 
				+
			
 
				+	// Try to load a model that wont fit
			
 
				+	s.newServerFn = scenario3d.newServer
			
 
				+	slog.Info("scenario3d")
			
 
				+	s.loadedMu.Lock()
			
 
				+	require.Len(t, s.loaded, 3)
			
 
				+	s.loadedMu.Unlock()
			
 
				 	scenario3a.ctxDone() // Won't help since this one isn't big enough to make room
			
 
				 	time.Sleep(2 * time.Millisecond)
			
 
				-	s.pendingReqCh <- scenario3c.req
			
 
				+	s.pendingReqCh <- scenario3d.req
			
 
				 	// finish prior request, so new model can load
			
 
				 	time.Sleep(6 * time.Millisecond)
			
 
				-	require.Len(t, s.loaded, 1)
			
 
				+	s.loadedMu.Lock()
			
 
				+	require.Len(t, s.loaded, 2)
			
 
				+	s.loadedMu.Unlock()
			
 
				 	scenario3b.ctxDone()
			
 
				 	select {
			
 
				-	case resp := <-scenario3c.req.successCh:
			
 
				-		require.Equal(t, resp.llama, scenario3c.srv)
			
 
				+	case resp := <-scenario3d.req.successCh:
			
 
				+		require.Equal(t, resp.llama, scenario3d.srv)
			
 
				 		require.Len(t, s.pendingReqCh, 0)
			
 
				-		require.Len(t, scenario3c.req.errCh, 0)
			
 
				+		require.Len(t, scenario3d.req.errCh, 0)
			
 
				 	case <-ctx.Done():
			
 
				 		t.Errorf("timeout")
			
 
				 	}
			
 
				-	require.Len(t, s.loaded, 1)
			
 
				+	s.loadedMu.Lock()
			
 
				+	require.Len(t, s.loaded, 2)
			
 
				+	s.loadedMu.Unlock()
			
 
				 }
			
 
				 
			
 
				 func TestGetRunner(t *testing.T) {
			
@@ -318,7 +368,9 @@ func TestGetRunner(t *testing.T) {
 
				 		t.Errorf("timeout")
			
 
				 	}
			
 
				 	scenario1a.ctxDone()
			
 
				+	s.loadedMu.Lock()
			
 
				 	require.Len(t, s.loaded, 1)
			
 
				+	s.loadedMu.Unlock()
			
 
				 
			
 
				 	scenario1c.req.model.ModelPath = "bad path"
			
 
				 	slog.Info("scenario1c")
			
@@ -328,7 +380,9 @@ func TestGetRunner(t *testing.T) {
 
				 	require.Len(t, errCh1c, 0)
			
 
				 
			
 
				 	time.Sleep(5 * time.Millisecond)
			
 
				+	s.loadedMu.Lock()
			
 
				 	require.Len(t, s.loaded, 0)
			
 
				+	s.loadedMu.Unlock()
			
 
				 	require.Len(t, errCh1c, 1)
			
 
				 	err = <-errCh1c
			
 
				 	require.Contains(t, err.Error(), "bad path")
			
@@ -358,7 +412,9 @@ func TestPrematureExpired(t *testing.T) {
 
				 		require.Equal(t, resp.llama, scenario1a.srv)
			
 
				 		require.Len(t, s.pendingReqCh, 0)
			
 
				 		require.Len(t, errCh1a, 0)
			
 
				+		s.loadedMu.Lock()
			
 
				 		require.Len(t, s.loaded, 1)
			
 
				+		s.loadedMu.Unlock()
			
 
				 		slog.Info("sending premature expired event now")
			
 
				 		s.expiredCh <- resp // Shouldn't happen in real life, but make sure its safe
			
 
				 	case <-ctx.Done():
			
@@ -383,6 +439,7 @@ func TestUseLoadedRunner(t *testing.T) {
 
				 	ctx, done := context.WithTimeout(context.Background(), 5*time.Millisecond)
			
 
				 	req := &LlmRequest{
			
 
				 		ctx:             ctx,
			
 
				+		opts:            api.DefaultOptions(),
			
 
				 		successCh:       make(chan *runnerRef, 1),
			
 
				 		sessionDuration: 2,
			
 
				 	}
			
@@ -426,8 +483,10 @@ func TestUpdateFreeSpace(t *testing.T) {
 
				 	r2 := &runnerRef{llama: llm2, gpus: gpus}
			
 
				 
			
 
				 	s := InitScheduler(ctx)
			
 
				+	s.loadedMu.Lock()
			
 
				 	s.loaded["a"] = r1
			
 
				 	s.loaded["b"] = r2
			
 
				+	s.loadedMu.Unlock()
			
 
				 
			
 
				 	s.updateFreeSpace(gpus)
			
 
				 	require.Equal(t, uint64(850), gpus[0].FreeMemory)
			
@@ -437,13 +496,18 @@ func TestUpdateFreeSpace(t *testing.T) {
 
				 func TestFindRunnerToUnload(t *testing.T) {
			
 
				 	ctx, done := context.WithTimeout(context.Background(), 5*time.Millisecond)
			
 
				 	defer done()
			
 
				-	req := &LlmRequest{ctx: ctx}
			
 
				+	req := &LlmRequest{
			
 
				+		ctx:  ctx,
			
 
				+		opts: api.DefaultOptions(),
			
 
				+	}
			
 
				 	r1 := &runnerRef{refCount: 1, sessionDuration: 1}
			
 
				 	r2 := &runnerRef{sessionDuration: 2}
			
 
				 
			
 
				 	s := InitScheduler(ctx)
			
 
				+	s.loadedMu.Lock()
			
 
				 	s.loaded["a"] = r1
			
 
				 	s.loaded["b"] = r2
			
 
				+	s.loadedMu.Unlock()
			
 
				 
			
 
				 	resp := s.findRunnerToUnload(req)
			
 
				 	require.Equal(t, r2, resp)
			
@@ -458,10 +522,11 @@ func TestNeedsReload(t *testing.T) {
 
				 	defer done()
			
 
				 
			
 
				 	llm := &mockLlm{}
			
 
				+	do := api.DefaultOptions()
			
 
				 	runner := &runnerRef{
			
 
				 		adapters:   []string{"adapter1"},
			
 
				 		projectors: []string{"projector1"},
			
 
				-		Options:    &api.Options{},
			
 
				+		Options:    &do,
			
 
				 		llama:      llm,
			
 
				 	}
			
 
				 	req := &LlmRequest{
			
@@ -469,7 +534,7 @@ func TestNeedsReload(t *testing.T) {
 
				 			AdapterPaths:   []string{"adapter2"},
			
 
				 			ProjectorPaths: []string{"projector2"},
			
 
				 		},
			
 
				-		opts: api.Options{},
			
 
				+		opts: api.DefaultOptions(),
			
 
				 	}
			
 
				 	resp := runner.needsReload(ctx, req)
			
 
				 	require.True(t, resp)
			
@@ -508,8 +573,10 @@ func TestUnloadAllRunners(t *testing.T) {
 
				 	r1 := &runnerRef{llama: llm1}
			
 
				 	r2 := &runnerRef{llama: llm2}
			
 
				 
			
 
				+	s.loadedMu.Lock()
			
 
				 	s.loaded["a"] = r1
			
 
				 	s.loaded["b"] = r2
			
 
				+	s.loadedMu.Unlock()
			
 
				 	s.unloadAllRunners()
			
 
				 
			
 
				 	require.True(t, llm1.closeCalled)