1 month ago · 22f2f6e229
--- a/llm/server.go
+++ b/llm/server.go
@@ -796,6 +796,14 @@ func (s *llmServer) Completion(ctx context.Context, req CompletionRequest, fn fu
 
				 			if err := json.Unmarshal(evt, &c); err != nil {
			
 
				 				return fmt.Errorf("error unmarshalling llm prediction response: %v", err)
			
 
				 			}
			
 
				+			// convert internal done reason to one of our standard api format done reasons
			
 
				+			switch c.DoneReason {
			
 
				+			case "limit":
			
 
				+				c.DoneReason = "length"
			
 
				+			default:
			
 
				+				c.DoneReason = "stop"
			
 
				+			}
			
 
				+
			
 
				 			switch {
			
 
				 			case strings.TrimSpace(c.Content) == lastToken:
			
 
				 				tokenRepeat++
			
--- a/runner/llamarunner/runner.go
+++ b/runner/llamarunner/runner.go
@@ -647,14 +647,9 @@ func (s *Server) completion(w http.ResponseWriter, r *http.Request) {
 
				 
			
 
				 				flusher.Flush()
			
 
				 			} else {
			
 
				-				// Send the final response
			
 
				-				doneReason := "stop"
			
 
				-				if seq.doneReason == "limit" {
			
 
				-					doneReason = "length"
			
 
				-				}
			
 
				 				if err := json.NewEncoder(w).Encode(&llm.CompletionResponse{
			
 
				 					Done:               true,
			
 
				-					DoneReason:         doneReason,
			
 
				+					DoneReason:         seq.doneReason,
			
 
				 					PromptEvalCount:    seq.numPromptInputs,
			
 
				 					PromptEvalDuration: seq.startGenerationTime.Sub(seq.startProcessingTime),
			
 
				 					EvalCount:          seq.numDecoded,
			
--- a/runner/ollamarunner/runner.go
+++ b/runner/ollamarunner/runner.go
@@ -627,14 +627,9 @@ func (s *Server) completion(w http.ResponseWriter, r *http.Request) {
 
				 
			
 
				 				flusher.Flush()
			
 
				 			} else {
			
 
				-				// Send the final response
			
 
				-				doneReason := "stop"
			
 
				-				if seq.doneReason == "limit" {
			
 
				-					doneReason = "length"
			
 
				-				}
			
 
				 				if err := json.NewEncoder(w).Encode(&llm.CompletionResponse{
			
 
				 					Done:               true,
			
 
				-					DoneReason:         doneReason,
			
 
				+					DoneReason:         seq.doneReason,
			
 
				 					PromptEvalCount:    seq.numPromptInputs,
			
 
				 					PromptEvalDuration: seq.startGenerationTime.Sub(seq.startProcessingTime),
			
 
				 					EvalCount:          seq.numPredicted,