8 months ago · 53b600921e
--- a/llama/runner/runner.go
+++ b/llama/runner/runner.go
@@ -198,9 +198,6 @@ func incompleteUnicode(token string) bool {
 
				 }
			
 
				 
			
 
				 func (s *Server) run(ctx context.Context) {
			
 
				-	batch := llama.NewBatch(s.batchSize*len(s.seqs), 0, len(s.seqs))
			
 
				-	defer batch.Free()
			
 
				-
			
 
				 	// build up stop sequences as we recognize them
			
 
				 	// TODO (jmorganca): simplify this
			
 
				 	pieces := make([][]string, s.parallel)
			
@@ -210,158 +207,166 @@ func (s *Server) run(ctx context.Context) {
 
				 		case <-ctx.Done():
			
 
				 			return
			
 
				 		default:
			
 
				-			slog.Debug("Processing batch", "seqs", len(s.seqs))
			
 
				-			s.mu.Lock()
			
 
				-			for s.allNil() {
			
 
				-				s.cond.Wait() // Wait until an item is added
			
 
				-			}
			
 
				-			s.mu.Unlock()
			
 
				-
			
 
				-			for i, seq := range s.seqs {
			
 
				-				if seq == nil {
			
 
				-					continue
			
 
				-				}
			
 
				-
			
 
				-				// if past the num predict limit
			
 
				-				if seq.numPredict > 0 && seq.numPredicted > seq.numPredict {
			
 
				-					seq.doneReason = "limit"
			
 
				-					close(seq.responses)
			
 
				-					s.lc.KvCacheSeqRm(i, 0, -1)
			
 
				-					s.seqs[i] = nil
			
 
				-					continue
			
 
				-				}
			
 
				-
			
 
				-				if seq.nPast+len(seq.tokens) > s.numCtx {
			
 
				-					s.shiftContext(i)
			
 
				-				}
			
 
				-
			
 
				-				if seq.t_start_process_prompt.IsZero() {
			
 
				-					seq.t_start_process_prompt = time.Now()
			
 
				-				}
			
 
				-
			
 
				-				var numTokensProcessed int
			
 
				-				for j, t := range seq.tokens {
			
 
				-					// todo: make this n_batch
			
 
				-					if j >= s.batchSize {
			
 
				-						break
			
 
				-					}
			
 
				-					batch.Add(t, seq.nPast, []int{i}, numTokensProcessed+1 == len(seq.tokens))
			
 
				-					seq.nPast++
			
 
				-					numTokensProcessed++
			
 
				-				}
			
 
				-				seq.tokens = seq.tokens[numTokensProcessed:]
			
 
				-				seq.iBatch = batch.NumTokens() - 1
			
 
				-			}
			
 
				+			pieces = s.processBatch(pieces)
			
 
				+		}
			
 
				+	}
			
 
				+}
			
 
				+
			
 
				+func (s *Server) processBatch(pieces [][]string) [][]string {
			
 
				+	batch := llama.NewBatch(s.batchSize*len(s.seqs), 0, len(s.seqs))
			
 
				+	defer batch.Free()
			
 
				+
			
 
				+	s.mu.Lock()
			
 
				+	for s.allNil() {
			
 
				+		s.cond.Wait() // Wait until an item is added
			
 
				+	}
			
 
				+	defer s.mu.Unlock()
			
 
				+
			
 
				+	slog.Debug("Processing batch", "seqs", len(s.seqs))
			
 
				+
			
 
				+	for i, seq := range s.seqs {
			
 
				+		if seq == nil {
			
 
				+			continue
			
 
				+		}
			
 
				 
			
 
				-			if batch.NumTokens() == 0 {
			
 
				-				continue
			
 
				+		// if past the num predict limit
			
 
				+		if seq.numPredict > 0 && seq.numPredicted > seq.numPredict {
			
 
				+			seq.doneReason = "limit"
			
 
				+			close(seq.responses)
			
 
				+			s.lc.KvCacheSeqRm(i, 0, -1)
			
 
				+			s.seqs[i] = nil
			
 
				+			continue
			
 
				+		}
			
 
				+
			
 
				+		if seq.nPast+len(seq.tokens) > s.numCtx {
			
 
				+			s.shiftContext(i)
			
 
				+		}
			
 
				+
			
 
				+		if seq.t_start_process_prompt.IsZero() {
			
 
				+			seq.t_start_process_prompt = time.Now()
			
 
				+		}
			
 
				+
			
 
				+		var numTokensProcessed int
			
 
				+		for j, t := range seq.tokens {
			
 
				+			// todo: make this n_batch
			
 
				+			if j >= s.batchSize {
			
 
				+				break
			
 
				 			}
			
 
				+			batch.Add(t, seq.nPast, []int{i}, numTokensProcessed+1 == len(seq.tokens))
			
 
				+			seq.nPast++
			
 
				+			numTokensProcessed++
			
 
				+		}
			
 
				+		seq.tokens = seq.tokens[numTokensProcessed:]
			
 
				+		seq.iBatch = batch.NumTokens() - 1
			
 
				+	}
			
 
				+
			
 
				+	if batch.NumTokens() == 0 {
			
 
				+		return pieces
			
 
				+	}
			
 
				 
			
 
				-			err := s.lc.Decode(batch)
			
 
				-			if err != nil {
			
 
				-				slog.Error("failed to decode batch", "error", err)
			
 
				-				panic("Failed to decode")
			
 
				+	err := s.lc.Decode(batch)
			
 
				+	if err != nil {
			
 
				+		slog.Error("failed to decode batch", "error", err)
			
 
				+		panic("Failed to decode")
			
 
				+	}
			
 
				+
			
 
				+	for i, seq := range s.seqs {
			
 
				+		if seq == nil {
			
 
				+			continue
			
 
				+		}
			
 
				+
			
 
				+		// don't sample prompt processing
			
 
				+		if len(seq.tokens) != 0 {
			
 
				+			continue
			
 
				+		}
			
 
				+
			
 
				+		// if done processing the prompt, generating an embedding and return
			
 
				+		if seq.embeddingOnly {
			
 
				+			embd := s.lc.GetEmbeddingsSeq(i)
			
 
				+			if embd == nil {
			
 
				+				embd = s.lc.GetEmbeddingsIth(seq.iBatch)
			
 
				 			}
			
 
				 
			
 
				-			for i, seq := range s.seqs {
			
 
				-				if seq == nil {
			
 
				-					continue
			
 
				-				}
			
 
				-
			
 
				-				// don't sample prompt processing
			
 
				-				if len(seq.tokens) != 0 {
			
 
				-					continue
			
 
				-				}
			
 
				-
			
 
				-				// if done processing the prompt, generating an embedding and return
			
 
				-				if seq.embeddingOnly {
			
 
				-					embd := s.lc.GetEmbeddingsSeq(i)
			
 
				-					if embd == nil {
			
 
				-						embd = s.lc.GetEmbeddingsIth(seq.iBatch)
			
 
				-					}
			
 
				-
			
 
				-					seq.embedding <- embd
			
 
				-					close(seq.embedding)
			
 
				-					s.lc.KvCacheSeqRm(i, 0, -1)
			
 
				-					s.seqs[i] = nil
			
 
				-					continue
			
 
				-				}
			
 
				-
			
 
				-				// sample a token
			
 
				-				// logits := s.lc.GetLogitsIth(ibatch[i])
			
 
				-				// token := s.lc.SampleTokenGreedy(logits)
			
 
				-				token := seq.samplingCtx.Sample(s.lc, nil, seq.iBatch)
			
 
				-
			
 
				-				seq.samplingCtx.Accept(s.lc, token, true)
			
 
				-				seq.n_decoded += 1
			
 
				-				if seq.n_decoded == 1 {
			
 
				-					seq.t_start_genereration = time.Now()
			
 
				-				}
			
 
				-				piece := s.model.TokenToPiece(token)
			
 
				-
			
 
				-				seq.numPredicted++
			
 
				-
			
 
				-				slog.Debug("sampled", "piece", piece)
			
 
				-
			
 
				-				// if it's an end of sequence token, break
			
 
				-				// TODO: just end this sequence
			
 
				-				if s.model.TokenIsEog(token) {
			
 
				-					// TODO: end the sequence instead of quitting the pool
			
 
				-					s.lc.KvCacheSeqRm(i, 0, -1)
			
 
				-
			
 
				-					// TODO (jmorganca): we should send this back
			
 
				-					// as it's important for the /api/generate context
			
 
				-					// seq.responses <- piece
			
 
				-
			
 
				-					seq.doneReason = "stop"
			
 
				-					close(seq.responses)
			
 
				-					seq.samplingCtx.Free()
			
 
				-					pieces[i] = []string{}
			
 
				-					s.seqs[i] = nil
			
 
				-					continue
			
 
				-				}
			
 
				-
			
 
				-				seq.tokens = []int{token}
			
 
				-
			
 
				-				pieces[i] = append(pieces[i], piece)
			
 
				-				sequence := strings.Join(pieces[i], "")
			
 
				-
			
 
				-				if incompleteUnicode(sequence) {
			
 
				-					continue
			
 
				-				}
			
 
				-
			
 
				-				if ok, stop := findStop(sequence, seq.stop); ok {
			
 
				-					slog.Info("hit stop token", "stop", seq.stop)
			
 
				-
			
 
				-					truncated := truncateStop(pieces[i], stop)
			
 
				-
			
 
				-					for _, p := range truncated {
			
 
				-						seq.responses <- p
			
 
				-					}
			
 
				-
			
 
				-					s.lc.KvCacheSeqRm(i, 0, -1)
			
 
				-					seq.doneReason = "stop"
			
 
				-					close(seq.responses)
			
 
				-					seq.samplingCtx.Free()
			
 
				-					pieces[i] = []string{}
			
 
				-					s.seqs[i] = nil
			
 
				-					continue
			
 
				-				}
			
 
				-
			
 
				-				if containsStopSuffix(sequence, seq.stop) {
			
 
				-					continue
			
 
				-				}
			
 
				-
			
 
				-				for _, p := range pieces[i] {
			
 
				-					seq.responses <- p
			
 
				-				}
			
 
				-
			
 
				-				pieces[i] = []string{}
			
 
				+			seq.embedding <- embd
			
 
				+			close(seq.embedding)
			
 
				+			s.lc.KvCacheSeqRm(i, 0, -1)
			
 
				+			s.seqs[i] = nil
			
 
				+			continue
			
 
				+		}
			
 
				+
			
 
				+		// sample a token
			
 
				+		// logits := s.lc.GetLogitsIth(ibatch[i])
			
 
				+		// token := s.lc.SampleTokenGreedy(logits)
			
 
				+		token := seq.samplingCtx.Sample(s.lc, nil, seq.iBatch)
			
 
				+
			
 
				+		seq.samplingCtx.Accept(s.lc, token, true)
			
 
				+		seq.n_decoded += 1
			
 
				+		if seq.n_decoded == 1 {
			
 
				+			seq.t_start_genereration = time.Now()
			
 
				+		}
			
 
				+		piece := s.model.TokenToPiece(token)
			
 
				+
			
 
				+		seq.numPredicted++
			
 
				+
			
 
				+		slog.Debug("sampled", "piece", piece)
			
 
				+
			
 
				+		// if it's an end of sequence token, break
			
 
				+		// TODO: just end this sequence
			
 
				+		if s.model.TokenIsEog(token) {
			
 
				+			// TODO: end the sequence instead of quitting the pool
			
 
				+			s.lc.KvCacheSeqRm(i, 0, -1)
			
 
				+
			
 
				+			// TODO (jmorganca): we should send this back
			
 
				+			// as it's important for the /api/generate context
			
 
				+			// seq.responses <- piece
			
 
				+
			
 
				+			seq.doneReason = "stop"
			
 
				+			close(seq.responses)
			
 
				+			seq.samplingCtx.Free()
			
 
				+			pieces[i] = []string{}
			
 
				+			s.seqs[i] = nil
			
 
				+			continue
			
 
				+		}
			
 
				+
			
 
				+		seq.tokens = []int{token}
			
 
				+
			
 
				+		pieces[i] = append(pieces[i], piece)
			
 
				+		sequence := strings.Join(pieces[i], "")
			
 
				+
			
 
				+		if incompleteUnicode(sequence) {
			
 
				+			continue
			
 
				+		}
			
 
				+
			
 
				+		if ok, stop := findStop(sequence, seq.stop); ok {
			
 
				+			slog.Info("hit stop token", "stop", seq.stop)
			
 
				+
			
 
				+			truncated := truncateStop(pieces[i], stop)
			
 
				+
			
 
				+			for _, p := range truncated {
			
 
				+				seq.responses <- p
			
 
				 			}
			
 
				 
			
 
				-			batch.Clear()
			
 
				+			s.lc.KvCacheSeqRm(i, 0, -1)
			
 
				+			seq.doneReason = "stop"
			
 
				+			close(seq.responses)
			
 
				+			seq.samplingCtx.Free()
			
 
				+			pieces[i] = []string{}
			
 
				+			s.seqs[i] = nil
			
 
				+			continue
			
 
				+		}
			
 
				+
			
 
				+		if containsStopSuffix(sequence, seq.stop) {
			
 
				+			continue
			
 
				 		}
			
 
				+
			
 
				+		for _, p := range pieces[i] {
			
 
				+			seq.responses <- p
			
 
				+		}
			
 
				+
			
 
				+		pieces[i] = []string{}
			
 
				 	}
			
 
				+
			
 
				+	return pieces
			
 
				 }
			
 
				 
			
 
				 type Options struct {