преди 1 месец · 0682dae027
--- a/go.mod
+++ b/go.mod
@@ -25,7 +25,6 @@ require (
 
				 	github.com/pdevine/tensor v0.0.0-20240510204454-f88f4562727c
			
 
				 	golang.org/x/image v0.22.0
			
 
				 	golang.org/x/tools v0.30.0
			
 
				-	gonum.org/v1/gonum v0.15.0
			
 
				 )
			
 
				 
			
 
				 require (
			
@@ -45,6 +44,7 @@ require (
 
				 	github.com/xtgo/set v1.0.0 // indirect
			
 
				 	go4.org/unsafe/assume-no-moving-gc v0.0.0-20231121144256-b99613f794b6 // indirect
			
 
				 	golang.org/x/xerrors v0.0.0-20200804184101-5ec99f83aff1 // indirect
			
 
				+	gonum.org/v1/gonum v0.15.0 // indirect
			
 
				 	gorgonia.org/vecf32 v0.9.0 // indirect
			
 
				 	gorgonia.org/vecf64 v0.9.0 // indirect
			
 
				 )
			
--- a/runner/ollamarunner/runner.go
+++ b/runner/ollamarunner/runner.go
@@ -589,11 +589,19 @@ func (s *Server) completion(w http.ResponseWriter, r *http.Request) {
 
				 		return
			
 
				 	}
			
 
				 
			
 
				+	sampler := sample.NewSampler(
			
 
				+		req.Temperature,
			
 
				+		req.TopK,
			
 
				+		req.TopP,
			
 
				+		req.MinP,
			
 
				+		req.Seed,
			
 
				+	)
			
 
				+
			
 
				 	seq, err := s.NewSequence(req.Prompt, req.Images, NewSequenceParams{
			
 
				 		numPredict: req.NumPredict,
			
 
				 		stop:       req.Stop,
			
 
				 		numKeep:    int32(req.NumKeep),
			
 
				-		sampler:    sample.Greedy(), // TODO: add support for different samplers when performance is optimized
			
 
				+		sampler:    sampler,
			
 
				 		embedding:  false,
			
 
				 	})
			
 
				 	if err != nil {
			
--- a/sample/samplers.go
+++ b/sample/samplers.go
@@ -2,76 +2,103 @@ package sample
 
				 
			
 
				 import (
			
 
				 	"errors"
			
 
				-	"math"
			
 
				-
			
 
				-	"golang.org/x/exp/rand"
			
 
				-	"gonum.org/v1/gonum/stat/sampleuv"
			
 
				+	"math/rand/v2"
			
 
				+	"slices"
			
 
				 )
			
 
				 
			
 
				+// Sampler is not thread-safe. Each goroutine should have its own instance
			
 
				 type Sampler interface {
			
 
				 	Sample([]float32) (int32, error)
			
 
				 }
			
 
				 
			
 
				+// logit represents information about a single token during sampling
			
 
				+type logit struct {
			
 
				+	id    int32   // The token's unique identifier
			
 
				+	value float32 // The raw logit or probability from the model
			
 
				+}
			
 
				+
			
 
				 type weighted struct {
			
 
				-	src        rand.Source
			
 
				-	transforms []Transform
			
 
				+	rng         *rand.Rand
			
 
				+	tokens      []logit
			
 
				+	topK        int
			
 
				+	topP        float32
			
 
				+	minP        float32
			
 
				+	temperature float32
			
 
				 }
			
 
				 
			
 
				-// TODO(parthsareen): remove uv sample dependency https://github.com/ollama/ollama/issues/9279
			
 
				-func Weighted(seed *uint64, transforms ...Transform) Sampler {
			
 
				-	var src rand.Source
			
 
				-	if seed != nil {
			
 
				-		src = rand.NewSource(*seed)
			
 
				+func (s *weighted) Sample(logits []float32) (int32, error) {
			
 
				+	if len(s.tokens) < len(logits) {
			
 
				+		s.tokens = make([]logit, len(logits))
			
 
				 	}
			
 
				-	return weighted{src: src, transforms: transforms}
			
 
				-}
			
 
				 
			
 
				-func (s weighted) Sample(logits []float32) (int32, error) {
			
 
				-	logits64 := make([]float64, len(logits))
			
 
				+	tokens := s.tokens[:len(logits)]
			
 
				+
			
 
				 	for i, v := range logits {
			
 
				-		logits64[i] = float64(v)
			
 
				+		tokens[i].id = int32(i)
			
 
				+		tokens[i].value = v
			
 
				 	}
			
 
				 
			
 
				-	for _, t := range s.transforms {
			
 
				-		logits64 = t.Apply(logits64)
			
 
				+	// Tokens are sorted by logits in TopK or SortTokens
			
 
				+	if s.topK > 0 {
			
 
				+		tokens = topK(tokens, s.topK)
			
 
				+	} else {
			
 
				+		sortLogits(tokens)
			
 
				 	}
			
 
				 
			
 
				-	logitsCopy := make([]float64, 0, len(logits))
			
 
				-	indices := make([]int, 0, len(logits))
			
 
				-	for i, logit := range logits64 {
			
 
				-		if !math.IsInf(logit, -1) {
			
 
				-			logitsCopy = append(logitsCopy, logit)
			
 
				-			indices = append(indices, i)
			
 
				-		}
			
 
				+	tokens = temperature(tokens, s.temperature)
			
 
				+	tokens = softmax(tokens)
			
 
				+
			
 
				+	tokens = topP(tokens, s.topP)
			
 
				+	tokens = minP(tokens, s.minP)
			
 
				+
			
 
				+	if len(tokens) == 0 {
			
 
				+		return -1, errors.New("no valid logits found for weighted sampling")
			
 
				 	}
			
 
				 
			
 
				-	if len(logitsCopy) == 0 {
			
 
				-		return -1, errors.New("no valid logits found for weighed sampling")
			
 
				+	var r float32
			
 
				+	if s.rng != nil {
			
 
				+		r = s.rng.Float32()
			
 
				+	} else {
			
 
				+		r = rand.Float32()
			
 
				 	}
			
 
				 
			
 
				-	probs := softmax(logitsCopy)
			
 
				-	w := sampleuv.NewWeighted(probs, s.src)
			
 
				-	if idx, ok := w.Take(); ok {
			
 
				-		return int32(indices[idx]), nil
			
 
				+	// Calculate cumulative sum of probabilities
			
 
				+	var sum float32
			
 
				+	for i := range tokens {
			
 
				+		sum += tokens[i].value
			
 
				+		tokens[i].value = sum
			
 
				 	}
			
 
				-	return -1, errors.New("weighted sampler failed, no valid token found")
			
 
				-}
			
 
				+	r *= tokens[len(tokens)-1].value
			
 
				 
			
 
				-type greedy struct{}
			
 
				+	idx, _ := slices.BinarySearchFunc(tokens, r, func(token logit, target float32) int {
			
 
				+		// Compare cumulative probabilities
			
 
				+		if token.value < target {
			
 
				+			return -1
			
 
				+		}
			
 
				+		// First token that exceeds target
			
 
				+		return 1
			
 
				+	})
			
 
				 
			
 
				-func Greedy() Sampler {
			
 
				-	return greedy{}
			
 
				+	if idx >= len(tokens) {
			
 
				+		idx = len(tokens) - 1
			
 
				+	}
			
 
				+
			
 
				+	return tokens[idx].id, nil
			
 
				 }
			
 
				 
			
 
				-// Sample returns the index of the maximum value in logits.
			
 
				+type greedy struct{}
			
 
				+
			
 
				+// Greedy sample returns the index of the maximum value in logits.
			
 
				 func (s greedy) Sample(logits []float32) (int32, error) {
			
 
				 	if len(logits) == 0 {
			
 
				 		return -1, errors.New("no logits provided for greedy sampling")
			
 
				 	}
			
 
				 
			
 
				 	maxIdx := 0
			
 
				-	for i := range logits {
			
 
				-		if logits[i] > logits[maxIdx] {
			
 
				+	maxVal := logits[0]
			
 
				+	for i := 1; i < len(logits); i++ {
			
 
				+		if logits[i] > maxVal {
			
 
				+			maxVal = logits[i]
			
 
				 			maxIdx = i
			
 
				 		}
			
 
				 	}
			
@@ -80,41 +107,40 @@ func (s greedy) Sample(logits []float32) (int32, error) {
 
				 }
			
 
				 
			
 
				 // TODO(parthsareen): update sampler interface to use json unmarshal https://github.com/ollama/ollama/issues/9278
			
 
				-func NewSampler(temperature float32, topK int, topP float32, minP float32, seed int) (Sampler, error) {
			
 
				+func NewSampler(temperature float32, topK int, topP float32, minP float32, seed int) Sampler {
			
 
				 	if temperature == 0 {
			
 
				-		return Greedy(), nil
			
 
				+		return &greedy{}
			
 
				 	}
			
 
				 
			
 
				-	if temperature < 0 || temperature > 2 {
			
 
				-		return nil, errors.New("temperature must be between 0 and 2")
			
 
				+	var rng *rand.Rand
			
 
				+	if seed != -1 {
			
 
				+		// PCG requires two parameters: sequence and stream
			
 
				+		// Use original seed for sequence
			
 
				+		sequence := uint64(seed)
			
 
				+		// Use golden ratio hash to generate statistically independent seeds
			
 
				+		rng = rand.New(rand.NewPCG(sequence, sequence^0x9E3779B9))
			
 
				 	}
			
 
				+	temperature = max(temperature, 1)
			
 
				 
			
 
				-	transforms := []Transform{Temperature(temperature)}
			
 
				-
			
 
				-	if topK != 0 {
			
 
				-		if topK <= 0 {
			
 
				-			return nil, errors.New("topK must be greater than 0")
			
 
				-		}
			
 
				-		transforms = append(transforms, TopK(topK))
			
 
				+	if topP < 0.0 {
			
 
				+		topP = 0.0
			
 
				 	}
			
 
				-
			
 
				-	if topP != 0 {
			
 
				-		if topP < 0 || topP >= 1 {
			
 
				-			return nil, errors.New("topP must be between 0 and 1")
			
 
				-		}
			
 
				-		transforms = append(transforms, TopP(topP))
			
 
				+	if topP >= 1.0 {
			
 
				+		topP = 1.0
			
 
				 	}
			
 
				 
			
 
				-	if minP != 0 {
			
 
				-		if minP < 0 || minP >= 1 {
			
 
				-			return nil, errors.New("minP must be between 0 and 1")
			
 
				-		}
			
 
				-		transforms = append(transforms, MinP(minP))
			
 
				+	if minP < 0.0 {
			
 
				+		minP = 0.0
			
 
				+	}
			
 
				+	if minP >= 1.0 {
			
 
				+		minP = 1.0
			
 
				 	}
			
 
				 
			
 
				-	if seed >= 0 {
			
 
				-		seed64 := uint64(seed)
			
 
				-		return Weighted(&seed64, transforms...), nil
			
 
				+	return &weighted{
			
 
				+		rng:         rng,
			
 
				+		topK:        topK,
			
 
				+		topP:        topP,
			
 
				+		minP:        minP,
			
 
				+		temperature: temperature,
			
 
				 	}
			
 
				-	return Weighted(nil, transforms...), nil
			
 
				 }
			
--- a/sample/samplers_benchmark_test.go
+++ b/sample/samplers_benchmark_test.go
@@ -0,0 +1,104 @@
 
				+package sample
			
 
				+
			
 
				+import (
			
 
				+	"fmt"
			
 
				+	"math/rand"
			
 
				+	"testing"
			
 
				+)
			
 
				+
			
 
				+func BenchmarkWeightedSampler(b *testing.B) {
			
 
				+	sizes := []int{10, 100, 1000, 10000}
			
 
				+
			
 
				+	for _, size := range sizes {
			
 
				+		b.Run(fmt.Sprintf("Size %d", size), func(b *testing.B) {
			
 
				+			logits := make([]float32, size)
			
 
				+			for i := range logits {
			
 
				+				logits[i] = float32(rand.Float64()*10 - 5)
			
 
				+			}
			
 
				+
			
 
				+			sampler := NewSampler(0.8, 0, 0, 0, 42)
			
 
				+			b.ResetTimer()
			
 
				+			for b.Loop() {
			
 
				+				_, err := sampler.Sample(logits)
			
 
				+				if err != nil {
			
 
				+					b.Fatalf("Sampling failed: %v", err)
			
 
				+				}
			
 
				+			}
			
 
				+		})
			
 
				+	}
			
 
				+
			
 
				+	configs := []struct {
			
 
				+		name        string
			
 
				+		temperature float32
			
 
				+		topK        int
			
 
				+		topP        float32
			
 
				+		minP        float32
			
 
				+		seed        int
			
 
				+	}{
			
 
				+		{"Greedy", 0, -1, 0, 0, -1},
			
 
				+		{"Temperature", 0.8, -1, 0, 0, -1},
			
 
				+		{"TopK", 0.8, 50, 0, 0, -1},
			
 
				+		{"TopP", 0.8, -1, 0.9, 0, -1},
			
 
				+		{"MinP", 0.8, -1, 0, 0.05, -1},
			
 
				+		{"WithSeed", 0.8, 50, 0, 0, 42},
			
 
				+	}
			
 
				+
			
 
				+	// Fixed size for common vocab size
			
 
				+	size := 128000
			
 
				+	logits := make([]float32, size)
			
 
				+	for i := range logits {
			
 
				+		logits[i] = float32(rand.Float64()*10 - 5)
			
 
				+	}
			
 
				+
			
 
				+	for _, tc := range configs {
			
 
				+		b.Run("Config"+tc.name, func(b *testing.B) {
			
 
				+			sampler := NewSampler(tc.temperature, tc.topK, tc.topP, tc.minP, tc.seed)
			
 
				+			sampler.Sample(logits)
			
 
				+
			
 
				+			b.ResetTimer()
			
 
				+
			
 
				+			for b.Loop() {
			
 
				+				_, err := sampler.Sample(logits)
			
 
				+				if err != nil {
			
 
				+					b.Fatalf("Sampling failed: %v", err)
			
 
				+				}
			
 
				+			}
			
 
				+		})
			
 
				+	}
			
 
				+
			
 
				+	// Test with combined transforms separately - topK influences performance greatly
			
 
				+	b.Run("TransformCombined", func(b *testing.B) {
			
 
				+		sampler := NewSampler(0.8, 50, 0.9, 0.05, 42)
			
 
				+		b.ResetTimer()
			
 
				+
			
 
				+		for b.Loop() {
			
 
				+			_, err := sampler.Sample(logits)
			
 
				+			if err != nil {
			
 
				+				b.Fatalf("Sampling failed: %v", err)
			
 
				+			}
			
 
				+		}
			
 
				+	})
			
 
				+}
			
 
				+
			
 
				+func BenchmarkGreedySampler(b *testing.B) {
			
 
				+	sizes := []int{10, 100, 1000, 10000, 100000}
			
 
				+
			
 
				+	for _, size := range sizes {
			
 
				+		b.Run(fmt.Sprintf("Size %d", size), func(b *testing.B) {
			
 
				+			logits := make([]float32, size)
			
 
				+			for i := range logits {
			
 
				+				logits[i] = float32(rand.Float64()*10 - 5)
			
 
				+			}
			
 
				+
			
 
				+			sampler := NewSampler(0, -1, 0, 0, -1)
			
 
				+			b.ResetTimer()
			
 
				+
			
 
				+			for b.Loop() {
			
 
				+				_, err := sampler.Sample(logits)
			
 
				+				if err != nil {
			
 
				+					b.Fatalf("Sampling failed: %v", err)
			
 
				+				}
			
 
				+			}
			
 
				+		})
			
 
				+	}
			
 
				+}
			
--- a/sample/samplers_test.go
+++ b/sample/samplers_test.go
@@ -1,15 +1,14 @@
 
				 package sample
			
 
				 
			
 
				 import (
			
 
				-	"math"
			
 
				 	"math/rand/v2"
			
 
				 	"testing"
			
 
				-
			
 
				-	"github.com/google/go-cmp/cmp"
			
 
				 )
			
 
				 
			
 
				 func TestWeighted(t *testing.T) {
			
 
				-	got, err := Weighted(nil).Sample([]float32{float32(math.Inf(-1)), 2, float32(math.Inf(-1)), float32(math.Inf(-1))})
			
 
				+	logits := []float32{-10, 3, -10, -10}
			
 
				+	sampler := NewSampler(0, 0, 0, 0, 0)
			
 
				+	got, err := sampler.Sample(logits)
			
 
				 	if err != nil {
			
 
				 		t.Error(err)
			
 
				 		return
			
@@ -19,64 +18,19 @@ func TestWeighted(t *testing.T) {
 
				 		t.Errorf("index mismatch: want %d, got %d", want, got)
			
 
				 	}
			
 
				 
			
 
				-	got, err = Weighted(nil).Sample([]float32{float32(math.Inf(-1)), float32(math.Inf(-1)), float32(math.Inf(-1))})
			
 
				-	if err == nil {
			
 
				-		t.Error("expected error for no valid tokens, got index", got)
			
 
				-	}
			
 
				-
			
 
				-	seed := uint64(42)
			
 
				-	got, err = Weighted(&seed).Sample([]float32{1, 2, 3, 4})
			
 
				+	logits = []float32{-100, -10, 0, 10}
			
 
				+	sampler = NewSampler(0, 0, 0, 0, 0)
			
 
				+	got, err = sampler.Sample(logits)
			
 
				 	if err != nil {
			
 
				 		t.Error(err)
			
 
				 		return
			
 
				 	}
			
 
				-	// With seed 42, we expect a consistent sample
			
 
				-	want = int32(3) // This will be deterministic due to the seed
			
 
				+	want = int32(3) // Should pick highest probability with this r value
			
 
				 	if want != got {
			
 
				 		t.Errorf("index mismatch: want %d, got %d", want, got)
			
 
				 	}
			
 
				 }
			
 
				 
			
 
				-type testTransform struct {
			
 
				-	id        int
			
 
				-	callOrder *[]int
			
 
				-}
			
 
				-
			
 
				-func (ts *testTransform) Apply(logits []float64) []float64 {
			
 
				-	if ts.callOrder != nil {
			
 
				-		*ts.callOrder = append(*ts.callOrder, ts.id)
			
 
				-	}
			
 
				-	return logits
			
 
				-}
			
 
				-
			
 
				-func TestSample(t *testing.T) {
			
 
				-	input := []float32{1, 2, 3, 4}
			
 
				-
			
 
				-	var callOrder []int
			
 
				-	mock1 := &testTransform{
			
 
				-		id:        1,
			
 
				-		callOrder: &callOrder,
			
 
				-	}
			
 
				-	mock2 := &testTransform{
			
 
				-		id:        2,
			
 
				-		callOrder: &callOrder,
			
 
				-	}
			
 
				-	mock3 := &testTransform{
			
 
				-		id:        3,
			
 
				-		callOrder: &callOrder,
			
 
				-	}
			
 
				-
			
 
				-	_, err := Weighted(nil, mock1, mock2, mock3).Sample(input)
			
 
				-	if err != nil {
			
 
				-		t.Error(err)
			
 
				-		return
			
 
				-	}
			
 
				-	wantOrder := []int{1, 2, 3}
			
 
				-	if diff := cmp.Diff(wantOrder, callOrder); diff != "" {
			
 
				-		t.Errorf("call order mismatch (-want +got):\n%s", diff)
			
 
				-	}
			
 
				-}
			
 
				-
			
 
				 func TestNewSampler(t *testing.T) {
			
 
				 	tests := []struct {
			
 
				 		name        string
			
@@ -85,75 +39,41 @@ func TestNewSampler(t *testing.T) {
 
				 		topP        float32
			
 
				 		minP        float32
			
 
				 		seed        int
			
 
				-		wantErr     bool
			
 
				+		wantGreedy  bool // Instead of wantErr, check if we get greedy sampler
			
 
				 	}{
			
 
				-		{
			
 
				-			name: "no transforms",
			
 
				-			// temperature is 0, so greedy should be used
			
 
				-			wantErr: false,
			
 
				-		},
			
 
				 		{
			
 
				 			name:        "temperature",
			
 
				 			temperature: 0.5,
			
 
				-			wantErr:     false,
			
 
				+			wantGreedy:  false,
			
 
				 		},
			
 
				 		{
			
 
				-			name:        "invalid temperature negative",
			
 
				-			temperature: -1,
			
 
				-			wantErr:     true,
			
 
				-		},
			
 
				-		{
			
 
				-			name:        "invalid temperature too high",
			
 
				-			temperature: 2.1,
			
 
				-			wantErr:     true,
			
 
				+			name:        "zero temperature - greedy",
			
 
				+			temperature: 0,
			
 
				+			wantGreedy:  true,
			
 
				 		},
			
 
				 		{
			
 
				 			name:        "top k",
			
 
				+			temperature: 0.1,
			
 
				 			topK:        10,
			
 
				-			temperature: 0.8,
			
 
				-			wantErr:     false,
			
 
				-		},
			
 
				-		{
			
 
				-			name:        "invalid top k negative",
			
 
				-			topK:        -1,
			
 
				-			temperature: 0.8,
			
 
				-			wantErr:     true,
			
 
				+			wantGreedy:  false,
			
 
				 		},
			
 
				 		{
			
 
				 			name:        "top p",
			
 
				+			temperature: 0.1,
			
 
				 			topP:        0.9,
			
 
				-			temperature: 0.8,
			
 
				-			wantErr:     false,
			
 
				-		},
			
 
				-		{
			
 
				-			name:        "invalid top p negative",
			
 
				-			topP:        -0.1,
			
 
				-			temperature: 0.8,
			
 
				-			wantErr:     true,
			
 
				-		},
			
 
				-		{
			
 
				-			name:        "invalid top p one",
			
 
				-			topP:        1.0,
			
 
				-			temperature: 0.8,
			
 
				-			wantErr:     true,
			
 
				+			wantGreedy:  false,
			
 
				 		},
			
 
				 		{
			
 
				 			name:        "min p",
			
 
				+			temperature: 0.1,
			
 
				 			minP:        0.2,
			
 
				-			temperature: 0.8,
			
 
				-			wantErr:     false,
			
 
				-		},
			
 
				-		{
			
 
				-			name:        "invalid min p negative",
			
 
				-			minP:        -0.1,
			
 
				-			temperature: 0.8,
			
 
				-			wantErr:     true,
			
 
				+			wantGreedy:  false,
			
 
				 		},
			
 
				 		{
			
 
				-			name:        "invalid min p one",
			
 
				-			minP:        1.0,
			
 
				-			temperature: 0.8,
			
 
				-			wantErr:     true,
			
 
				+			name:        "seed - weighted",
			
 
				+			temperature: 0.1,
			
 
				+			seed:        42,
			
 
				+			wantGreedy:  false,
			
 
				 		},
			
 
				 		{
			
 
				 			name:        "default values",
			
@@ -162,16 +82,16 @@ func TestNewSampler(t *testing.T) {
 
				 			topP:        0.9,
			
 
				 			minP:        0.0,
			
 
				 			seed:        0,
			
 
				-			wantErr:     false,
			
 
				+			wantGreedy:  false,
			
 
				 		},
			
 
				 		{
			
 
				-			name:        "all zeroes",
			
 
				+			name:        "all zeroes - greedy",
			
 
				 			temperature: 0.0,
			
 
				 			topK:        0,
			
 
				 			topP:        0.0,
			
 
				 			minP:        0.0,
			
 
				 			seed:        0,
			
 
				-			wantErr:     false, // all zeroes means no transforms
			
 
				+			wantGreedy:  true,
			
 
				 		},
			
 
				 		{
			
 
				 			name:        "all transforms",
			
@@ -180,33 +100,28 @@ func TestNewSampler(t *testing.T) {
 
				 			topP:        0.95,
			
 
				 			minP:        0.1,
			
 
				 			seed:        42,
			
 
				-			wantErr:     false,
			
 
				+			wantGreedy:  false,
			
 
				 		},
			
 
				 	}
			
 
				-
			
 
				 	for _, tt := range tests {
			
 
				 		t.Run(tt.name, func(t *testing.T) {
			
 
				-			_, err := NewSampler(tt.temperature, tt.topK, tt.topP, tt.minP, tt.seed)
			
 
				-			if (err != nil) != tt.wantErr {
			
 
				-				t.Errorf("NewSampler() error = %v, wantErr %v", err, tt.wantErr)
			
 
				+			sampler := NewSampler(tt.temperature, tt.topK, tt.topP, tt.minP, tt.seed)
			
 
				+			_, isGreedy := sampler.(*greedy)
			
 
				+			if isGreedy != tt.wantGreedy {
			
 
				+				t.Errorf("NewSampler() got greedy = %v, want %v", isGreedy, tt.wantGreedy)
			
 
				 			}
			
 
				 		})
			
 
				 	}
			
 
				 }
			
 
				 
			
 
				 func BenchmarkSample(b *testing.B) {
			
 
				-	transforms := []Transform{
			
 
				-		Temperature(0.5),
			
 
				-		TopK(10),
			
 
				-		TopP(0.9),
			
 
				-		MinP(0.2),
			
 
				-	}
			
 
				-
			
 
				+	weighted := NewSampler(0.5, 10, 0.9, 0.2, -1)
			
 
				 	samplers := map[string]Sampler{
			
 
				-		"Greedy":   Greedy(),
			
 
				-		"Weighted": Weighted(nil, transforms...),
			
 
				+		"Greedy":   NewSampler(0, 0, 0, 0, 0), // Use NewSampler with temp=0 for greedy
			
 
				+		"Weighted": weighted,
			
 
				 	}
			
 
				 
			
 
				+	// Generate random logits for benchmarking
			
 
				 	logits := make([]float32, 1<<16)
			
 
				 	for i := range logits {
			
 
				 		logits[i] = rand.Float32()
			
@@ -215,7 +130,7 @@ func BenchmarkSample(b *testing.B) {
 
				 	for name, s := range samplers {
			
 
				 		b.Run(name, func(b *testing.B) {
			
 
				 			b.ResetTimer()
			
 
				-			for range b.N {
			
 
				+			for b.Loop() {
			
 
				 				if _, err := s.Sample(logits); err != nil {
			
 
				 					b.Error(err)
			
 
				 				}
			
--- a/sample/transforms.go
+++ b/sample/transforms.go
@@ -1,120 +1,203 @@
 
				 package sample
			
 
				 
			
 
				 import (
			
 
				-	"cmp"
			
 
				 	"math"
			
 
				 	"slices"
			
 
				-
			
 
				-	pq "github.com/emirpasic/gods/v2/queues/priorityqueue"
			
 
				 )
			
 
				 
			
 
				-type Transform interface {
			
 
				-	Apply([]float64) []float64
			
 
				-}
			
 
				-
			
 
				-// TODO(parthsareen): potentially cache softmax values
			
 
				-func softmax(logits []float64) []float64 {
			
 
				-	var sum float64
			
 
				-	probs := make([]float64, len(logits))
			
 
				-	for i, v := range logits {
			
 
				-		probs[i] = math.Exp(v)
			
 
				-		sum += probs[i]
			
 
				+func softmax(ts []logit) []logit {
			
 
				+	var sum float32
			
 
				+	for i, v := range ts {
			
 
				+		ts[i].value = float32(math.Exp(float64(v.value)))
			
 
				+		sum += ts[i].value
			
 
				 	}
			
 
				 
			
 
				-	for i := range probs {
			
 
				-		probs[i] /= sum
			
 
				+	for i := range ts {
			
 
				+		ts[i].value /= sum
			
 
				 	}
			
 
				 
			
 
				-	return probs
			
 
				+	return ts
			
 
				 }
			
 
				 
			
 
				-type Temperature float64
			
 
				+func temperature(ti []logit, t float32) []logit {
			
 
				+	if t == 1 {
			
 
				+		return ti
			
 
				+	}
			
 
				 
			
 
				-func (t Temperature) Apply(logits []float64) []float64 {
			
 
				-	temp := math.Max(float64(t), 1e-7)
			
 
				+	temp := max(t, 1e-7)
			
 
				+	maxLogit := float32(math.Inf(-1))
			
 
				+	for _, token := range ti {
			
 
				+		if token.value > maxLogit {
			
 
				+			maxLogit = token.value
			
 
				+		}
			
 
				+	}
			
 
				 
			
 
				 	// subtracting max logit to avoid under/overflow
			
 
				-	maxLogit := slices.Max(logits)
			
 
				-	for i := range logits {
			
 
				-		logits[i] = (logits[i] - maxLogit) / temp
			
 
				+	for i := range ti {
			
 
				+		ti[i].value = (ti[i].value - maxLogit) / temp
			
 
				 	}
			
 
				 
			
 
				-	return logits
			
 
				+	return ti
			
 
				 }
			
 
				 
			
 
				-type logitMap struct {
			
 
				-	index int
			
 
				-	logit float64
			
 
				+// siftDown maintains a min-heap property by recursively moving larger elements down the heap.
			
 
				+//
			
 
				+// The heap is represented as an array where for any node at index i:
			
 
				+// - Left child is at index 2i + 1
			
 
				+// - Right child is at index 2i + 2
			
 
				+// - Parent is at index (i-1)/2
			
 
				+//
			
 
				+// The function compares a node with its children and:
			
 
				+// 1. Finds the smallest value between the node and its children
			
 
				+// 2. If the node is not the smallest, swaps it with its smallest child
			
 
				+// 3. Continues this process down the affected path until the min-heap property is restored
			
 
				+func siftDown(data []logit, start, end int) {
			
 
				+	root := start
			
 
				+	for {
			
 
				+		child := 2*root + 1
			
 
				+		if child >= end {
			
 
				+			break
			
 
				+		}
			
 
				+		// Find smaller child (we want min heap)
			
 
				+		if child+1 < end && data[child+1].value < data[child].value {
			
 
				+			child++
			
 
				+		}
			
 
				+		// Exit if root is already smaller than children
			
 
				+		if data[root].value <= data[child].value {
			
 
				+			break
			
 
				+		}
			
 
				+		// Swap with smaller child and continue
			
 
				+		data[root], data[child] = data[child], data[root]
			
 
				+		root = child
			
 
				+	}
			
 
				 }
			
 
				 
			
 
				-type TopK int
			
 
				-
			
 
				-// TODO(parthsareen): avoid having to check all logits after this transform
			
 
				-func (k TopK) Apply(logits []float64) []float64 {
			
 
				-	if int(k) >= len(logits) {
			
 
				-		return logits
			
 
				+// topK limits the number of tokens considered to the k highest logits
			
 
				+func topK(ts []logit, k int) []logit {
			
 
				+	if k >= len(ts) {
			
 
				+		return ts
			
 
				+	}
			
 
				+	// Heapify + siftDown - O(nlog(k))
			
 
				+	// Build min-heap of first k elements
			
 
				+	heap := ts[:k]
			
 
				+	for i := k/2 - 1; i >= 0; i-- {
			
 
				+		siftDown(heap, i, k)
			
 
				 	}
			
 
				-	q := pq.NewWith(func(a, b logitMap) int {
			
 
				-		return -cmp.Compare(a.logit, b.logit)
			
 
				-	})
			
 
				 
			
 
				-	for i, logit := range logits {
			
 
				-		q.Enqueue(logitMap{index: i, logit: logit})
			
 
				+	// Process remaining elements - if larger than heap root, replace root
			
 
				+	for i := k; i < len(ts); i++ {
			
 
				+		if ts[i].value > heap[0].value {
			
 
				+			heap[0] = ts[i]
			
 
				+			siftDown(heap, 0, k)
			
 
				+		}
			
 
				 	}
			
 
				 
			
 
				-	validLogits := make(map[int]float64)
			
 
				-	for range k {
			
 
				-		logitMap, _ := q.Dequeue()
			
 
				-		validLogits[logitMap.index] = logitMap.logit
			
 
				+	slices.Reverse(heap)
			
 
				+
			
 
				+	ts = heap
			
 
				+	return ts
			
 
				+}
			
 
				+
			
 
				+// topP limits tokens to those with cumulative probability p
			
 
				+func topP(ts []logit, p float32) []logit {
			
 
				+	if p == 1.0 {
			
 
				+		return ts
			
 
				 	}
			
 
				 
			
 
				-	for i := range logits {
			
 
				-		if _, ok := validLogits[i]; !ok {
			
 
				-			logits[i] = math.Inf(-1)
			
 
				+	// Find cutoff index where cumulative sum exceeds p
			
 
				+	var sum float32
			
 
				+	for i, t := range ts {
			
 
				+		sum += t.value
			
 
				+		if sum > float32(p) {
			
 
				+			ts = ts[:i+1]
			
 
				+			return ts
			
 
				 		}
			
 
				 	}
			
 
				 
			
 
				-	return logits
			
 
				+	return ts
			
 
				 }
			
 
				 
			
 
				-type TopP float64
			
 
				+// minP limits tokens to those with cumulative probability p
			
 
				+func minP(ts []logit, p float32) []logit {
			
 
				+	if p == 1.0 {
			
 
				+		return ts
			
 
				+	}
			
 
				 
			
 
				-func (p TopP) Apply(logits []float64) []float64 {
			
 
				-	probs := softmax(logits)
			
 
				-	indices := make([]int, len(probs))
			
 
				-	for i := range indices {
			
 
				-		indices[i] = i
			
 
				+	maxProb := float32(math.Inf(-1))
			
 
				+	for _, token := range ts {
			
 
				+		if token.value > maxProb {
			
 
				+			maxProb = token.value
			
 
				+		}
			
 
				 	}
			
 
				 
			
 
				-	// sort in descending order
			
 
				-	slices.SortFunc(indices, func(i, j int) int {
			
 
				-		return cmp.Compare(probs[j], probs[i])
			
 
				-	})
			
 
				+	threshold := maxProb * float32(p)
			
 
				 
			
 
				-	var sum float64
			
 
				-	for i, idx := range indices {
			
 
				-		sum += probs[idx]
			
 
				-		if sum > float64(p) {
			
 
				-			for _, idx := range indices[i+1:] {
			
 
				-				logits[idx] = math.Inf(-1)
			
 
				-			}
			
 
				-			break
			
 
				+	// Filter tokens in-place
			
 
				+	validTokens := ts[:0]
			
 
				+	for i, token := range ts {
			
 
				+		if token.value >= threshold {
			
 
				+			validTokens = append(validTokens, ts[i])
			
 
				 		}
			
 
				 	}
			
 
				-	return logits
			
 
				-}
			
 
				 
			
 
				-type MinP float64
			
 
				+	ts = validTokens
			
 
				+	return ts
			
 
				+}
			
 
				 
			
 
				-func (p MinP) Apply(logits []float64) []float64 {
			
 
				-	probs := softmax(logits)
			
 
				-	threshold := slices.Max(probs) * float64(p)
			
 
				+// TODO(parthsareen): possibly replace with simpler implementation https://github.com/ollama/ollama/issues/9584
			
 
				+// Conting sort implementation to sort tokens by logits
			
 
				+func sortLogits(tokens []logit) {
			
 
				+	if len(tokens) <= 1 {
			
 
				+		return
			
 
				+	}
			
 
				 
			
 
				-	for i, prob := range probs {
			
 
				-		if prob < threshold {
			
 
				-			logits[i] = math.Inf(-1)
			
 
				+	// Find max/min in a single pass
			
 
				+	minLogit, maxLogit := tokens[0].value, tokens[0].value
			
 
				+	for _, t := range tokens[1:] {
			
 
				+		if t.value < minLogit {
			
 
				+			minLogit = t.value
			
 
				+		} else if t.value > maxLogit {
			
 
				+			maxLogit = t.value
			
 
				 		}
			
 
				 	}
			
 
				 
			
 
				-	return logits
			
 
				+	// Calculate scaling to map to uint32 range
			
 
				+	logitRange := maxLogit - minLogit
			
 
				+	if logitRange < 1e-6 {
			
 
				+		return // All values effectively equal
			
 
				+	}
			
 
				+
			
 
				+	// Count frequencies directly from tokens
			
 
				+	const maxInt = (1 << 24) - 1 // Use 24 bits for good granularity
			
 
				+	var counts [256]int          // For first byte
			
 
				+
			
 
				+	// First pass: count frequencies
			
 
				+	for _, t := range tokens {
			
 
				+		// Map to [0, maxInt] range
			
 
				+		score := min(uint32((t.value-minLogit)*float32(maxInt)/logitRange), maxInt)
			
 
				+		counts[score>>16]++
			
 
				+	}
			
 
				+
			
 
				+	// Calculate offsets
			
 
				+	var offset int
			
 
				+	for i := range counts {
			
 
				+		count := counts[i]
			
 
				+		counts[i] = offset
			
 
				+		offset += count
			
 
				+	}
			
 
				+
			
 
				+	// Second pass: place elements in correct position
			
 
				+	output := make([]logit, len(tokens))
			
 
				+	// Track current positions
			
 
				+	countsCopy := counts
			
 
				+
			
 
				+	for i, t := range tokens {
			
 
				+		score := min(uint32((t.value-minLogit)*float32(maxInt)/logitRange), maxInt)
			
 
				+
			
 
				+		pos := countsCopy[score>>16]
			
 
				+		countsCopy[score>>16]++
			
 
				+		output[len(tokens)-1-pos] = tokens[i]
			
 
				+	}
			
 
				+
			
 
				+	copy(tokens, output)
			
 
				 }
			
--- a/sample/transforms_test.go
+++ b/sample/transforms_test.go
@@ -4,77 +4,182 @@ import (
 
				 	"math"
			
 
				 	"math/rand/v2"
			
 
				 	"testing"
			
 
				-
			
 
				-	"github.com/google/go-cmp/cmp"
			
 
				 )
			
 
				 
			
 
				-func TestTemperature(t *testing.T) {
			
 
				-	got := Temperature(0.5).Apply([]float64{2, -1, 4, -3, 1, -2, 0})
			
 
				-	want := []float64{-4, -10, 0, -14, -6, -12, -8}
			
 
				-	if diff := cmp.Diff(want, got); diff != "" {
			
 
				-		t.Errorf("logits mismatch (-want +got):\n%s", diff)
			
 
				+// Helper to convert float64 slice to logit slice
			
 
				+func toLogits(values []float64) []logit {
			
 
				+	tokens := make([]logit, len(values))
			
 
				+	for i, v := range values {
			
 
				+		tokens[i] = logit{
			
 
				+			id:    int32(i),
			
 
				+			value: float32(v),
			
 
				+		}
			
 
				+	}
			
 
				+	return tokens
			
 
				+}
			
 
				+
			
 
				+// Helper to compare logit slices
			
 
				+func compareLogits(t *testing.T, name string, want []float64, got []logit) {
			
 
				+	t.Helper()
			
 
				+	if len(want) != len(got) {
			
 
				+		t.Errorf("%s: length mismatch: want %d, got %d", name, len(want), len(got))
			
 
				+		return
			
 
				+	}
			
 
				+	for i := range want {
			
 
				+		if math.Abs(float64(got[i].value)-want[i]) > 1e-6 {
			
 
				+			t.Errorf("%s: index %d: want %f, got %f", name, i, want[i], got[i].value)
			
 
				+		}
			
 
				 	}
			
 
				 }
			
 
				 
			
 
				+func TestTemperature(t *testing.T) {
			
 
				+	input := []float64{2, -1, 4, -3, 1, -2, 0}
			
 
				+	want := []float64{-4, -10, 0, -14, -6, -12, -8} // (logit - max logit) / temp
			
 
				+
			
 
				+	got := temperature(toLogits(input), 0.5)
			
 
				+	compareLogits(t, "Temperature", want, got)
			
 
				+}
			
 
				+
			
 
				 func TestSoftmax(t *testing.T) {
			
 
				-	got := softmax([]float64{-3, -2, -1, 0, 1, 2, 4})
			
 
				+	input := []float64{-3, -2, -1, 0, 1, 2, 4}
			
 
				+	got := softmax(toLogits(input))
			
 
				 
			
 
				-	want := []float64{0.000751406628089903, 0.0020425349829204676, 0.005552185728064613, 0.015092405572827691, 0.04102541181635154, 0.11151863144543739, 0.8240174238263085}
			
 
				-	if diff := cmp.Diff(want, got); diff != "" {
			
 
				-		t.Errorf("probs mismatch (-want +got):\n%s", diff)
			
 
				+	// Check probabilities sum to 1
			
 
				+	var sum float32
			
 
				+	for _, token := range got {
			
 
				+		sum += token.value
			
 
				+	}
			
 
				+	if math.Abs(float64(sum)-1.0) > 1e-6 {
			
 
				+		t.Errorf("probabilities don't sum to 1: got %f", sum)
			
 
				 	}
			
 
				-}
			
 
				 
			
 
				-func TestTopK(t *testing.T) {
			
 
				-	got := TopK(3).Apply([]float64{-3, -2, -1, 0, 1, 2, 4})
			
 
				-	want := []float64{math.Inf(-1), math.Inf(-1), math.Inf(-1), math.Inf(-1), 1, 2, 4}
			
 
				-	if diff := cmp.Diff(want, got); diff != "" {
			
 
				-		t.Errorf("logits mismatch (-want +got):\n%s", diff)
			
 
				+	// Check relative ordering is preserved
			
 
				+	for i := 1; i < len(got); i++ {
			
 
				+		if got[i].value < got[i-1].value {
			
 
				+			t.Errorf("probability ordering not preserved at index %d", i)
			
 
				+		}
			
 
				 	}
			
 
				+}
			
 
				 
			
 
				-	got = TopK(10).Apply([]float64{-3, -2, -1, 0, 1, 2, 4})
			
 
				+func TestTopK(t *testing.T) {
			
 
				+	input := []float64{-3, -2, -1, 0, 1, 2, 4}
			
 
				 
			
 
				-	want = []float64{-3, -2, -1, 0, 1, 2, 4}
			
 
				-	if diff := cmp.Diff(want, got); diff != "" {
			
 
				-		t.Errorf("logits mismatch (-want +got):\n%s", diff)
			
 
				+	// Test k=3
			
 
				+	got := topK(toLogits(input), 3)
			
 
				+	if len(got) != 3 {
			
 
				+		t.Errorf("topK(3): wrong length: want 3, got %d", len(got))
			
 
				 	}
			
 
				+	// Should keep highest 3 values: 4, 2, 1
			
 
				+	want := []float64{4, 2, 1}
			
 
				+	compareLogits(t, "topK(3)", want, got)
			
 
				+
			
 
				+	// Test k > len
			
 
				+	got = topK(toLogits(input), 10)
			
 
				+	compareLogits(t, "topK(10)", input, got)
			
 
				 }
			
 
				 
			
 
				 func TestTopP(t *testing.T) {
			
 
				-	got := TopP(0.9).Apply([]float64{-3, -2, -1, 0, 1, 2, 4})
			
 
				-	want := []float64{math.Inf(-1), math.Inf(-1), math.Inf(-1), math.Inf(-1), math.Inf(-1), 2, 4}
			
 
				-	if diff := cmp.Diff(want, got); diff != "" {
			
 
				-		t.Errorf("logits mismatch (-want +got):\n%s", diff)
			
 
				+	input := []float64{-3, -2, -1, 0, 1, 2, 4}
			
 
				+	tokens := toLogits(input)
			
 
				+
			
 
				+	// First apply temperature and softmax to get probabilities
			
 
				+	tokens = temperature(tokens, 1)
			
 
				+	tokens = softmax(tokens)
			
 
				+	sortLogits(tokens)
			
 
				+
			
 
				+	// Then apply topP
			
 
				+	got := topP(tokens, 0.95)
			
 
				+
			
 
				+	// Should keep tokens until cumsum > 0.95
			
 
				+	if len(got) > 3 {
			
 
				+		t.Errorf("topP(0.95): kept too many tokens: got %d", len(got))
			
 
				+		t.Logf("got: %v", got)
			
 
				 	}
			
 
				 }
			
 
				 
			
 
				 func TestMinP(t *testing.T) {
			
 
				-	got := MinP(0.2).Apply([]float64{-3, -2, -1, 0, 1, 2, 4, 3})
			
 
				-	want := []float64{math.Inf(-1), math.Inf(-1), math.Inf(-1), math.Inf(-1), math.Inf(-1), math.Inf(-1), 4, 3}
			
 
				-	if diff := cmp.Diff(want, got); diff != "" {
			
 
				-		t.Errorf("logits mismatch (-want +got):\n%s", diff)
			
 
				+	input := []float64{-3, -2, -1, 0, 1, 2, 4, 3}
			
 
				+	tokens := toLogits(input)
			
 
				+
			
 
				+	// First apply temperature and softmax
			
 
				+	tokens = temperature(tokens, 1)
			
 
				+	tokens = softmax(tokens)
			
 
				+
			
 
				+	// Then apply minP
			
 
				+	got := minP(tokens, 0.2)
			
 
				+
			
 
				+	// Should keep tokens with prob >= 0.2 * max_prob
			
 
				+	if len(got) > 3 {
			
 
				+		t.Errorf("minP(0.2): kept too many tokens: got %d", len(got))
			
 
				 	}
			
 
				 }
			
 
				 
			
 
				-func BenchmarkTransform(b *testing.B) {
			
 
				-	transforms := map[string]Transform{
			
 
				-		"Temperature": Temperature(0.5),
			
 
				-		"TopK":        TopK(10),
			
 
				-		"TopP":        TopP(0.9),
			
 
				-		"MinP":        MinP(0.2),
			
 
				-	}
			
 
				+func TestSortLogits(t *testing.T) {
			
 
				+	input := []float64{3, 1, 4, 2, -1, 0, -2}
			
 
				+	tokens := toLogits(input)
			
 
				+
			
 
				+	sortLogits(tokens)
			
 
				 
			
 
				-	logits := make([]float64, 1<<16)
			
 
				-	for i := range logits {
			
 
				-		logits[i] = rand.Float64()
			
 
				+	for i := 1; i < len(tokens); i++ {
			
 
				+		if tokens[i].value > tokens[i-1].value {
			
 
				+			t.Errorf("sortLogits: tokens not sorted in descending order at index %d: %f > %f",
			
 
				+				i, tokens[i].value, tokens[i-1].value)
			
 
				+		}
			
 
				 	}
			
 
				 
			
 
				-	for name, transform := range transforms {
			
 
				-		b.Run(name, func(b *testing.B) {
			
 
				-			b.ResetTimer()
			
 
				-			for range b.N {
			
 
				-				transform.Apply(logits)
			
 
				-			}
			
 
				-		})
			
 
				+	want := []float64{4, 3, 2, 1, 0, -1, -2}
			
 
				+	compareLogits(t, "sortLogits", want, tokens)
			
 
				+}
			
 
				+
			
 
				+func BenchmarkTransforms(b *testing.B) {
			
 
				+	// Generate random logits
			
 
				+	tokens := make([]logit, 1<<16)
			
 
				+	for i := range tokens {
			
 
				+		tokens[i] = logit{
			
 
				+			id:    int32(i),
			
 
				+			value: rand.Float32(),
			
 
				+		}
			
 
				 	}
			
 
				+
			
 
				+	tokensCopy := make([]logit, len(tokens))
			
 
				+
			
 
				+	b.Run("Temperature", func(b *testing.B) {
			
 
				+		b.ResetTimer()
			
 
				+		for b.Loop() {
			
 
				+			copy(tokensCopy, tokens)
			
 
				+			temperature(tokensCopy, 0.5)
			
 
				+		}
			
 
				+	})
			
 
				+
			
 
				+	b.Run("TopK", func(b *testing.B) {
			
 
				+		b.ResetTimer()
			
 
				+		for b.Loop() {
			
 
				+			copy(tokensCopy, tokens)
			
 
				+			topK(tokensCopy, 10)
			
 
				+		}
			
 
				+	})
			
 
				+
			
 
				+	b.Run("TopP", func(b *testing.B) {
			
 
				+		b.ResetTimer()
			
 
				+		for b.Loop() {
			
 
				+			copy(tokensCopy, tokens)
			
 
				+			topP(tokensCopy, 0.9)
			
 
				+		}
			
 
				+	})
			
 
				+
			
 
				+	b.Run("MinP", func(b *testing.B) {
			
 
				+		b.ResetTimer()
			
 
				+		for b.Loop() {
			
 
				+			copy(tokensCopy, tokens)
			
 
				+			minP(tokensCopy, 0.2)
			
 
				+		}
			
 
				+	})
			
 
				+
			
 
				+	b.Run("SortTokens", func(b *testing.B) {
			
 
				+		b.ResetTimer()
			
 
				+		for b.Loop() {
			
 
				+			copy(tokensCopy, tokens)
			
 
				+			sortLogits(tokensCopy)
			
 
				+		}
			
 
				+	})
			
 
				 }