10 ماه پیش · cb42e607c5
--- a/llm/ggla.go
+++ b/llm/ggla.go
@@ -53,7 +53,7 @@ func (llm *ggla) Tensors() Tensors {
 
				 	return llm.tensors
			
 
				 }
			
 
				 
			
 
				-func (llm *ggla) decode(rs io.ReadSeeker) error {
			
 
				+func (llm *ggla) decode(rs io.ReadSeeker) (retErr error) {
			
 
				 	var r uint32
			
 
				 	if err := binary.Read(rs, binary.LittleEndian, &r); err != nil {
			
 
				 		return err
			
@@ -69,9 +69,18 @@ func (llm *ggla) decode(rs io.ReadSeeker) error {
 
				 	for {
			
 
				 		var dims uint32
			
 
				 		if err := binary.Read(rs, binary.LittleEndian, &dims); err != nil {
			
 
				+			if errors.Is(err, io.EOF) {
			
 
				+				return nil
			
 
				+			}
			
 
				 			return err
			
 
				 		}
			
 
				 
			
 
				+		defer func() {
			
 
				+			if errors.Is(retErr, io.EOF) {
			
 
				+				retErr = io.ErrUnexpectedEOF
			
 
				+			}
			
 
				+		}()
			
 
				+
			
 
				 		var namesize uint32
			
 
				 		if err := binary.Read(rs, binary.LittleEndian, &namesize); err != nil {
			
 
				 			return err
			
@@ -108,7 +117,7 @@ func (llm *ggla) decode(rs io.ReadSeeker) error {
 
				 			return err
			
 
				 		}
			
 
				 
			
 
				-		if _, err := rs.Seek((offset+31)&-32, io.SeekStart); err != nil {
			
 
				+		if _, err := rs.Seek((offset+31)&-32-offset, io.SeekCurrent); err != nil {
			
 
				 			return err
			
 
				 		}
			
 
				 
			
--- a/llm/ggml.go
+++ b/llm/ggml.go
@@ -6,6 +6,8 @@ import (
 
				 	"fmt"
			
 
				 	"io"
			
 
				 	"strings"
			
 
				+
			
 
				+	"github.com/ollama/ollama/util/bufioutil"
			
 
				 )
			
 
				 
			
 
				 type GGML struct {
			
@@ -278,7 +280,18 @@ func DetectGGMLType(b []byte) string {
 
				 	}
			
 
				 }
			
 
				 
			
 
				-func DecodeGGML(rs io.ReadSeeker) (*GGML, int64, error) {
			
 
				+// DecodeGGML decodes a GGML model from the given reader.
			
 
				+//
			
 
				+// It collects array values for arrays with a size less than or equal to
			
 
				+// maxArraySize. If maxArraySize is 0, the default value of 1024 is used. If
			
 
				+// the maxArraySize is negative, all arrays are collected.
			
 
				+func DecodeGGML(rs io.ReadSeeker, maxArraySize int) (*GGML, int64, error) {
			
 
				+	if maxArraySize == 0 {
			
 
				+		maxArraySize = 1024
			
 
				+	}
			
 
				+
			
 
				+	rs = bufioutil.NewBufferedSeeker(rs, 32<<10)
			
 
				+
			
 
				 	var magic uint32
			
 
				 	if err := binary.Read(rs, binary.LittleEndian, &magic); err != nil {
			
 
				 		return nil, 0, err
			
@@ -291,17 +304,15 @@ func DecodeGGML(rs io.ReadSeeker) (*GGML, int64, error) {
 
				 	case FILE_MAGIC_GGLA:
			
 
				 		c = &containerGGLA{}
			
 
				 	case FILE_MAGIC_GGUF_LE:
			
 
				-		c = &containerGGUF{ByteOrder: binary.LittleEndian}
			
 
				+		c = &containerGGUF{ByteOrder: binary.LittleEndian, maxArraySize: maxArraySize}
			
 
				 	case FILE_MAGIC_GGUF_BE:
			
 
				-		c = &containerGGUF{ByteOrder: binary.BigEndian}
			
 
				+		c = &containerGGUF{ByteOrder: binary.BigEndian, maxArraySize: maxArraySize}
			
 
				 	default:
			
 
				 		return nil, 0, errors.New("invalid file magic")
			
 
				 	}
			
 
				 
			
 
				 	model, err := c.Decode(rs)
			
 
				-	if errors.Is(err, io.EOF) {
			
 
				-		// noop
			
 
				-	} else if err != nil {
			
 
				+	if err != nil {
			
 
				 		return nil, 0, err
			
 
				 	}
			
 
				 
			
@@ -321,7 +332,7 @@ func (llm GGML) GraphSize(context, batch uint64) (partialOffload, fullOffload ui
 
				 	embedding := llm.KV().EmbeddingLength()
			
 
				 	heads := llm.KV().HeadCount()
			
 
				 	headsKV := llm.KV().HeadCountKV()
			
 
				-	vocab := uint64(len(llm.KV()["tokenizer.ggml.tokens"].([]any)))
			
 
				+	vocab := uint64(llm.KV()["tokenizer.ggml.tokens"].(*array).size)
			
 
				 
			
 
				 	embeddingHeads := llm.KV().EmbeddingHeadCount()
			
 
				 	embeddingHeadsK := llm.KV().EmbeddingHeadCountK()
			
--- a/llm/ggml_test.go
+++ b/llm/ggml_test.go
@@ -0,0 +1 @@
 
				+package llm
			
--- a/llm/gguf.go
+++ b/llm/gguf.go
@@ -3,11 +3,10 @@ package llm
 
				 import (
			
 
				 	"bytes"
			
 
				 	"encoding/binary"
			
 
				+	"encoding/json"
			
 
				 	"fmt"
			
 
				 	"io"
			
 
				 	"strings"
			
 
				-
			
 
				-	"log/slog"
			
 
				 )
			
 
				 
			
 
				 type containerGGUF struct {
			
@@ -29,6 +28,12 @@ type containerGGUF struct {
 
				 		NumTensor uint64
			
 
				 		NumKV     uint64
			
 
				 	}
			
 
				+
			
 
				+	maxArraySize int
			
 
				+}
			
 
				+
			
 
				+func (c *containerGGUF) canCollectArray(size int) bool {
			
 
				+	return c.maxArraySize < 0 || size <= c.maxArraySize
			
 
				 }
			
 
				 
			
 
				 func (c *containerGGUF) Name() string {
			
@@ -54,7 +59,6 @@ func (c *containerGGUF) Decode(rs io.ReadSeeker) (model, error) {
 
				 	}
			
 
				 
			
 
				 	model := newGGUF(c)
			
 
				-	slog.Debug(fmt.Sprintf("model = %#v", model))
			
 
				 	if err := model.Decode(rs); err != nil {
			
 
				 		return nil, err
			
 
				 	}
			
@@ -85,6 +89,8 @@ type gguf struct {
 
				 	tensors []*Tensor
			
 
				 
			
 
				 	parameters uint64
			
 
				+
			
 
				+	scratch [16 << 10]byte
			
 
				 }
			
 
				 
			
 
				 func newGGUF(container *containerGGUF) *gguf {
			
@@ -181,34 +187,34 @@ func (llm *gguf) Decode(rs io.ReadSeeker) error {
 
				 	}
			
 
				 
			
 
				 	// decode tensors
			
 
				-	for i := 0; uint64(i) < llm.numTensor(); i++ {
			
 
				+	for range llm.numTensor() {
			
 
				 		name, err := readGGUFString(llm, rs)
			
 
				 		if err != nil {
			
 
				-			return err
			
 
				+			return fmt.Errorf("failed to read tensor name: %w", err)
			
 
				 		}
			
 
				 
			
 
				 		// dims is the number of dimensions in the tensor
			
 
				 		dims, err := readGGUF[uint32](llm, rs)
			
 
				 		if err != nil {
			
 
				-			return err
			
 
				+			return fmt.Errorf("failed to read tensor dimensions: %w", err)
			
 
				 		}
			
 
				 
			
 
				 		shape := [4]uint64{1, 1, 1, 1}
			
 
				 		for i := 0; uint32(i) < dims; i++ {
			
 
				 			shape[i], err = readGGUF[uint64](llm, rs)
			
 
				 			if err != nil {
			
 
				-				return err
			
 
				+				return fmt.Errorf("failed to read tensor shape: %w", err)
			
 
				 			}
			
 
				 		}
			
 
				 
			
 
				 		kind, err := readGGUF[uint32](llm, rs)
			
 
				 		if err != nil {
			
 
				-			return err
			
 
				+			return fmt.Errorf("failed to read tensor kind: %w", err)
			
 
				 		}
			
 
				 
			
 
				 		offset, err := readGGUF[uint64](llm, rs)
			
 
				 		if err != nil {
			
 
				-			return err
			
 
				+			return fmt.Errorf("failed to read tensor offset: %w", err)
			
 
				 		}
			
 
				 
			
 
				 		tensor := Tensor{
			
@@ -230,24 +236,19 @@ func (llm *gguf) Decode(rs io.ReadSeeker) error {
 
				 		alignment = 32
			
 
				 	}
			
 
				 
			
 
				-	offset, err := rs.Seek(0, io.SeekCurrent)
			
 
				-	if err != nil {
			
 
				-		return err
			
 
				-	}
			
 
				-
			
 
				-	padding := llm.padding(offset, int64(alignment))
			
 
				-	if _, err := rs.Seek(padding, io.SeekCurrent); err != nil {
			
 
				-		return err
			
 
				-	}
			
 
				-
			
 
				 	for _, tensor := range llm.tensors {
			
 
				-		if _, err := rs.Seek(int64(tensor.Size()), io.SeekCurrent); err != nil {
			
 
				-			return err
			
 
				+		offset, err := rs.Seek(0, io.SeekCurrent)
			
 
				+		if err != nil {
			
 
				+			return fmt.Errorf("failed to get current offset: %w", err)
			
 
				 		}
			
 
				 
			
 
				-		padding := llm.padding(int64(tensor.Size()), int64(alignment))
			
 
				+		padding := llm.padding(offset, int64(alignment))
			
 
				 		if _, err := rs.Seek(padding, io.SeekCurrent); err != nil {
			
 
				-			return err
			
 
				+			return fmt.Errorf("failed to seek to init padding: %w", err)
			
 
				+		}
			
 
				+
			
 
				+		if _, err := rs.Seek(int64(tensor.Size()), io.SeekCurrent); err != nil {
			
 
				+			return fmt.Errorf("failed to seek to tensor: %w", err)
			
 
				 		}
			
 
				 	}
			
 
				 
			
@@ -285,22 +286,48 @@ func readGGUFV1String(llm *gguf, r io.Reader) (string, error) {
 
				 	return b.String(), nil
			
 
				 }
			
 
				 
			
 
				+func discardGGUFString(llm *gguf, r io.Reader) error {
			
 
				+	buf := llm.scratch[:8]
			
 
				+	_, err := io.ReadFull(r, buf)
			
 
				+	if err != nil {
			
 
				+		return err
			
 
				+	}
			
 
				+
			
 
				+	size := int(llm.ByteOrder.Uint64(buf))
			
 
				+	for size > 0 {
			
 
				+		n, err := r.Read(llm.scratch[:min(size, cap(llm.scratch))])
			
 
				+		if err != nil {
			
 
				+			return err
			
 
				+		}
			
 
				+		size -= n
			
 
				+	}
			
 
				+	return nil
			
 
				+}
			
 
				+
			
 
				 func readGGUFString(llm *gguf, r io.Reader) (string, error) {
			
 
				 	if llm.Version == 1 {
			
 
				 		return readGGUFV1String(llm, r)
			
 
				 	}
			
 
				 
			
 
				-	var length uint64
			
 
				-	if err := binary.Read(r, llm.ByteOrder, &length); err != nil {
			
 
				+	buf := llm.scratch[:8]
			
 
				+	_, err := io.ReadFull(r, buf)
			
 
				+	if err != nil {
			
 
				 		return "", err
			
 
				 	}
			
 
				 
			
 
				-	var b bytes.Buffer
			
 
				-	if _, err := io.CopyN(&b, r, int64(length)); err != nil {
			
 
				-		return "", err
			
 
				+	length := int(llm.ByteOrder.Uint64(buf))
			
 
				+	if length > len(llm.scratch) {
			
 
				+		buf = make([]byte, length)
			
 
				+	} else {
			
 
				+		buf = llm.scratch[:length]
			
 
				 	}
			
 
				+	clear(buf)
			
 
				 
			
 
				-	return b.String(), nil
			
 
				+	_, err = io.ReadFull(r, buf)
			
 
				+	if err != nil {
			
 
				+		return "", err
			
 
				+	}
			
 
				+	return string(buf), nil
			
 
				 }
			
 
				 
			
 
				 func writeGGUFString(llm *gguf, w io.Writer, s string) error {
			
@@ -316,7 +343,16 @@ func writeGGUFString(llm *gguf, w io.Writer, s string) error {
 
				 	return err
			
 
				 }
			
 
				 
			
 
				-func readGGUFV1Array(llm *gguf, r io.Reader) (a []any, err error) {
			
 
				+type array struct {
			
 
				+	size   int
			
 
				+	values []any
			
 
				+}
			
 
				+
			
 
				+func (a *array) MarshalJSON() ([]byte, error) {
			
 
				+	return json.Marshal(a.values)
			
 
				+}
			
 
				+
			
 
				+func readGGUFV1Array(llm *gguf, r io.Reader) (*array, error) {
			
 
				 	t, err := readGGUF[uint32](llm, r)
			
 
				 	if err != nil {
			
 
				 		return nil, err
			
@@ -327,7 +363,12 @@ func readGGUFV1Array(llm *gguf, r io.Reader) (a []any, err error) {
 
				 		return nil, err
			
 
				 	}
			
 
				 
			
 
				-	for i := 0; uint32(i) < n; i++ {
			
 
				+	a := &array{size: int(n)}
			
 
				+	if llm.canCollectArray(int(n)) {
			
 
				+		a.values = make([]any, 0, int(n))
			
 
				+	}
			
 
				+
			
 
				+	for i := range n {
			
 
				 		var e any
			
 
				 		switch t {
			
 
				 		case ggufTypeUint8:
			
@@ -361,13 +402,15 @@ func readGGUFV1Array(llm *gguf, r io.Reader) (a []any, err error) {
 
				 			return nil, err
			
 
				 		}
			
 
				 
			
 
				-		a = append(a, e)
			
 
				+		if a.values != nil {
			
 
				+			a.values[i] = e
			
 
				+		}
			
 
				 	}
			
 
				 
			
 
				-	return
			
 
				+	return a, nil
			
 
				 }
			
 
				 
			
 
				-func readGGUFArray(llm *gguf, r io.Reader) (a []any, err error) {
			
 
				+func readGGUFArray(llm *gguf, r io.Reader) (*array, error) {
			
 
				 	if llm.Version == 1 {
			
 
				 		return readGGUFV1Array(llm, r)
			
 
				 	}
			
@@ -382,7 +425,12 @@ func readGGUFArray(llm *gguf, r io.Reader) (a []any, err error) {
 
				 		return nil, err
			
 
				 	}
			
 
				 
			
 
				-	for i := 0; uint64(i) < n; i++ {
			
 
				+	a := &array{size: int(n)}
			
 
				+	if llm.canCollectArray(int(n)) {
			
 
				+		a.values = make([]any, int(n))
			
 
				+	}
			
 
				+
			
 
				+	for i := range n {
			
 
				 		var e any
			
 
				 		switch t {
			
 
				 		case ggufTypeUint8:
			
@@ -408,7 +456,11 @@ func readGGUFArray(llm *gguf, r io.Reader) (a []any, err error) {
 
				 		case ggufTypeBool:
			
 
				 			e, err = readGGUF[bool](llm, r)
			
 
				 		case ggufTypeString:
			
 
				-			e, err = readGGUFString(llm, r)
			
 
				+			if a.values != nil {
			
 
				+				e, err = readGGUFString(llm, r)
			
 
				+			} else {
			
 
				+				err = discardGGUFString(llm, r)
			
 
				+			}
			
 
				 		default:
			
 
				 			return nil, fmt.Errorf("invalid array type: %d", t)
			
 
				 		}
			
@@ -416,10 +468,12 @@ func readGGUFArray(llm *gguf, r io.Reader) (a []any, err error) {
 
				 			return nil, err
			
 
				 		}
			
 
				 
			
 
				-		a = append(a, e)
			
 
				+		if a.values != nil {
			
 
				+			a.values[i] = e
			
 
				+		}
			
 
				 	}
			
 
				 
			
 
				-	return
			
 
				+	return a, nil
			
 
				 }
			
 
				 
			
 
				 func writeGGUFArray[S ~[]E, E any](llm *gguf, w io.Writer, t uint32, s S) error {
			
--- a/llm/memory_test.go
+++ b/llm/memory_test.go
@@ -22,13 +22,14 @@ func TestEstimateGPULayers(t *testing.T) {
 
				 	defer f.Close()
			
 
				 	gguf := NewGGUFV3(binary.LittleEndian)
			
 
				 	inputLayerCount := 5
			
 
				+
			
 
				 	tensors := []Tensor{
			
 
				-		{Name: "blk.0.attn.weight", Kind: uint32(0), Offset: uint64(0), Shape: []uint64{1, 1, 1, 1}, WriterTo: &bytes.Reader{}},
			
 
				-		{Name: "blk.1.attn.weight", Kind: uint32(0), Offset: uint64(0), Shape: []uint64{1, 1, 1, 1}, WriterTo: &bytes.Reader{}},
			
 
				-		{Name: "blk.2.attn.weight", Kind: uint32(0), Offset: uint64(0), Shape: []uint64{1, 1, 1, 1}, WriterTo: &bytes.Reader{}},
			
 
				-		{Name: "blk.3.attn.weight", Kind: uint32(0), Offset: uint64(0), Shape: []uint64{1, 1, 1, 1}, WriterTo: &bytes.Reader{}},
			
 
				-		{Name: "blk.4.attn.weight", Kind: uint32(0), Offset: uint64(0), Shape: []uint64{1, 1, 1, 1}, WriterTo: &bytes.Reader{}},
			
 
				-		{Name: "output.weight", Kind: uint32(0), Offset: uint64(0), Shape: []uint64{1, 1, 1, 1}, WriterTo: &bytes.Reader{}},
			
 
				+		{Name: "blk.0.attn.weight", Kind: uint32(0), Offset: uint64(0), Shape: []uint64{1, 1, 1, 1}, WriterTo: bytes.NewReader(make([]byte, 32))},
			
 
				+		{Name: "blk.1.attn.weight", Kind: uint32(0), Offset: uint64(0), Shape: []uint64{1, 1, 1, 1}, WriterTo: bytes.NewReader(make([]byte, 32))},
			
 
				+		{Name: "blk.2.attn.weight", Kind: uint32(0), Offset: uint64(0), Shape: []uint64{1, 1, 1, 1}, WriterTo: bytes.NewReader(make([]byte, 32))},
			
 
				+		{Name: "blk.3.attn.weight", Kind: uint32(0), Offset: uint64(0), Shape: []uint64{1, 1, 1, 1}, WriterTo: bytes.NewReader(make([]byte, 32))},
			
 
				+		{Name: "blk.4.attn.weight", Kind: uint32(0), Offset: uint64(0), Shape: []uint64{1, 1, 1, 1}, WriterTo: bytes.NewReader(make([]byte, 32))},
			
 
				+		{Name: "output.weight", Kind: uint32(0), Offset: uint64(0), Shape: []uint64{1, 1, 1, 1}, WriterTo: bytes.NewReader(make([]byte, 32))},
			
 
				 	}
			
 
				 	assert.Len(t, tensors, inputLayerCount+1)
			
 
				 	err = gguf.Encode(f, KV{
			
@@ -45,8 +46,10 @@ func TestEstimateGPULayers(t *testing.T) {
 
				 	}, tensors)
			
 
				 	require.NoError(t, err)
			
 
				 
			
 
				-	ggml, err := LoadModel(f.Name())
			
 
				-	require.NoError(t, err)
			
 
				+	ggml, err := LoadModel(f.Name(), 0)
			
 
				+	if err != nil {
			
 
				+		t.Fatal(err)
			
 
				+	}
			
 
				 
			
 
				 	// Simple CPU scenario
			
 
				 	gpus := []gpu.GpuInfo{
			
--- a/llm/server.go
+++ b/llm/server.go
@@ -60,7 +60,12 @@ type llmServer struct {
 
				 	sem *semaphore.Weighted
			
 
				 }
			
 
				 
			
 
				-func LoadModel(model string) (*GGML, error) {
			
 
				+// LoadModel will load a model from disk. The model must be in the GGML format.
			
 
				+//
			
 
				+// It collects array values for arrays with a size less than or equal to
			
 
				+// maxArraySize. If maxArraySize is 0, the default value of 1024 is used. If
			
 
				+// the maxArraySize is negative, all arrays are collected.
			
 
				+func LoadModel(model string, maxArraySize int) (*GGML, error) {
			
 
				 	if _, err := os.Stat(model); err != nil {
			
 
				 		return nil, err
			
 
				 	}
			
@@ -71,7 +76,7 @@ func LoadModel(model string) (*GGML, error) {
 
				 	}
			
 
				 	defer f.Close()
			
 
				 
			
 
				-	ggml, _, err := DecodeGGML(f)
			
 
				+	ggml, _, err := DecodeGGML(f, maxArraySize)
			
 
				 	return ggml, err
			
 
				 }
			
 
				 
			
@@ -412,7 +417,7 @@ func projectorMemoryRequirements(filename string) uint64 {
 
				 	}
			
 
				 	defer file.Close()
			
 
				 
			
 
				-	ggml, _, err := DecodeGGML(file)
			
 
				+	ggml, _, err := DecodeGGML(file, 0)
			
 
				 	if err != nil {
			
 
				 		return 0
			
 
				 	}
			
--- a/server/images.go
+++ b/server/images.go
@@ -423,7 +423,7 @@ func CreateModel(ctx context.Context, name model.Name, modelFileDir, quantizatio
 
				 							return err
			
 
				 						}
			
 
				 
			
 
				-						ggml, _, err := llm.DecodeGGML(temp)
			
 
				+						ggml, _, err := llm.DecodeGGML(temp, 0)
			
 
				 						if err != nil {
			
 
				 							return err
			
 
				 						}
			
--- a/server/model.go
+++ b/server/model.go
@@ -63,7 +63,7 @@ func parseFromModel(ctx context.Context, name model.Name, fn func(api.ProgressRe
 
				 			}
			
 
				 			defer blob.Close()
			
 
				 
			
 
				-			ggml, _, err := llm.DecodeGGML(blob)
			
 
				+			ggml, _, err := llm.DecodeGGML(blob, 0)
			
 
				 			if err != nil {
			
 
				 				return nil, err
			
 
				 			}
			
@@ -176,7 +176,7 @@ func parseFromZipFile(_ context.Context, file *os.File, digest string, fn func(a
 
				 	}
			
 
				 	defer bin.Close()
			
 
				 
			
 
				-	ggml, _, err := llm.DecodeGGML(bin)
			
 
				+	ggml, _, err := llm.DecodeGGML(bin, 0)
			
 
				 	if err != nil {
			
 
				 		return nil, err
			
 
				 	}
			
@@ -210,7 +210,7 @@ func parseFromFile(ctx context.Context, file *os.File, digest string, fn func(ap
 
				 
			
 
				 	var offset int64
			
 
				 	for offset < stat.Size() {
			
 
				-		ggml, n, err := llm.DecodeGGML(file)
			
 
				+		ggml, n, err := llm.DecodeGGML(file, 0)
			
 
				 		if errors.Is(err, io.EOF) {
			
 
				 			break
			
 
				 		} else if err != nil {
			
--- a/server/routes.go
+++ b/server/routes.go
@@ -754,7 +754,11 @@ func GetModelInfo(req api.ShowRequest) (*api.ShowResponse, error) {
 
				 }
			
 
				 
			
 
				 func getKVData(digest string, verbose bool) (llm.KV, error) {
			
 
				-	kvData, err := llm.LoadModel(digest)
			
 
				+	maxArraySize := 0
			
 
				+	if verbose {
			
 
				+		maxArraySize = -1
			
 
				+	}
			
 
				+	kvData, err := llm.LoadModel(digest, maxArraySize)
			
 
				 	if err != nil {
			
 
				 		return nil, err
			
 
				 	}
			
@@ -1101,11 +1105,20 @@ func Serve(ln net.Listener) error {
 
				 	schedCtx, schedDone := context.WithCancel(ctx)
			
 
				 	sched := InitScheduler(schedCtx)
			
 
				 	s := &Server{addr: ln.Addr(), sched: sched}
			
 
				-	r := s.GenerateRoutes()
			
 
				+
			
 
				+	http.Handle("/", s.GenerateRoutes())
			
 
				 
			
 
				 	slog.Info(fmt.Sprintf("Listening on %s (version %s)", ln.Addr(), version.Version))
			
 
				 	srvr := &http.Server{
			
 
				-		Handler: r,
			
 
				+		// Use http.DefaultServeMux so we get net/http/pprof for
			
 
				+		// free.
			
 
				+		//
			
 
				+		// TODO(bmizerany): Decide if we want to make this
			
 
				+		// configurable so it is not exposed by default, or allow
			
 
				+		// users to bind it to a different port. This was a quick
			
 
				+		// and easy way to get pprof, but it may not be the best
			
 
				+		// way.
			
 
				+		Handler: nil,
			
 
				 	}
			
 
				 
			
 
				 	// listen for a ctrl+c and stop any loaded llm
			
--- a/server/sched.go
+++ b/server/sched.go
@@ -144,7 +144,7 @@ func (s *Scheduler) processPending(ctx context.Context) {
 
				 					}
			
 
				 
			
 
				 					// Load model for fitting
			
 
				-					ggml, err := llm.LoadModel(pending.model.ModelPath)
			
 
				+					ggml, err := llm.LoadModel(pending.model.ModelPath, 0)
			
 
				 					if err != nil {
			
 
				 						pending.errCh <- err
			
 
				 						break
			
--- a/server/sched_test.go
+++ b/server/sched_test.go
@@ -128,14 +128,14 @@ func newScenario(t *testing.T, ctx context.Context, modelName string, estimatedV
 
				 		"tokenizer.ggml.scores":         []float32{0},
			
 
				 		"tokenizer.ggml.token_type":     []int32{0},
			
 
				 	}, []llm.Tensor{
			
 
				-		{Name: "blk.0.attn.weight", Kind: uint32(0), Offset: uint64(0), Shape: []uint64{1, 1, 1, 1}, WriterTo: &bytes.Reader{}},
			
 
				-		{Name: "output.weight", Kind: uint32(0), Offset: uint64(0), Shape: []uint64{1, 1, 1, 1}, WriterTo: &bytes.Reader{}},
			
 
				+		{Name: "blk.0.attn.weight", Kind: uint32(0), Offset: uint64(0), Shape: []uint64{1, 1, 1, 1}, WriterTo: bytes.NewReader(make([]byte, 32))},
			
 
				+		{Name: "output.weight", Kind: uint32(0), Offset: uint64(0), Shape: []uint64{1, 1, 1, 1}, WriterTo: bytes.NewReader(make([]byte, 32))},
			
 
				 	})
			
 
				 	require.NoError(t, err)
			
 
				 
			
 
				 	fname := f.Name()
			
 
				 	model := &Model{Name: modelName, ModelPath: fname}
			
 
				-	scenario.ggml, err = llm.LoadModel(model.ModelPath)
			
 
				+	scenario.ggml, err = llm.LoadModel(model.ModelPath, 0)
			
 
				 	require.NoError(t, err)
			
 
				 
			
 
				 	scenario.req = &LlmRequest{
			
--- a/util/bufioutil/buffer_seeker.go
+++ b/util/bufioutil/buffer_seeker.go
@@ -0,0 +1,34 @@
 
				+package bufioutil
			
 
				+
			
 
				+import (
			
 
				+	"bufio"
			
 
				+	"io"
			
 
				+)
			
 
				+
			
 
				+type BufferedSeeker struct {
			
 
				+	rs io.ReadSeeker
			
 
				+	br *bufio.Reader
			
 
				+}
			
 
				+
			
 
				+func NewBufferedSeeker(rs io.ReadSeeker, size int) *BufferedSeeker {
			
 
				+	return &BufferedSeeker{
			
 
				+		rs: rs,
			
 
				+		br: bufio.NewReaderSize(rs, size),
			
 
				+	}
			
 
				+}
			
 
				+
			
 
				+func (b *BufferedSeeker) Read(p []byte) (int, error) {
			
 
				+	return b.br.Read(p)
			
 
				+}
			
 
				+
			
 
				+func (b *BufferedSeeker) Seek(offset int64, whence int) (int64, error) {
			
 
				+	if whence == io.SeekCurrent {
			
 
				+		offset -= int64(b.br.Buffered())
			
 
				+	}
			
 
				+	n, err := b.rs.Seek(offset, whence)
			
 
				+	if err != nil {
			
 
				+		return 0, err
			
 
				+	}
			
 
				+	b.br.Reset(b.rs)
			
 
				+	return n, nil
			
 
				+}
			
--- a/util/bufioutil/buffer_seeker_test.go
+++ b/util/bufioutil/buffer_seeker_test.go
@@ -0,0 +1,64 @@
 
				+package bufioutil
			
 
				+
			
 
				+import (
			
 
				+	"bytes"
			
 
				+	"io"
			
 
				+	"strings"
			
 
				+	"testing"
			
 
				+)
			
 
				+
			
 
				+func TestBufferedSeeker(t *testing.T) {
			
 
				+	const alphabet = "abcdefghijklmnopqrstuvwxyz"
			
 
				+
			
 
				+	bs := NewBufferedSeeker(strings.NewReader(alphabet), 0) // minReadBufferSize = 16
			
 
				+
			
 
				+	checkRead := func(buf []byte, expected string) {
			
 
				+		t.Helper()
			
 
				+		_, err := bs.Read(buf)
			
 
				+		if err != nil {
			
 
				+			t.Fatal(err)
			
 
				+		}
			
 
				+		if !bytes.Equal(buf, []byte(expected)) {
			
 
				+			t.Fatalf("expected %s, got %s", expected, buf)
			
 
				+		}
			
 
				+	}
			
 
				+
			
 
				+	// Read the first 5 bytes
			
 
				+	buf := make([]byte, 5)
			
 
				+
			
 
				+	checkRead(buf, "abcde")
			
 
				+
			
 
				+	// Seek back to the beginning
			
 
				+	_, err := bs.Seek(0, io.SeekStart)
			
 
				+	if err != nil {
			
 
				+		t.Fatal(err)
			
 
				+	}
			
 
				+
			
 
				+	// read 'a'
			
 
				+	checkRead(buf[:1], "a")
			
 
				+
			
 
				+	if bs.br.Buffered() == 0 {
			
 
				+		t.Fatalf("totally unexpected sanity check failed")
			
 
				+	}
			
 
				+
			
 
				+	// Seek past 'b'
			
 
				+	_, err = bs.Seek(1, io.SeekCurrent)
			
 
				+	if err != nil {
			
 
				+		t.Fatal(err)
			
 
				+	}
			
 
				+	checkRead(buf, "cdefg")
			
 
				+
			
 
				+	// Seek back to the beginning
			
 
				+	_, err = bs.Seek(0, io.SeekStart)
			
 
				+	if err != nil {
			
 
				+		t.Fatal(err)
			
 
				+	}
			
 
				+	checkRead(buf, "abcde")
			
 
				+
			
 
				+	// Seek to the end
			
 
				+	_, err = bs.Seek(-5, io.SeekEnd)
			
 
				+	if err != nil {
			
 
				+		t.Fatal(err)
			
 
				+	}
			
 
				+	checkRead(buf, "vwxyz")
			
 
				+}