1 năm trước cách đây · 1d8c850f38
--- a/convert/convert.go
+++ b/convert/convert.go
@@ -5,6 +5,7 @@ import (
 
				 	"encoding/binary"
			
 
				 	"encoding/json"
			
 
				 	"fmt"
			
 
				+	"io"
			
 
				 	"log/slog"
			
 
				 	"os"
			
 
				 	"path/filepath"
			
@@ -47,7 +48,7 @@ type ByteOrder interface {
 
				 type ModelArch interface {
			
 
				 	GetTensors() error
			
 
				 	LoadVocab() error
			
 
				-	WriteGGUF() (string, error)
			
 
				+	WriteGGUF(io.WriteSeeker) error
			
 
				 }
			
 
				 
			
 
				 type ModelFormat interface {
			
--- a/convert/gemma.go
+++ b/convert/gemma.go
@@ -94,7 +94,7 @@ func (m *GemmaModel) LoadVocab() error {
 
				 	return nil
			
 
				 }
			
 
				 
			
 
				-func (m *GemmaModel) WriteGGUF() (string, error) {
			
 
				+func (m *GemmaModel) WriteGGUF(ws io.WriteSeeker) error {
			
 
				 	kv := llm.KV{
			
 
				 		"general.architecture":                   "gemma",
			
 
				 		"general.name":                           m.Name,
			
@@ -122,16 +122,5 @@ func (m *GemmaModel) WriteGGUF() (string, error) {
 
				 		"tokenizer.ggml.add_eos_token":    false,
			
 
				 	}
			
 
				 
			
 
				-	f, err := os.CreateTemp("", "ollama-gguf")
			
 
				-	if err != nil {
			
 
				-		return "", err
			
 
				-	}
			
 
				-	defer f.Close()
			
 
				-
			
 
				-	mod := llm.NewGGUFV3(m.Params.ByteOrder)
			
 
				-	if err := mod.Encode(f, kv, m.Tensors); err != nil {
			
 
				-		return "", err
			
 
				-	}
			
 
				-
			
 
				-	return f.Name(), nil
			
 
				+	return llm.NewGGUFV3(m.Params.ByteOrder).Encode(ws, kv, m.Tensors)
			
 
				 }
			
--- a/convert/llama.go
+++ b/convert/llama.go
@@ -132,7 +132,7 @@ func (m *LlamaModel) LoadVocab() error {
 
				 	return nil
			
 
				 }
			
 
				 
			
 
				-func (m *LlamaModel) WriteGGUF() (string, error) {
			
 
				+func (m *LlamaModel) WriteGGUF(ws io.WriteSeeker) error {
			
 
				 	kv := llm.KV{
			
 
				 		"general.architecture":                   "llama",
			
 
				 		"general.name":                           m.Name,
			
@@ -161,16 +161,9 @@ func (m *LlamaModel) WriteGGUF() (string, error) {
 
				 
			
 
				 	f, err := os.CreateTemp("", "ollama-gguf")
			
 
				 	if err != nil {
			
 
				-		return "", err
			
 
				+		return err
			
 
				 	}
			
 
				 	defer f.Close()
			
 
				 
			
 
				-	mod := llm.NewGGUFV3(m.Params.ByteOrder)
			
 
				-	if err := mod.Encode(f, kv, m.Tensors); err != nil {
			
 
				-		return "", err
			
 
				-	}
			
 
				-
			
 
				-	slog.Debug(fmt.Sprintf("gguf file = %s", f.Name()))
			
 
				-
			
 
				-	return f.Name(), nil
			
 
				+	return llm.NewGGUFV3(m.Params.ByteOrder).Encode(f, kv, m.Tensors)
			
 
				 }
			
--- a/convert/mistral.go
+++ b/convert/mistral.go
@@ -132,7 +132,7 @@ func (m *MistralModel) LoadVocab() error {
 
				 	return nil
			
 
				 }
			
 
				 
			
 
				-func (m *MistralModel) WriteGGUF() (string, error) {
			
 
				+func (m *MistralModel) WriteGGUF(ws io.WriteSeeker) error {
			
 
				 	kv := llm.KV{
			
 
				 		"general.architecture":                   "llama",
			
 
				 		"general.name":                           m.Name,
			
@@ -158,16 +158,5 @@ func (m *MistralModel) WriteGGUF() (string, error) {
 
				 		"tokenizer.ggml.unknown_token_id": uint32(0),
			
 
				 	}
			
 
				 
			
 
				-	f, err := os.CreateTemp("", "ollama-gguf")
			
 
				-	if err != nil {
			
 
				-		return "", err
			
 
				-	}
			
 
				-	defer f.Close()
			
 
				-
			
 
				-	mod := llm.NewGGUFV3(m.Params.ByteOrder)
			
 
				-	if err := mod.Encode(f, kv, m.Tensors); err != nil {
			
 
				-		return "", err
			
 
				-	}
			
 
				-
			
 
				-	return f.Name(), nil
			
 
				+	return llm.NewGGUFV3(m.Params.ByteOrder).Encode(ws, kv, m.Tensors)
			
 
				 }
			
--- a/llm/filetype.go
+++ b/llm/filetype.go
@@ -0,0 +1,138 @@
 
				+package llm
			
 
				+
			
 
				+import "fmt"
			
 
				+
			
 
				+type filetype uint32
			
 
				+
			
 
				+const (
			
 
				+	filetypeF32 filetype = iota
			
 
				+	filetypeF16
			
 
				+	filetypeQ4_0
			
 
				+	filetypeQ4_1
			
 
				+	filetypeQ4_1_F16
			
 
				+	filetypeQ8_0 filetype = iota + 2
			
 
				+	filetypeQ5_0
			
 
				+	filetypeQ5_1
			
 
				+	filetypeQ2_K
			
 
				+	filetypeQ3_K_S
			
 
				+	filetypeQ3_K_M
			
 
				+	filetypeQ3_K_L
			
 
				+	filetypeQ4_K_S
			
 
				+	filetypeQ4_K_M
			
 
				+	filetypeQ5_K_S
			
 
				+	filetypeQ5_K_M
			
 
				+	filetypeQ6_K
			
 
				+	filetypeIQ2_XXS
			
 
				+	filetypeIQ2_XS
			
 
				+	filetypeQ2_K_S
			
 
				+	filetypeQ3_K_XS
			
 
				+	filetypeIQ3_XXS
			
 
				+
			
 
				+	filetypeUnknown
			
 
				+)
			
 
				+
			
 
				+func ParseFileType(s string) (filetype, error) {
			
 
				+	switch s {
			
 
				+	case "F32":
			
 
				+		return filetypeF32, nil
			
 
				+	case "F16":
			
 
				+		return filetypeF16, nil
			
 
				+	case "Q4_0":
			
 
				+		return filetypeQ4_0, nil
			
 
				+	case "Q4_1":
			
 
				+		return filetypeQ4_1, nil
			
 
				+	case "Q4_1_F16":
			
 
				+		return filetypeQ4_1_F16, nil
			
 
				+	case "Q8_0":
			
 
				+		return filetypeQ8_0, nil
			
 
				+	case "Q5_0":
			
 
				+		return filetypeQ5_0, nil
			
 
				+	case "Q5_1":
			
 
				+		return filetypeQ5_1, nil
			
 
				+	case "Q2_K":
			
 
				+		return filetypeQ2_K, nil
			
 
				+	case "Q3_K_S":
			
 
				+		return filetypeQ3_K_S, nil
			
 
				+	case "Q3_K_M":
			
 
				+		return filetypeQ3_K_M, nil
			
 
				+	case "Q3_K_L":
			
 
				+		return filetypeQ3_K_L, nil
			
 
				+	case "Q4_K_S":
			
 
				+		return filetypeQ4_K_S, nil
			
 
				+	case "Q4_K_M":
			
 
				+		return filetypeQ4_K_M, nil
			
 
				+	case "Q5_K_S":
			
 
				+		return filetypeQ5_K_S, nil
			
 
				+	case "Q5_K_M":
			
 
				+		return filetypeQ5_K_M, nil
			
 
				+	case "Q6_K":
			
 
				+		return filetypeQ6_K, nil
			
 
				+	case "IQ2_XXS":
			
 
				+		return filetypeIQ2_XXS, nil
			
 
				+	case "IQ2_XS":
			
 
				+		return filetypeIQ2_XS, nil
			
 
				+	case "Q2_K_S":
			
 
				+		return filetypeQ2_K_S, nil
			
 
				+	case "Q3_K_XS":
			
 
				+		return filetypeQ3_K_XS, nil
			
 
				+	case "IQ3_XXS":
			
 
				+		return filetypeIQ3_XXS, nil
			
 
				+	default:
			
 
				+		return filetypeUnknown, fmt.Errorf("unknown filetype: %s", s)
			
 
				+	}
			
 
				+}
			
 
				+
			
 
				+func (t filetype) String() string {
			
 
				+	switch t {
			
 
				+	case filetypeF32:
			
 
				+		return "F32"
			
 
				+	case filetypeF16:
			
 
				+		return "F16"
			
 
				+	case filetypeQ4_0:
			
 
				+		return "Q4_0"
			
 
				+	case filetypeQ4_1:
			
 
				+		return "Q4_1"
			
 
				+	case filetypeQ4_1_F16:
			
 
				+		return "Q4_1_F16"
			
 
				+	case filetypeQ8_0:
			
 
				+		return "Q8_0"
			
 
				+	case filetypeQ5_0:
			
 
				+		return "Q5_0"
			
 
				+	case filetypeQ5_1:
			
 
				+		return "Q5_1"
			
 
				+	case filetypeQ2_K:
			
 
				+		return "Q2_K"
			
 
				+	case filetypeQ3_K_S:
			
 
				+		return "Q3_K_S"
			
 
				+	case filetypeQ3_K_M:
			
 
				+		return "Q3_K_M"
			
 
				+	case filetypeQ3_K_L:
			
 
				+		return "Q3_K_L"
			
 
				+	case filetypeQ4_K_S:
			
 
				+		return "Q4_K_S"
			
 
				+	case filetypeQ4_K_M:
			
 
				+		return "Q4_K_M"
			
 
				+	case filetypeQ5_K_S:
			
 
				+		return "Q5_K_S"
			
 
				+	case filetypeQ5_K_M:
			
 
				+		return "Q5_K_M"
			
 
				+	case filetypeQ6_K:
			
 
				+		return "Q6_K"
			
 
				+	case filetypeIQ2_XXS:
			
 
				+		return "IQ2_XXS"
			
 
				+	case filetypeIQ2_XS:
			
 
				+		return "IQ2_XS"
			
 
				+	case filetypeQ2_K_S:
			
 
				+		return "Q2_K_S"
			
 
				+	case filetypeQ3_K_XS:
			
 
				+		return "Q3_K_XS"
			
 
				+	case filetypeIQ3_XXS:
			
 
				+		return "IQ3_XXS"
			
 
				+	default:
			
 
				+		return "unknown"
			
 
				+	}
			
 
				+}
			
 
				+
			
 
				+func (t filetype) Value() uint32 {
			
 
				+	return uint32(t)
			
 
				+}
			
--- a/llm/ggml.go
+++ b/llm/ggml.go
@@ -13,82 +13,6 @@ type GGML struct {
 
				 	model
			
 
				 }
			
 
				 
			
 
				-const (
			
 
				-	fileTypeF32 uint32 = iota
			
 
				-	fileTypeF16
			
 
				-	fileTypeQ4_0
			
 
				-	fileTypeQ4_1
			
 
				-	fileTypeQ4_1_F16
			
 
				-	fileTypeQ8_0 uint32 = iota + 2
			
 
				-	fileTypeQ5_0
			
 
				-	fileTypeQ5_1
			
 
				-	fileTypeQ2_K
			
 
				-	fileTypeQ3_K_S
			
 
				-	fileTypeQ3_K_M
			
 
				-	fileTypeQ3_K_L
			
 
				-	fileTypeQ4_K_S
			
 
				-	fileTypeQ4_K_M
			
 
				-	fileTypeQ5_K_S
			
 
				-	fileTypeQ5_K_M
			
 
				-	fileTypeQ6_K
			
 
				-	fileTypeIQ2_XXS
			
 
				-	fileTypeIQ2_XS
			
 
				-	fileTypeQ2_K_S
			
 
				-	fileTypeQ3_K_XS
			
 
				-	fileTypeIQ3_XXS
			
 
				-)
			
 
				-
			
 
				-func fileType(fileType uint32) string {
			
 
				-	switch fileType {
			
 
				-	case fileTypeF32:
			
 
				-		return "F32"
			
 
				-	case fileTypeF16:
			
 
				-		return "F16"
			
 
				-	case fileTypeQ4_0:
			
 
				-		return "Q4_0"
			
 
				-	case fileTypeQ4_1:
			
 
				-		return "Q4_1"
			
 
				-	case fileTypeQ4_1_F16:
			
 
				-		return "Q4_1_F16"
			
 
				-	case fileTypeQ8_0:
			
 
				-		return "Q8_0"
			
 
				-	case fileTypeQ5_0:
			
 
				-		return "Q5_0"
			
 
				-	case fileTypeQ5_1:
			
 
				-		return "Q5_1"
			
 
				-	case fileTypeQ2_K:
			
 
				-		return "Q2_K"
			
 
				-	case fileTypeQ3_K_S:
			
 
				-		return "Q3_K_S"
			
 
				-	case fileTypeQ3_K_M:
			
 
				-		return "Q3_K_M"
			
 
				-	case fileTypeQ3_K_L:
			
 
				-		return "Q3_K_L"
			
 
				-	case fileTypeQ4_K_S:
			
 
				-		return "Q4_K_S"
			
 
				-	case fileTypeQ4_K_M:
			
 
				-		return "Q4_K_M"
			
 
				-	case fileTypeQ5_K_S:
			
 
				-		return "Q5_K_S"
			
 
				-	case fileTypeQ5_K_M:
			
 
				-		return "Q5_K_M"
			
 
				-	case fileTypeQ6_K:
			
 
				-		return "Q6_K"
			
 
				-	case fileTypeIQ2_XXS:
			
 
				-		return "IQ2_XXS"
			
 
				-	case fileTypeIQ2_XS:
			
 
				-		return "IQ2_XS"
			
 
				-	case fileTypeQ2_K_S:
			
 
				-		return "Q2_K_S"
			
 
				-	case fileTypeQ3_K_XS:
			
 
				-		return "Q3_K_XS"
			
 
				-	case fileTypeIQ3_XXS:
			
 
				-		return "IQ3_XXS"
			
 
				-	default:
			
 
				-		return "unknown"
			
 
				-	}
			
 
				-}
			
 
				-
			
 
				 type model interface {
			
 
				 	KV() KV
			
 
				 	Tensors() Tensors
			
@@ -123,7 +47,7 @@ func (kv KV) ParameterCount() uint64 {
 
				 
			
 
				 func (kv KV) FileType() string {
			
 
				 	if u64 := kv.u64("general.file_type"); u64 > 0 {
			
 
				-		return fileType(uint32(u64))
			
 
				+		return filetype(uint32(u64)).String()
			
 
				 	}
			
 
				 
			
 
				 	return "unknown"
			
@@ -286,6 +210,23 @@ const (
 
				 
			
 
				 var ErrUnsupportedFormat = errors.New("unsupported model format")
			
 
				 
			
 
				+func DetectGGMLType(b []byte) string {
			
 
				+	switch binary.LittleEndian.Uint32(b[:4]) {
			
 
				+	case FILE_MAGIC_GGML:
			
 
				+		return "ggml"
			
 
				+	case FILE_MAGIC_GGMF:
			
 
				+		return "ggmf"
			
 
				+	case FILE_MAGIC_GGJT:
			
 
				+		return "ggjt"
			
 
				+	case FILE_MAGIC_GGLA:
			
 
				+		return "ggla"
			
 
				+	case FILE_MAGIC_GGUF_LE, FILE_MAGIC_GGUF_BE:
			
 
				+		return "gguf"
			
 
				+	default:
			
 
				+		return ""
			
 
				+	}
			
 
				+}
			
 
				+
			
 
				 func DecodeGGML(rs io.ReadSeeker) (*GGML, int64, error) {
			
 
				 	var magic uint32
			
 
				 	if err := binary.Read(rs, binary.LittleEndian, &magic); err != nil {
			
--- a/llm/llm.go
+++ b/llm/llm.go
@@ -20,7 +20,7 @@ func SystemInfo() string {
 
				 	return C.GoString(C.llama_print_system_info())
			
 
				 }
			
 
				 
			
 
				-func Quantize(infile, outfile, filetype string) error {
			
 
				+func Quantize(infile, outfile string, ftype filetype) error {
			
 
				 	cinfile := C.CString(infile)
			
 
				 	defer C.free(unsafe.Pointer(cinfile))
			
 
				 
			
@@ -29,58 +29,10 @@ func Quantize(infile, outfile, filetype string) error {
 
				 
			
 
				 	params := C.llama_model_quantize_default_params()
			
 
				 	params.nthread = -1
			
 
				+	params.ftype = ftype.Value()
			
 
				 
			
 
				-	switch filetype {
			
 
				-	case "F32":
			
 
				-		params.ftype = fileTypeF32
			
 
				-	case "F16":
			
 
				-		params.ftype = fileTypeF16
			
 
				-	case "Q4_0":
			
 
				-		params.ftype = fileTypeQ4_0
			
 
				-	case "Q4_1":
			
 
				-		params.ftype = fileTypeQ4_1
			
 
				-	case "Q4_1_F16":
			
 
				-		params.ftype = fileTypeQ4_1_F16
			
 
				-	case "Q8_0":
			
 
				-		params.ftype = fileTypeQ8_0
			
 
				-	case "Q5_0":
			
 
				-		params.ftype = fileTypeQ5_0
			
 
				-	case "Q5_1":
			
 
				-		params.ftype = fileTypeQ5_1
			
 
				-	case "Q2_K":
			
 
				-		params.ftype = fileTypeQ2_K
			
 
				-	case "Q3_K_S":
			
 
				-		params.ftype = fileTypeQ3_K_S
			
 
				-	case "Q3_K_M":
			
 
				-		params.ftype = fileTypeQ3_K_M
			
 
				-	case "Q3_K_L":
			
 
				-		params.ftype = fileTypeQ3_K_L
			
 
				-	case "Q4_K_S":
			
 
				-		params.ftype = fileTypeQ4_K_S
			
 
				-	case "Q4_K_M":
			
 
				-		params.ftype = fileTypeQ4_K_M
			
 
				-	case "Q5_K_S":
			
 
				-		params.ftype = fileTypeQ5_K_S
			
 
				-	case "Q5_K_M":
			
 
				-		params.ftype = fileTypeQ5_K_M
			
 
				-	case "Q6_K":
			
 
				-		params.ftype = fileTypeQ6_K
			
 
				-	case "IQ2_XXS":
			
 
				-		params.ftype = fileTypeIQ2_XXS
			
 
				-	case "IQ2_XS":
			
 
				-		params.ftype = fileTypeIQ2_XS
			
 
				-	case "Q2_K_S":
			
 
				-		params.ftype = fileTypeQ2_K_S
			
 
				-	case "Q3_K_XS":
			
 
				-		params.ftype = fileTypeQ3_K_XS
			
 
				-	case "IQ3_XXS":
			
 
				-		params.ftype = fileTypeIQ3_XXS
			
 
				-	default:
			
 
				-		return fmt.Errorf("unknown filetype: %s", filetype)
			
 
				-	}
			
 
				-
			
 
				-	if retval := C.llama_model_quantize(cinfile, coutfile, &params); retval != 0 {
			
 
				-		return fmt.Errorf("llama_model_quantize: %d", retval)
			
 
				+	if rc := C.llama_model_quantize(cinfile, coutfile, &params); rc != 0 {
			
 
				+		return fmt.Errorf("llama_model_quantize: %d", rc)
			
 
				 	}
			
 
				 
			
 
				 	return nil
			
--- a/server/images.go
+++ b/server/images.go
@@ -1,8 +1,8 @@
 
				 package server
			
 
				 
			
 
				 import (
			
 
				-	"archive/zip"
			
 
				 	"bytes"
			
 
				+	"cmp"
			
 
				 	"context"
			
 
				 	"crypto/sha256"
			
 
				 	"encoding/base64"
			
@@ -11,7 +11,6 @@ import (
 
				 	"errors"
			
 
				 	"fmt"
			
 
				 	"io"
			
 
				-	"io/fs"
			
 
				 	"log"
			
 
				 	"log/slog"
			
 
				 	"net/http"
			
@@ -26,12 +25,12 @@ import (
 
				 
			
 
				 	"github.com/ollama/ollama/api"
			
 
				 	"github.com/ollama/ollama/auth"
			
 
				-	"github.com/ollama/ollama/convert"
			
 
				 	"github.com/ollama/ollama/format"
			
 
				 	"github.com/ollama/ollama/llm"
			
 
				 	"github.com/ollama/ollama/parser"
			
 
				 	"github.com/ollama/ollama/types/errtypes"
			
 
				 	"github.com/ollama/ollama/types/model"
			
 
				+	"github.com/ollama/ollama/types/ordered"
			
 
				 	"github.com/ollama/ollama/version"
			
 
				 )
			
 
				 
			
@@ -130,36 +129,6 @@ type ConfigV2 struct {
 
				 	RootFS       RootFS `json:"rootfs"`
			
 
				 }
			
 
				 
			
 
				-func (c *ConfigV2) SetModelFormat(format string) {
			
 
				-	if c.ModelFormat == "" {
			
 
				-		c.ModelFormat = format
			
 
				-	}
			
 
				-}
			
 
				-
			
 
				-func (c *ConfigV2) SetModelFamily(families ...string) {
			
 
				-	for _, family := range families {
			
 
				-		if c.ModelFamily == "" {
			
 
				-			c.ModelFamily = family
			
 
				-		}
			
 
				-
			
 
				-		if !slices.Contains(c.ModelFamilies, family) {
			
 
				-			c.ModelFamilies = append(c.ModelFamilies, family)
			
 
				-		}
			
 
				-	}
			
 
				-}
			
 
				-
			
 
				-func (c *ConfigV2) SetModelType(modelType string) {
			
 
				-	if c.ModelType == "" {
			
 
				-		c.ModelType = modelType
			
 
				-	}
			
 
				-}
			
 
				-
			
 
				-func (c *ConfigV2) SetFileType(fileType string) {
			
 
				-	if c.FileType == "" {
			
 
				-		c.FileType = fileType
			
 
				-	}
			
 
				-}
			
 
				-
			
 
				 type RootFS struct {
			
 
				 	Type    string   `json:"type"`
			
 
				 	DiffIDs []string `json:"diff_ids"`
			
@@ -304,7 +273,7 @@ func GetModel(name string) (*Model, error) {
 
				 	return model, nil
			
 
				 }
			
 
				 
			
 
				-func realpath(mfDir, from string) string {
			
 
				+func realpath(rel, from string) string {
			
 
				 	abspath, err := filepath.Abs(from)
			
 
				 	if err != nil {
			
 
				 		return from
			
@@ -321,22 +290,15 @@ func realpath(mfDir, from string) string {
 
				 		return filepath.Join(home, from[2:])
			
 
				 	}
			
 
				 
			
 
				-	if _, err := os.Stat(filepath.Join(mfDir, from)); err == nil {
			
 
				+	if _, err := os.Stat(filepath.Join(rel, from)); err == nil {
			
 
				 		// this is a file relative to the Modelfile
			
 
				-		return filepath.Join(mfDir, from)
			
 
				+		return filepath.Join(rel, from)
			
 
				 	}
			
 
				 
			
 
				 	return abspath
			
 
				 }
			
 
				 
			
 
				-func CreateModel(ctx context.Context, name, modelFileDir, quantization string, commands []parser.Command, fn func(resp api.ProgressResponse)) error {
			
 
				-	deleteMap := make(map[string]struct{})
			
 
				-	if manifest, _, err := GetManifest(ParseModelPath(name)); err == nil {
			
 
				-		for _, layer := range append(manifest.Layers, manifest.Config) {
			
 
				-			deleteMap[layer.Digest] = struct{}{}
			
 
				-		}
			
 
				-	}
			
 
				-
			
 
				+func CreateModel(ctx context.Context, name, modelFileDir, quantization string, commands []parser.Command, fn func(resp api.ProgressResponse)) (err error) {
			
 
				 	config := ConfigV2{
			
 
				 		OS:           "linux",
			
 
				 		Architecture: "amd64",
			
@@ -345,250 +307,197 @@ func CreateModel(ctx context.Context, name, modelFileDir, quantization string, c
 
				 		},
			
 
				 	}
			
 
				 
			
 
				-	var layers Layers
			
 
				-	messages := []string{}
			
 
				-
			
 
				-	params := make(map[string][]string)
			
 
				-	fromParams := make(map[string]any)
			
 
				+	var messages []*api.Message
			
 
				+	parameters := make(map[string]any)
			
 
				 
			
 
				+	var layers []*Layer
			
 
				 	for _, c := range commands {
			
 
				 		mediatype := fmt.Sprintf("application/vnd.ollama.image.%s", c.Name)
			
 
				 
			
 
				 		switch c.Name {
			
 
				-		case "model":
			
 
				-			if strings.HasPrefix(c.Args, "@") {
			
 
				-				blobPath, err := GetBlobsPath(strings.TrimPrefix(c.Args, "@"))
			
 
				+		case "model", "adapter":
			
 
				+			var layers2 *ordered.Map[*Layer, *llm.GGML]
			
 
				+			if name := model.ParseName(c.Args, ""); name.IsValid() {
			
 
				+				layers2, err = parseFromModel(ctx, name, fn)
			
 
				 				if err != nil {
			
 
				 					return err
			
 
				 				}
			
 
				-
			
 
				-				c.Args = blobPath
			
 
				-			}
			
 
				-
			
 
				-			pathName := realpath(modelFileDir, c.Args)
			
 
				-
			
 
				-			ggufName, err := convertModel(name, pathName, fn)
			
 
				-			if err != nil {
			
 
				-				var pathErr *fs.PathError
			
 
				-				switch {
			
 
				-				case errors.Is(err, zip.ErrFormat):
			
 
				-					// it's not a safetensor archive
			
 
				-				case errors.As(err, &pathErr):
			
 
				-					// it's not a file on disk, could be a model reference
			
 
				-				default:
			
 
				-					return err
			
 
				-				}
			
 
				-			}
			
 
				-
			
 
				-			if ggufName != "" {
			
 
				-				pathName = ggufName
			
 
				-				defer os.RemoveAll(ggufName)
			
 
				-
			
 
				-				if quantization != "" {
			
 
				-					quantization = strings.ToUpper(quantization)
			
 
				-					fn(api.ProgressResponse{Status: fmt.Sprintf("quantizing %s model to %s", "F16", quantization)})
			
 
				-					tempfile, err := os.CreateTemp(filepath.Dir(ggufName), quantization)
			
 
				-					if err != nil {
			
 
				-						return err
			
 
				-					}
			
 
				-					defer os.RemoveAll(tempfile.Name())
			
 
				-
			
 
				-					if err := llm.Quantize(ggufName, tempfile.Name(), quantization); err != nil {
			
 
				-						return err
			
 
				-					}
			
 
				-
			
 
				-					if err := tempfile.Close(); err != nil {
			
 
				-						return err
			
 
				-					}
			
 
				-
			
 
				-					pathName = tempfile.Name()
			
 
				-				}
			
 
				-			}
			
 
				-
			
 
				-			bin, err := os.Open(pathName)
			
 
				-			if err != nil {
			
 
				-				// not a file on disk so must be a model reference
			
 
				-				modelpath := ParseModelPath(c.Args)
			
 
				-				manifest, _, err := GetManifest(modelpath)
			
 
				-				switch {
			
 
				-				case errors.Is(err, os.ErrNotExist):
			
 
				-					fn(api.ProgressResponse{Status: "pulling model"})
			
 
				-					if err := PullModel(ctx, c.Args, &registryOptions{}, fn); err != nil {
			
 
				-						return err
			
 
				-					}
			
 
				-
			
 
				-					manifest, _, err = GetManifest(modelpath)
			
 
				-					if err != nil {
			
 
				-						return err
			
 
				-					}
			
 
				-				case err != nil:
			
 
				+			} else if strings.HasPrefix(c.Args, "@") {
			
 
				+				blobpath, err := GetBlobsPath(strings.TrimPrefix(c.Args, "@"))
			
 
				+				if err != nil {
			
 
				 					return err
			
 
				 				}
			
 
				 
			
 
				-				fn(api.ProgressResponse{Status: "reading model metadata"})
			
 
				-				fromConfigPath, err := GetBlobsPath(manifest.Config.Digest)
			
 
				+				blob, err := os.Open(blobpath)
			
 
				 				if err != nil {
			
 
				 					return err
			
 
				 				}
			
 
				+				defer blob.Close()
			
 
				 
			
 
				-				fromConfigFile, err := os.Open(fromConfigPath)
			
 
				+				layers2, err = parseFromFile(ctx, blob, fn)
			
 
				 				if err != nil {
			
 
				 					return err
			
 
				 				}
			
 
				-				defer fromConfigFile.Close()
			
 
				+			} else if file, err := os.Open(realpath(modelFileDir, c.Args)); err == nil {
			
 
				+				defer file.Close()
			
 
				 
			
 
				-				var fromConfig ConfigV2
			
 
				-				if err := json.NewDecoder(fromConfigFile).Decode(&fromConfig); err != nil {
			
 
				+				layers2, err = parseFromFile(ctx, file, fn)
			
 
				+				if err != nil {
			
 
				 					return err
			
 
				 				}
			
 
				+			} else {
			
 
				+				return fmt.Errorf("invalid model reference: %s", c.Args)
			
 
				+			}
			
 
				 
			
 
				-				// if the model is still not in gguf format, error out
			
 
				-				if fromConfig.ModelFormat != "gguf" {
			
 
				-					return fmt.Errorf("%s is not in gguf format, this base model is not compatible with this version of ollama", c.Args)
			
 
				-				}
			
 
				-
			
 
				-				config.SetModelFormat(fromConfig.ModelFormat)
			
 
				-				config.SetModelFamily(append(fromConfig.ModelFamilies, fromConfig.ModelFamily)...)
			
 
				-				config.SetModelType(fromConfig.ModelType)
			
 
				-				config.SetFileType(fromConfig.FileType)
			
 
				-
			
 
				-				for _, layer := range manifest.Layers {
			
 
				-					deleteMap[layer.Digest] = struct{}{}
			
 
				-					if layer.MediaType == "application/vnd.ollama.image.params" {
			
 
				-						fromParamsPath, err := GetBlobsPath(layer.Digest)
			
 
				-						if err != nil {
			
 
				-							return err
			
 
				-						}
			
 
				-
			
 
				-						fromParamsFile, err := os.Open(fromParamsPath)
			
 
				-						if err != nil {
			
 
				-							return err
			
 
				-						}
			
 
				-						defer fromParamsFile.Close()
			
 
				-
			
 
				-						if err := json.NewDecoder(fromParamsFile).Decode(&fromParams); err != nil {
			
 
				-							return err
			
 
				-						}
			
 
				-					}
			
 
				+			var err2 error
			
 
				+			var tempfiles []*os.File
			
 
				 
			
 
				-					layer, err := NewLayerFromLayer(layer.Digest, layer.MediaType, modelpath.GetShortTagname())
			
 
				+			// TODO(mxyng): replace with rangefunc
			
 
				+			layers2.Items()(func(layer *Layer, ggml *llm.GGML) bool {
			
 
				+				if quantization != "" && ggml != nil && ggml.Name() == "gguf" {
			
 
				+					ftype, err := llm.ParseFileType(quantization)
			
 
				 					if err != nil {
			
 
				-						return err
			
 
				+						err2 = err
			
 
				+						return false
			
 
				 					}
			
 
				 
			
 
				-					layers.Add(layer)
			
 
				-				}
			
 
				+					filetype := ggml.KV().FileType()
			
 
				+					if !slices.Contains([]string{"F16", "F32"}, filetype) {
			
 
				+						err2 = errors.New("quantization is only supported for F16 and F32 models")
			
 
				+						return false
			
 
				+					}
			
 
				 
			
 
				-				deleteMap[manifest.Config.Digest] = struct{}{}
			
 
				-				continue
			
 
				-			}
			
 
				-			defer bin.Close()
			
 
				+					fn(api.ProgressResponse{Status: fmt.Sprintf("quantizing %s model to %s", filetype, quantization)})
			
 
				 
			
 
				-			var offset int64
			
 
				-			for {
			
 
				-				fn(api.ProgressResponse{Status: "creating model layer"})
			
 
				-				if _, err := bin.Seek(offset, io.SeekStart); err != nil {
			
 
				-					return err
			
 
				-				}
			
 
				+					blob, err := GetBlobsPath(layer.Digest)
			
 
				+					if err != nil {
			
 
				+						err2 = err
			
 
				+						return false
			
 
				+					}
			
 
				 
			
 
				-				ggml, size, err := llm.DecodeGGML(bin)
			
 
				-				if errors.Is(err, io.EOF) {
			
 
				-					break
			
 
				-				} else if errors.Is(err, llm.ErrUnsupportedFormat) {
			
 
				-					return fmt.Errorf("model binary specified in FROM field is not a valid gguf format model, %w", err)
			
 
				-				} else if err != nil {
			
 
				-					return err
			
 
				-				}
			
 
				+					temp, err := os.CreateTemp(filepath.Dir(blob), quantization)
			
 
				+					if err != nil {
			
 
				+						err2 = err
			
 
				+						return false
			
 
				+					}
			
 
				+					tempfiles = append(tempfiles, temp)
			
 
				 
			
 
				-				config.SetModelFormat(ggml.Name())
			
 
				-				config.SetModelFamily(ggml.KV().Architecture())
			
 
				-				config.SetModelType(format.HumanNumber(ggml.KV().ParameterCount()))
			
 
				-				config.SetFileType(ggml.KV().FileType())
			
 
				+					if err := llm.Quantize(blob, temp.Name(), ftype); err != nil {
			
 
				+						err2 = err
			
 
				+						return false
			
 
				+					}
			
 
				 
			
 
				-				mediatype := mediatype
			
 
				-				if ggml.KV().Architecture() == "clip" {
			
 
				-					mediatype = "application/vnd.ollama.image.projector"
			
 
				+					layer, err = NewLayer(temp, layer.MediaType)
			
 
				+					if err != nil {
			
 
				+						err2 = err
			
 
				+						return false
			
 
				+					}
			
 
				 				}
			
 
				 
			
 
				-				sr := io.NewSectionReader(bin, offset, size)
			
 
				-				layer, err := NewLayer(sr, mediatype)
			
 
				-				if err != nil {
			
 
				-					return err
			
 
				+				if ggml != nil {
			
 
				+					config.ModelFormat = cmp.Or(config.ModelFormat, ggml.Name())
			
 
				+					config.ModelFamily = cmp.Or(config.ModelFamily, ggml.KV().Architecture())
			
 
				+					config.ModelType = cmp.Or(config.ModelType, format.HumanNumber(ggml.KV().ParameterCount()))
			
 
				+					config.FileType = cmp.Or(config.FileType, ggml.KV().FileType())
			
 
				+					config.ModelFamilies = append(config.ModelFamilies, ggml.KV().Architecture())
			
 
				 				}
			
 
				 
			
 
				-				layers.Add(layer)
			
 
				+				layers = append(layers, layer)
			
 
				+				return true
			
 
				+			})
			
 
				 
			
 
				-				offset += size
			
 
				+			for _, tempfile := range tempfiles {
			
 
				+				defer tempfile.Close()
			
 
				+				defer os.Remove(tempfile.Name())
			
 
				 			}
			
 
				-		case "adapter":
			
 
				-			if strings.HasPrefix(c.Args, "@") {
			
 
				-				blobPath, err := GetBlobsPath(strings.TrimPrefix(c.Args, "@"))
			
 
				-				if err != nil {
			
 
				-					return err
			
 
				-				}
			
 
				 
			
 
				-				c.Args = blobPath
			
 
				+			if err2 != nil {
			
 
				+				return err2
			
 
				 			}
			
 
				-
			
 
				-			fn(api.ProgressResponse{Status: "creating adapter layer"})
			
 
				-			bin, err := os.Open(realpath(modelFileDir, c.Args))
			
 
				+		case "license", "template", "system":
			
 
				+			blob := strings.NewReader(c.Args)
			
 
				+			layer, err := NewLayer(blob, mediatype)
			
 
				 			if err != nil {
			
 
				 				return err
			
 
				 			}
			
 
				-			defer bin.Close()
			
 
				 
			
 
				-			_, size, err := llm.DecodeGGML(bin)
			
 
				-			if err != nil {
			
 
				-				return err
			
 
				+			if c.Name != "license" {
			
 
				+				// replace
			
 
				+				layers = slices.DeleteFunc(layers, func(layer *Layer) bool {
			
 
				+					return layer.MediaType == mediatype
			
 
				+				})
			
 
				 			}
			
 
				 
			
 
				-			sr := io.NewSectionReader(bin, 0, size)
			
 
				-			layer, err := NewLayer(sr, mediatype)
			
 
				+			layers = append(layers, layer)
			
 
				+		case "message":
			
 
				+			role, content, ok := strings.Cut(c.Args, ": ")
			
 
				+			if !ok {
			
 
				+				return fmt.Errorf("invalid message: %s", c.Args)
			
 
				+			}
			
 
				+
			
 
				+			messages = append(messages, &api.Message{Role: role, Content: content})
			
 
				+		default:
			
 
				+			ps, err := api.FormatParams(map[string][]string{c.Name: {c.Args}})
			
 
				 			if err != nil {
			
 
				 				return err
			
 
				 			}
			
 
				 
			
 
				-			layers.Add(layer)
			
 
				-		case "license":
			
 
				-			fn(api.ProgressResponse{Status: "creating license layer"})
			
 
				+			for k, v := range ps {
			
 
				+				if ks, ok := parameters[k].([]string); ok {
			
 
				+					parameters[k] = append(ks, v.([]string)...)
			
 
				+				} else if vs, ok := v.([]string); ok {
			
 
				+					parameters[k] = vs
			
 
				+				} else {
			
 
				+					parameters[k] = v
			
 
				+				}
			
 
				+			}
			
 
				+		}
			
 
				+	}
			
 
				 
			
 
				-			bin := strings.NewReader(c.Args)
			
 
				-			layer, err := NewLayer(bin, mediatype)
			
 
				+	var err2 error
			
 
				+	layers = slices.DeleteFunc(layers, func(layer *Layer) bool {
			
 
				+		switch layer.MediaType {
			
 
				+		case "application/vnd.ollama.image.message":
			
 
				+			// if there are new messages, remove the inherited ones
			
 
				+			if len(messages) > 0 {
			
 
				+				return true
			
 
				+			}
			
 
				+
			
 
				+			return false
			
 
				+		case "application/vnd.ollama.image.params":
			
 
				+			// merge inherited parameters with new ones
			
 
				+			r, err := layer.Open()
			
 
				 			if err != nil {
			
 
				-				return err
			
 
				+				err2 = err
			
 
				+				return false
			
 
				 			}
			
 
				+			defer r.Close()
			
 
				 
			
 
				-			layers.Add(layer)
			
 
				-		case "template", "system":
			
 
				-			fn(api.ProgressResponse{Status: fmt.Sprintf("creating %s layer", c.Name)})
			
 
				+			var ps map[string]any
			
 
				+			if err := json.NewDecoder(r).Decode(&ps); err != nil {
			
 
				+				err2 = err
			
 
				+				return false
			
 
				+			}
			
 
				 
			
 
				-			bin := strings.NewReader(c.Args)
			
 
				-			layer, err := NewLayer(bin, mediatype)
			
 
				-			if err != nil {
			
 
				-				return err
			
 
				+			for k, v := range ps {
			
 
				+				if _, ok := parameters[k]; !ok {
			
 
				+					parameters[k] = v
			
 
				+				}
			
 
				 			}
			
 
				 
			
 
				-			layers.Replace(layer)
			
 
				-		case "message":
			
 
				-			messages = append(messages, c.Args)
			
 
				+			return true
			
 
				 		default:
			
 
				-			params[c.Name] = append(params[c.Name], c.Args)
			
 
				+			return false
			
 
				 		}
			
 
				+	})
			
 
				+
			
 
				+	if err2 != nil {
			
 
				+		return err2
			
 
				 	}
			
 
				 
			
 
				 	if len(messages) > 0 {
			
 
				-		fn(api.ProgressResponse{Status: "creating parameters layer"})
			
 
				-
			
 
				-		msgs := make([]api.Message, 0)
			
 
				-
			
 
				-		for _, m := range messages {
			
 
				-			// todo: handle images
			
 
				-			msg := strings.SplitN(m, ": ", 2)
			
 
				-			msgs = append(msgs, api.Message{Role: msg[0], Content: msg[1]})
			
 
				-		}
			
 
				-
			
 
				 		var b bytes.Buffer
			
 
				-		if err := json.NewEncoder(&b).Encode(msgs); err != nil {
			
 
				+		if err := json.NewEncoder(&b).Encode(messages); err != nil {
			
 
				 			return err
			
 
				 		}
			
 
				 
			
@@ -597,39 +506,25 @@ func CreateModel(ctx context.Context, name, modelFileDir, quantization string, c
 
				 			return err
			
 
				 		}
			
 
				 
			
 
				-		layers.Replace(layer)
			
 
				+		layers = append(layers, layer)
			
 
				 	}
			
 
				 
			
 
				-	if len(params) > 0 {
			
 
				-		fn(api.ProgressResponse{Status: "creating parameters layer"})
			
 
				-
			
 
				-		formattedParams, err := api.FormatParams(params)
			
 
				-		if err != nil {
			
 
				-			return err
			
 
				-		}
			
 
				-
			
 
				-		for k, v := range fromParams {
			
 
				-			if _, ok := formattedParams[k]; !ok {
			
 
				-				formattedParams[k] = v
			
 
				-			}
			
 
				-		}
			
 
				-
			
 
				+	if len(parameters) > 0 {
			
 
				 		var b bytes.Buffer
			
 
				-		if err := json.NewEncoder(&b).Encode(formattedParams); err != nil {
			
 
				+		if err := json.NewEncoder(&b).Encode(parameters); err != nil {
			
 
				 			return err
			
 
				 		}
			
 
				 
			
 
				-		fn(api.ProgressResponse{Status: "creating config layer"})
			
 
				 		layer, err := NewLayer(&b, "application/vnd.ollama.image.params")
			
 
				 		if err != nil {
			
 
				 			return err
			
 
				 		}
			
 
				 
			
 
				-		layers.Replace(layer)
			
 
				+		layers = append(layers, layer)
			
 
				 	}
			
 
				 
			
 
				-	digests := make([]string, len(layers.items))
			
 
				-	for i, layer := range layers.items {
			
 
				+	digests := make([]string, len(layers))
			
 
				+	for i, layer := range layers {
			
 
				 		digests[i] = layer.Digest
			
 
				 	}
			
 
				 
			
@@ -640,36 +535,38 @@ func CreateModel(ctx context.Context, name, modelFileDir, quantization string, c
 
				 		return err
			
 
				 	}
			
 
				 
			
 
				-	configLayer, err := NewLayer(&b, "application/vnd.docker.container.image.v1+json")
			
 
				+	layer, err := NewLayer(&b, "application/vnd.docker.container.image.v1+json")
			
 
				 	if err != nil {
			
 
				 		return err
			
 
				 	}
			
 
				 
			
 
				-	delete(deleteMap, configLayer.Digest)
			
 
				-
			
 
				-	for _, layer := range append(layers.items, configLayer) {
			
 
				-		committed, err := layer.Commit()
			
 
				-		if err != nil {
			
 
				-			return err
			
 
				+	for _, layer := range append(layers, layer) {
			
 
				+		if layer.status != "" {
			
 
				+			fn(api.ProgressResponse{Status: layer.status})
			
 
				 		}
			
 
				+	}
			
 
				 
			
 
				-		status := "writing layer"
			
 
				-		if !committed {
			
 
				-			status = "using already created layer"
			
 
				+	unref := make(map[string]struct{})
			
 
				+	if manifest, _, err := GetManifest(ParseModelPath(name)); err == nil {
			
 
				+		for _, layer := range manifest.Layers {
			
 
				+			if !slices.Contains(digests, layer.Digest) {
			
 
				+				unref[layer.Digest] = struct{}{}
			
 
				+			}
			
 
				 		}
			
 
				 
			
 
				-		fn(api.ProgressResponse{Status: fmt.Sprintf("%s %s", status, layer.Digest)})
			
 
				-
			
 
				-		delete(deleteMap, layer.Digest)
			
 
				+		if manifest.Config.Digest != layer.Digest {
			
 
				+			unref[manifest.Config.Digest] = struct{}{}
			
 
				+		}
			
 
				 	}
			
 
				 
			
 
				 	fn(api.ProgressResponse{Status: "writing manifest"})
			
 
				-	if err := WriteManifest(name, configLayer, layers.items); err != nil {
			
 
				+	if err := WriteManifest(name, layer, layers); err != nil {
			
 
				 		return err
			
 
				 	}
			
 
				 
			
 
				-	if noprune := os.Getenv("OLLAMA_NOPRUNE"); noprune == "" {
			
 
				-		if err := deleteUnusedLayers(nil, deleteMap, false); err != nil {
			
 
				+	if os.Getenv("OLLAMA_NOPRUNE") == "" && len(unref) > 0 {
			
 
				+		fn(api.ProgressResponse{Status: "removing unused layers"})
			
 
				+		if err := deleteUnusedLayers(nil, unref, false); err != nil {
			
 
				 			return err
			
 
				 		}
			
 
				 	}
			
@@ -678,73 +575,6 @@ func CreateModel(ctx context.Context, name, modelFileDir, quantization string, c
 
				 	return nil
			
 
				 }
			
 
				 
			
 
				-func convertModel(name, path string, fn func(resp api.ProgressResponse)) (string, error) {
			
 
				-	r, err := zip.OpenReader(path)
			
 
				-	if err != nil {
			
 
				-		return "", err
			
 
				-	}
			
 
				-	defer r.Close()
			
 
				-
			
 
				-	tempDir, err := os.MkdirTemp("", "ollama-convert")
			
 
				-	if err != nil {
			
 
				-		return "", err
			
 
				-	}
			
 
				-	defer os.RemoveAll(tempDir)
			
 
				-
			
 
				-	fn(api.ProgressResponse{Status: "unpacking model metadata"})
			
 
				-	for _, f := range r.File {
			
 
				-		fpath := filepath.Join(tempDir, f.Name)
			
 
				-		outFile, err := os.OpenFile(fpath, os.O_WRONLY|os.O_CREATE|os.O_TRUNC, f.Mode())
			
 
				-		if err != nil {
			
 
				-			return "", err
			
 
				-		}
			
 
				-
			
 
				-		rc, err := f.Open()
			
 
				-		if err != nil {
			
 
				-			return "", err
			
 
				-		}
			
 
				-
			
 
				-		_, err = io.Copy(outFile, rc)
			
 
				-		if err != nil {
			
 
				-			return "", err
			
 
				-		}
			
 
				-
			
 
				-		outFile.Close()
			
 
				-		rc.Close()
			
 
				-	}
			
 
				-
			
 
				-	mf, err := convert.GetModelFormat(tempDir)
			
 
				-	if err != nil {
			
 
				-		return "", err
			
 
				-	}
			
 
				-
			
 
				-	params, err := mf.GetParams(tempDir)
			
 
				-	if err != nil {
			
 
				-		return "", err
			
 
				-	}
			
 
				-
			
 
				-	mArch, err := mf.GetModelArch(name, tempDir, params)
			
 
				-	if err != nil {
			
 
				-		return "", err
			
 
				-	}
			
 
				-
			
 
				-	fn(api.ProgressResponse{Status: "processing tensors"})
			
 
				-	if err := mArch.GetTensors(); err != nil {
			
 
				-		return "", err
			
 
				-	}
			
 
				-
			
 
				-	if err := mArch.LoadVocab(); err != nil {
			
 
				-		return "", err
			
 
				-	}
			
 
				-
			
 
				-	fn(api.ProgressResponse{Status: "converting model"})
			
 
				-	path, err = mArch.WriteGGUF()
			
 
				-	if err != nil {
			
 
				-		return "", err
			
 
				-	}
			
 
				-
			
 
				-	return path, nil
			
 
				-}
			
 
				 
			
 
				 func CopyModel(src, dst model.Name) error {
			
 
				 	if !dst.IsFullyQualified() {
			
--- a/server/layers.go
+++ b/server/layers.go
@@ -5,39 +5,14 @@ import (
 
				 	"fmt"
			
 
				 	"io"
			
 
				 	"os"
			
 
				-	"strings"
			
 
				-
			
 
				-	"golang.org/x/exp/slices"
			
 
				 )
			
 
				 
			
 
				-type Layers struct {
			
 
				-	items []*Layer
			
 
				-}
			
 
				-
			
 
				-func (ls *Layers) Add(layer *Layer) {
			
 
				-	if layer.Size > 0 {
			
 
				-		ls.items = append(ls.items, layer)
			
 
				-	}
			
 
				-}
			
 
				-
			
 
				-func (ls *Layers) Replace(layer *Layer) {
			
 
				-	if layer.Size > 0 {
			
 
				-		mediatype := layer.MediaType
			
 
				-		layers := slices.DeleteFunc(ls.items, func(l *Layer) bool {
			
 
				-			return l.MediaType == mediatype
			
 
				-		})
			
 
				-
			
 
				-		ls.items = append(layers, layer)
			
 
				-	}
			
 
				-}
			
 
				-
			
 
				 type Layer struct {
			
 
				 	MediaType string `json:"mediaType"`
			
 
				 	Digest    string `json:"digest"`
			
 
				 	Size      int64  `json:"size"`
			
 
				 	From      string `json:"from,omitempty"`
			
 
				-
			
 
				-	tempFileName string
			
 
				+	status    string
			
 
				 }
			
 
				 
			
 
				 func NewLayer(r io.Reader, mediatype string) (*Layer, error) {
			
@@ -46,14 +21,12 @@ func NewLayer(r io.Reader, mediatype string) (*Layer, error) {
 
				 		return nil, err
			
 
				 	}
			
 
				 
			
 
				-	const delimiter = "-"
			
 
				-
			
 
				-	pattern := strings.Join([]string{"sha256", "*-partial"}, delimiter)
			
 
				-	temp, err := os.CreateTemp(blobs, pattern)
			
 
				+	temp, err := os.CreateTemp(blobs, "sha256-")
			
 
				 	if err != nil {
			
 
				 		return nil, err
			
 
				 	}
			
 
				 	defer temp.Close()
			
 
				+	defer os.Remove(temp.Name())
			
 
				 
			
 
				 	sha256sum := sha256.New()
			
 
				 	n, err := io.Copy(io.MultiWriter(temp, sha256sum), r)
			
@@ -61,11 +34,29 @@ func NewLayer(r io.Reader, mediatype string) (*Layer, error) {
 
				 		return nil, err
			
 
				 	}
			
 
				 
			
 
				+	if err := temp.Close(); err != nil {
			
 
				+		return nil, err
			
 
				+	}
			
 
				+
			
 
				+	digest := fmt.Sprintf("sha256:%x", sha256sum.Sum(nil))
			
 
				+	blob, err := GetBlobsPath(digest)
			
 
				+	if err != nil {
			
 
				+		return nil, err
			
 
				+	}
			
 
				+
			
 
				+	status := "using existing layer"
			
 
				+	if _, err := os.Stat(blob); err != nil {
			
 
				+		status = "creating new layer"
			
 
				+		if err := os.Rename(temp.Name(), blob); err != nil {
			
 
				+			return nil, err
			
 
				+		}
			
 
				+	}
			
 
				+
			
 
				 	return &Layer{
			
 
				-		MediaType:    mediatype,
			
 
				-		Digest:       fmt.Sprintf("sha256:%x", sha256sum.Sum(nil)),
			
 
				-		Size:         n,
			
 
				-		tempFileName: temp.Name(),
			
 
				+		MediaType: mediatype,
			
 
				+		Digest:    digest,
			
 
				+		Size:      n,
			
 
				+		status:    fmt.Sprintf("%s %s", status, digest),
			
 
				 	}, nil
			
 
				 }
			
 
				 
			
@@ -85,21 +76,15 @@ func NewLayerFromLayer(digest, mediatype, from string) (*Layer, error) {
 
				 		Digest:    digest,
			
 
				 		Size:      fi.Size(),
			
 
				 		From:      from,
			
 
				+		status:    fmt.Sprintf("using existing layer %s", digest),
			
 
				 	}, nil
			
 
				 }
			
 
				 
			
 
				-func (l *Layer) Commit() (bool, error) {
			
 
				-	// always remove temp
			
 
				-	defer os.Remove(l.tempFileName)
			
 
				-
			
 
				+func (l *Layer) Open() (io.ReadCloser, error) {
			
 
				 	blob, err := GetBlobsPath(l.Digest)
			
 
				 	if err != nil {
			
 
				-		return false, err
			
 
				-	}
			
 
				-
			
 
				-	if _, err := os.Stat(blob); err != nil {
			
 
				-		return true, os.Rename(l.tempFileName, blob)
			
 
				+		return nil, err
			
 
				 	}
			
 
				 
			
 
				-	return false, nil
			
 
				+	return os.Open(blob)
			
 
				 }
			
--- a/server/model.go
+++ b/server/model.go
@@ -0,0 +1,254 @@
 
				+package server
			
 
				+
			
 
				+import (
			
 
				+	"archive/zip"
			
 
				+	"bytes"
			
 
				+	"context"
			
 
				+	"errors"
			
 
				+	"fmt"
			
 
				+	"io"
			
 
				+	"net/http"
			
 
				+	"os"
			
 
				+	"path/filepath"
			
 
				+
			
 
				+	"github.com/ollama/ollama/api"
			
 
				+	"github.com/ollama/ollama/convert"
			
 
				+	"github.com/ollama/ollama/llm"
			
 
				+	"github.com/ollama/ollama/types/model"
			
 
				+	"github.com/ollama/ollama/types/ordered"
			
 
				+)
			
 
				+
			
 
				+func parseFromModel(ctx context.Context, name model.Name, fn func(api.ProgressResponse)) (*ordered.Map[*Layer, *llm.GGML], error) {
			
 
				+	modelpath := ParseModelPath(name.DisplayLongest())
			
 
				+	manifest, _, err := GetManifest(modelpath)
			
 
				+	switch {
			
 
				+	case errors.Is(err, os.ErrNotExist):
			
 
				+		if err := PullModel(ctx, name.DisplayLongest(), &registryOptions{}, fn); err != nil {
			
 
				+			return nil, err
			
 
				+		}
			
 
				+
			
 
				+		return parseFromModel(ctx, name, fn)
			
 
				+	case err != nil:
			
 
				+		return nil, err
			
 
				+	}
			
 
				+
			
 
				+	layers := ordered.NewMap[*Layer, *llm.GGML]()
			
 
				+	for _, layer := range manifest.Layers {
			
 
				+		layer, err := NewLayerFromLayer(layer.Digest, layer.MediaType, modelpath.GetShortTagname())
			
 
				+		if err != nil {
			
 
				+			return nil, err
			
 
				+		}
			
 
				+
			
 
				+		switch layer.MediaType {
			
 
				+		case "application/vnd.ollama.image.model",
			
 
				+			"application/vnd.ollama.image.projector",
			
 
				+			"application/vnd.ollama.image.adapter":
			
 
				+			blobpath, err := GetBlobsPath(layer.Digest)
			
 
				+			if err != nil {
			
 
				+				return nil, err
			
 
				+			}
			
 
				+
			
 
				+			blob, err := os.Open(blobpath)
			
 
				+			if err != nil {
			
 
				+				return nil, err
			
 
				+			}
			
 
				+			defer blob.Close()
			
 
				+
			
 
				+			ggml, _, err := llm.DecodeGGML(blob)
			
 
				+			if err != nil {
			
 
				+				return nil, err
			
 
				+			}
			
 
				+			layers.Add(layer, ggml)
			
 
				+		default:
			
 
				+			layers.Add(layer, nil)
			
 
				+		}
			
 
				+
			
 
				+	}
			
 
				+
			
 
				+	return layers, nil
			
 
				+}
			
 
				+
			
 
				+func parseFromZipFile(_ context.Context, file *os.File, fn func(api.ProgressResponse)) (*ordered.Map[*Layer, *llm.GGML], error) {
			
 
				+	stat, err := file.Stat()
			
 
				+	if err != nil {
			
 
				+		return nil, err
			
 
				+	}
			
 
				+
			
 
				+	r, err := zip.NewReader(file, stat.Size())
			
 
				+	if err != nil {
			
 
				+		return nil, err
			
 
				+	}
			
 
				+
			
 
				+	tempdir, err := os.MkdirTemp(filepath.Dir(file.Name()), "")
			
 
				+	if err != nil {
			
 
				+		return nil, err
			
 
				+	}
			
 
				+	defer os.RemoveAll(tempdir)
			
 
				+
			
 
				+	fn(api.ProgressResponse{Status: "unpacking model metadata"})
			
 
				+	for _, f := range r.File {
			
 
				+		// TODO(mxyng): this should not write out all files to disk
			
 
				+		outfile, err := os.Create(filepath.Join(tempdir, f.Name))
			
 
				+		if err != nil {
			
 
				+			return nil, err
			
 
				+		}
			
 
				+
			
 
				+		infile, err := f.Open()
			
 
				+		if err != nil {
			
 
				+			return nil, err
			
 
				+		}
			
 
				+
			
 
				+		if _, err = io.Copy(outfile, infile); err != nil {
			
 
				+			return nil, err
			
 
				+		}
			
 
				+
			
 
				+		if err := outfile.Close(); err != nil {
			
 
				+			return nil, err
			
 
				+		}
			
 
				+
			
 
				+		if err := infile.Close(); err != nil {
			
 
				+			return nil, err
			
 
				+		}
			
 
				+	}
			
 
				+
			
 
				+	mf, err := convert.GetModelFormat(tempdir)
			
 
				+	if err != nil {
			
 
				+		return nil, err
			
 
				+	}
			
 
				+
			
 
				+	params, err := mf.GetParams(tempdir)
			
 
				+	if err != nil {
			
 
				+		return nil, err
			
 
				+	}
			
 
				+
			
 
				+	mArch, err := mf.GetModelArch("", tempdir, params)
			
 
				+	if err != nil {
			
 
				+		return nil, err
			
 
				+	}
			
 
				+
			
 
				+	fn(api.ProgressResponse{Status: "processing tensors"})
			
 
				+	if err := mArch.GetTensors(); err != nil {
			
 
				+		return nil, err
			
 
				+	}
			
 
				+
			
 
				+	if err := mArch.LoadVocab(); err != nil {
			
 
				+		return nil, err
			
 
				+	}
			
 
				+
			
 
				+	fn(api.ProgressResponse{Status: "converting model"})
			
 
				+
			
 
				+	// TODO(mxyng): this should write directly into a layer
			
 
				+	// e.g. NewLayer(arch.Reader(), "application/vnd.ollama.image.model")
			
 
				+	temp, err := os.CreateTemp(tempdir, "fp16")
			
 
				+	if err != nil {
			
 
				+		return nil, err
			
 
				+	}
			
 
				+	defer temp.Close()
			
 
				+	defer os.Remove(temp.Name())
			
 
				+
			
 
				+	if err = mArch.WriteGGUF(temp); err != nil {
			
 
				+		return nil, err
			
 
				+	}
			
 
				+
			
 
				+	if _, err := temp.Seek(0, io.SeekStart); err != nil {
			
 
				+		return nil, err
			
 
				+	}
			
 
				+
			
 
				+	layer, err := NewLayer(temp, "application/vnd.ollama.image.model")
			
 
				+	if err != nil {
			
 
				+		return nil, fmt.Errorf("aaa: %w", err)
			
 
				+	}
			
 
				+
			
 
				+	blobpath, err := GetBlobsPath(layer.Digest)
			
 
				+	if err != nil {
			
 
				+		return nil, err
			
 
				+	}
			
 
				+
			
 
				+	bin, err := os.Open(blobpath)
			
 
				+	if err != nil {
			
 
				+		return nil, err
			
 
				+	}
			
 
				+	defer bin.Close()
			
 
				+
			
 
				+	ggml, _, err := llm.DecodeGGML(bin)
			
 
				+	if err != nil {
			
 
				+		return nil, err
			
 
				+	}
			
 
				+
			
 
				+	layer, err = NewLayerFromLayer(layer.Digest, layer.MediaType, "")
			
 
				+	if err != nil {
			
 
				+		return nil, err
			
 
				+	}
			
 
				+
			
 
				+	layers := ordered.NewMap[*Layer, *llm.GGML]()
			
 
				+	layers.Add(layer, ggml)
			
 
				+	return layers, nil
			
 
				+}
			
 
				+
			
 
				+func parseFromFile(ctx context.Context, file *os.File, fn func(api.ProgressResponse)) (*ordered.Map[*Layer, *llm.GGML], error) {
			
 
				+	sr := io.NewSectionReader(file, 0, 512)
			
 
				+	contentType, err := detectContentType(sr)
			
 
				+	if err != nil {
			
 
				+		return nil, err
			
 
				+	}
			
 
				+
			
 
				+	switch contentType {
			
 
				+	case "gguf", "ggla":
			
 
				+		// noop
			
 
				+	case "application/zip":
			
 
				+		return parseFromZipFile(ctx, file, fn)
			
 
				+	default:
			
 
				+		return nil, fmt.Errorf("unsupported content type: %s", contentType)
			
 
				+	}
			
 
				+
			
 
				+	layers := ordered.NewMap[*Layer, *llm.GGML]()
			
 
				+
			
 
				+	stat, err := file.Stat()
			
 
				+	if err != nil {
			
 
				+		return nil, err
			
 
				+	}
			
 
				+
			
 
				+	var offset int64
			
 
				+	for offset < stat.Size() {
			
 
				+		ggml, n, err := llm.DecodeGGML(file)
			
 
				+		if errors.Is(err, io.EOF) {
			
 
				+			break
			
 
				+		} else if err != nil {
			
 
				+			return nil, err
			
 
				+		}
			
 
				+
			
 
				+		mediatype := "application/vnd.ollama.image.model"
			
 
				+		if ggml.Name() == "ggla" {
			
 
				+			mediatype = "application/vnd.ollama.image.adapter"
			
 
				+		} else if ggml.KV().Architecture() == "clip" {
			
 
				+			mediatype = "application/vnd.ollama.image.projector"
			
 
				+		}
			
 
				+
			
 
				+		layer, err := NewLayer(io.NewSectionReader(file, offset, n), mediatype)
			
 
				+		if err != nil {
			
 
				+			return nil, err
			
 
				+		}
			
 
				+
			
 
				+		layers.Add(layer, ggml)
			
 
				+		offset = n
			
 
				+	}
			
 
				+
			
 
				+	return layers, nil
			
 
				+}
			
 
				+
			
 
				+func detectContentType(r io.Reader) (string, error) {
			
 
				+	var b bytes.Buffer
			
 
				+	if _, err := io.Copy(&b, r); err != nil {
			
 
				+		return "", err
			
 
				+	}
			
 
				+
			
 
				+	if contentType := llm.DetectGGMLType(b.Bytes()); contentType != "" {
			
 
				+		return contentType, nil
			
 
				+	}
			
 
				+
			
 
				+	if contentType := http.DetectContentType(b.Bytes()); contentType != "application/octet-stream" {
			
 
				+		return contentType, nil
			
 
				+	}
			
 
				+
			
 
				+	return "unknown", nil
			
 
				+}
			
--- a/server/routes.go
+++ b/server/routes.go
@@ -580,7 +580,7 @@ func (s *Server) CreateModelHandler(c *gin.Context) {
 
				 		ctx, cancel := context.WithCancel(c.Request.Context())
			
 
				 		defer cancel()
			
 
				 
			
 
				-		if err := CreateModel(ctx, model, filepath.Dir(req.Path), req.Quantization, commands, fn); err != nil {
			
 
				+		if err := CreateModel(ctx, model, filepath.Dir(req.Path), strings.ToUpper(req.Quantization), commands, fn); err != nil {
			
 
				 			ch <- gin.H{"error": err.Error()}
			
 
				 		}
			
 
				 	}()
			
@@ -872,11 +872,6 @@ func (s *Server) CreateBlobHandler(c *gin.Context) {
 
				 		return
			
 
				 	}
			
 
				 
			
 
				-	if _, err := layer.Commit(); err != nil {
			
 
				-		c.AbortWithStatusJSON(http.StatusInternalServerError, gin.H{"error": err.Error()})
			
 
				-		return
			
 
				-	}
			
 
				-
			
 
				 	c.Status(http.StatusCreated)
			
 
				 }
			
 
				 
			
--- a/types/ordered/map.go
+++ b/types/ordered/map.go
@@ -0,0 +1,32 @@
 
				+package ordered
			
 
				+
			
 
				+type Map[K comparable, V any] struct {
			
 
				+	s []K
			
 
				+	m map[K]V
			
 
				+}
			
 
				+
			
 
				+func NewMap[K comparable, V any]() *Map[K, V] {
			
 
				+	return &Map[K, V]{
			
 
				+		s: make([]K, 0),
			
 
				+		m: make(map[K]V),
			
 
				+	}
			
 
				+}
			
 
				+
			
 
				+type iter_Seq2[K, V any] func(func(K, V) bool)
			
 
				+
			
 
				+func (m *Map[K, V]) Items() iter_Seq2[K, V] {
			
 
				+	return func(yield func(K, V) bool) {
			
 
				+		for _, k := range m.s {
			
 
				+			if !yield(k, m.m[k]) {
			
 
				+				return
			
 
				+			}
			
 
				+		}
			
 
				+	}
			
 
				+}
			
 
				+
			
 
				+func (m *Map[K, V]) Add(k K, v V) {
			
 
				+	if _, ok := m.m[k]; !ok {
			
 
				+		m.s = append(m.s, k)
			
 
				+		m.m[k] = v
			
 
				+	}
			
 
				+}