vor 10 Monaten · 3546bbd08c
--- a/convert/convert.go
+++ b/convert/convert.go
@@ -7,6 +7,7 @@ import (
 
				 	"io"
			
 
				 	"io/fs"
			
 
				 	"log/slog"
			
 
				+	"strings"
			
 
				 
			
 
				 	"github.com/ollama/ollama/llm"
			
 
				 )
			
@@ -58,11 +59,13 @@ type Converter interface {
 
				 	KV(*Tokenizer) llm.KV
			
 
				 	// Tensors maps input tensors to LLM tensors. Model specific modifications can be done here.
			
 
				 	Tensors([]Tensor) []llm.Tensor
			
 
				+	// Replacements returns a list of string pairs to replace in tensor names.
			
 
				+	// See [strings.Replacer](https://pkg.go.dev/strings#Replacer) for details
			
 
				+	Replacements() []string
			
 
				 
			
 
				-	// tensorName returns the LLM tensor name for a specific input name
			
 
				-	tensorName(string) string
			
 
				 	// specialTokenTypes returns any special token types the model uses
			
 
				 	specialTokenTypes() []string
			
 
				+	// writeFile writes the model to the provided io.WriteSeeker
			
 
				 	writeFile(io.WriteSeeker, llm.KV, []llm.Tensor) error
			
 
				 }
			
 
				 
			
@@ -97,6 +100,8 @@ func Convert(fsys fs.FS, ws io.WriteSeeker) error {
 
				 		conv = &mixtral{}
			
 
				 	case "GemmaForCausalLM":
			
 
				 		conv = &gemma{}
			
 
				+	case "Gemma2ForCausalLM":
			
 
				+		conv = &gemma2{}
			
 
				 	case "Phi3ForCausalLM":
			
 
				 		conv = &phi3{}
			
 
				 	case "BertModel":
			
@@ -131,7 +136,7 @@ func Convert(fsys fs.FS, ws io.WriteSeeker) error {
 
				 		slog.Debug("vocabulary", "size", len(t.Vocabulary.Tokens))
			
 
				 	}
			
 
				 
			
 
				-	ts, err := parseTensors(fsys)
			
 
				+	ts, err := parseTensors(fsys, strings.NewReplacer(conv.Replacements()...))
			
 
				 	if err != nil {
			
 
				 		return err
			
 
				 	}
			
--- a/convert/convert_bert.go
+++ b/convert/convert_bert.go
@@ -144,9 +144,8 @@ func (p *bert) Tensors(ts []Tensor) []llm.Tensor {
 
				 			continue
			
 
				 		}
			
 
				 
			
 
				-		name := p.tensorName(t.Name())
			
 
				 		out = append(out, llm.Tensor{
			
 
				-			Name:     name,
			
 
				+			Name:     t.Name(),
			
 
				 			Kind:     t.Kind(),
			
 
				 			Shape:    t.Shape(),
			
 
				 			WriterTo: t,
			
@@ -156,8 +155,8 @@ func (p *bert) Tensors(ts []Tensor) []llm.Tensor {
 
				 	return out
			
 
				 }
			
 
				 
			
 
				-func (bert) tensorName(n string) string {
			
 
				-	return strings.NewReplacer(
			
 
				+func (bert) Replacements() []string {
			
 
				+	return []string{
			
 
				 		"encoder.layer", "blk",
			
 
				 		"encoder.layers", "blk",
			
 
				 		"embeddings.word_embeddings", "token_embd",
			
@@ -172,5 +171,5 @@ func (bert) tensorName(n string) string {
 
				 		"intermediate.dense", "ffn_up",
			
 
				 		"output.dense", "ffn_down",
			
 
				 		"output.LayerNorm", "layer_output_norm",
			
 
				-	).Replace(n)
			
 
				+	}
			
 
				 }
			
--- a/convert/convert_gemma.go
+++ b/convert/convert_gemma.go
@@ -44,15 +44,14 @@ func (p *gemma) KV(t *Tokenizer) llm.KV {
 
				 }
			
 
				 
			
 
				 func (p *gemma) Tensors(ts []Tensor) []llm.Tensor {
			
 
				-	var out []llm.Tensor
			
 
				+	out := make([]llm.Tensor, 0, len(ts))
			
 
				 	for _, t := range ts {
			
 
				-		name := p.tensorName(t.Name())
			
 
				-		if strings.HasSuffix(name, "_norm.weight") {
			
 
				+		if strings.HasSuffix(t.Name(), "_norm.weight") {
			
 
				 			t.SetRepacker(p.addOne)
			
 
				 		}
			
 
				 
			
 
				 		out = append(out, llm.Tensor{
			
 
				-			Name:     name,
			
 
				+			Name:     t.Name(),
			
 
				 			Kind:     t.Kind(),
			
 
				 			Shape:    t.Shape(),
			
 
				 			WriterTo: t,
			
@@ -62,8 +61,8 @@ func (p *gemma) Tensors(ts []Tensor) []llm.Tensor {
 
				 	return out
			
 
				 }
			
 
				 
			
 
				-func (p *gemma) tensorName(n string) string {
			
 
				-	return strings.NewReplacer(
			
 
				+func (p *gemma) Replacements() []string {
			
 
				+	return []string{
			
 
				 		"model.embed_tokens", "token_embd",
			
 
				 		"model.norm", "output_norm",
			
 
				 		"model.layers", "blk",
			
@@ -76,8 +75,7 @@ func (p *gemma) tensorName(n string) string {
 
				 		"mlp.down_proj", "ffn_down",
			
 
				 		"mlp.up_proj", "ffn_up",
			
 
				 		"post_attention_layernorm", "ffn_norm",
			
 
				-		"block_sparse_moe.gate", "ffn_inp",
			
 
				-	).Replace(n)
			
 
				+	}
			
 
				 }
			
 
				 
			
 
				 func (*gemma) addOne(_ string, data []float32, shape []uint64) ([]float32, error) {
			
--- a/convert/convert_gemma2.go
+++ b/convert/convert_gemma2.go
@@ -0,0 +1,44 @@
 
				+package convert
			
 
				+
			
 
				+import (
			
 
				+	"github.com/ollama/ollama/llm"
			
 
				+)
			
 
				+
			
 
				+type gemma2 struct {
			
 
				+	gemma
			
 
				+	SlidingWindow         uint32  `json:"sliding_window"`
			
 
				+	AttentionLogitSoftcap float32 `json:"attn_logit_softcapping"`
			
 
				+	FinalLogitSoftcap     float32 `json:"final_logit_softcapping"`
			
 
				+}
			
 
				+
			
 
				+func (p *gemma2) KV(t *Tokenizer) llm.KV {
			
 
				+	kv := p.Parameters.KV(t)
			
 
				+	kv["general.architecture"] = "gemma2"
			
 
				+	kv["general.name"] = "gemma2"
			
 
				+	kv["gemma2.context_length"] = p.MaxPositionEmbeddings
			
 
				+	kv["gemma2.embedding_length"] = p.HiddenSize
			
 
				+	kv["gemma2.block_count"] = p.HiddenLayers
			
 
				+	kv["gemma2.feed_forward_length"] = p.IntermediateSize
			
 
				+	kv["gemma2.attention.head_count"] = p.NumAttentionHeads
			
 
				+	kv["gemma2.attention.head_count_kv"] = p.NumKeyValueHeads
			
 
				+	kv["gemma2.attention.layer_norm_rms_epsilon"] = p.RMSNormEPS
			
 
				+	kv["gemma2.attention.key_length"] = p.HeadDim
			
 
				+	kv["gemma2.attention.value_length"] = p.HeadDim
			
 
				+	kv["gemma2.attention.sliding_window"] = p.SlidingWindow
			
 
				+	kv["gemma2.attn_logit_softcapping"] = p.AttentionLogitSoftcap
			
 
				+	kv["gemma2.final_logit_softcapping"] = p.FinalLogitSoftcap
			
 
				+	kv["tokenizer.ggml.eot_token_id"] = uint32(107)
			
 
				+	kv["tokenizer.ggml.middle_token_id"] = uint32(68)
			
 
				+	kv["tokenizer.ggml.prefix_token_id"] = uint32(67)
			
 
				+	kv["tokenizer.ggml.suffix_token_id"] = uint32(69)
			
 
				+	return kv
			
 
				+}
			
 
				+
			
 
				+func (p *gemma2) Replacements() []string {
			
 
				+	return append(
			
 
				+		p.gemma.Replacements(),
			
 
				+		"post_attention_layernorm", "post_attention_norm",
			
 
				+		"pre_feedforward_layernorm", "ffn_norm",
			
 
				+		"post_feedforward_layernorm", "post_ffw_norm",
			
 
				+	)
			
 
				+}
			
--- a/convert/convert_llama.go
+++ b/convert/convert_llama.go
@@ -96,14 +96,13 @@ func (p *llama) KV(t *Tokenizer) llm.KV {
 
				 func (p *llama) Tensors(ts []Tensor) []llm.Tensor {
			
 
				 	var out []llm.Tensor
			
 
				 	for _, t := range ts {
			
 
				-		name := p.tensorName(t.Name())
			
 
				-		if strings.HasSuffix(name, "attn_q.weight") ||
			
 
				-			strings.HasSuffix(name, "attn_k.weight") {
			
 
				+		if strings.HasSuffix(t.Name(), "attn_q.weight") ||
			
 
				+			strings.HasSuffix(t.Name(), "attn_k.weight") {
			
 
				 			t.SetRepacker(p.repack)
			
 
				 		}
			
 
				 
			
 
				 		out = append(out, llm.Tensor{
			
 
				-			Name:     name,
			
 
				+			Name:     t.Name(),
			
 
				 			Kind:     t.Kind(),
			
 
				 			Shape:    t.Shape(),
			
 
				 			WriterTo: t,
			
@@ -113,8 +112,8 @@ func (p *llama) Tensors(ts []Tensor) []llm.Tensor {
 
				 	return out
			
 
				 }
			
 
				 
			
 
				-func (p *llama) tensorName(n string) string {
			
 
				-	return strings.NewReplacer(
			
 
				+func (p *llama) Replacements() []string {
			
 
				+	return []string{
			
 
				 		"lm_head", "output",
			
 
				 		"model.embed_tokens", "token_embd",
			
 
				 		"model.norm", "output_norm",
			
@@ -128,9 +127,7 @@ func (p *llama) tensorName(n string) string {
 
				 		"mlp.down_proj", "ffn_down",
			
 
				 		"mlp.up_proj", "ffn_up",
			
 
				 		"post_attention_layernorm", "ffn_norm",
			
 
				-		// mixtral
			
 
				-		"block_sparse_moe.gate", "ffn_gate_inp",
			
 
				-	).Replace(n)
			
 
				+	}
			
 
				 }
			
 
				 
			
 
				 func (p *llama) repack(name string, data []float32, shape []uint64) ([]float32, error) {
			
@@ -140,9 +137,9 @@ func (p *llama) repack(name string, data []float32, shape []uint64) ([]float32,
 
				 	}
			
 
				 
			
 
				 	var heads uint32
			
 
				-	if strings.HasSuffix(name, "q_proj.weight") {
			
 
				+	if strings.HasSuffix(name, "attn_q.weight") {
			
 
				 		heads = p.NumAttentionHeads
			
 
				-	} else if strings.HasSuffix(name, "k_proj.weight") {
			
 
				+	} else if strings.HasSuffix(name, "attn_k.weight") {
			
 
				 		heads = cmp.Or(p.NumKeyValueHeads, p.NumAttentionHeads)
			
 
				 	} else {
			
 
				 		return nil, fmt.Errorf("unknown tensor for repack: %s", name)
			
--- a/convert/convert_mixtral.go
+++ b/convert/convert_mixtral.go
@@ -15,8 +15,6 @@ type mixtral struct {
 
				 	NumExpertsPerToken uint32 `json:"num_experts_per_tok"`
			
 
				 }
			
 
				 
			
 
				-var _ Converter = (*mixtral)(nil)
			
 
				-
			
 
				 func (p *mixtral) KV(t *Tokenizer) llm.KV {
			
 
				 	kv := p.llama.KV(t)
			
 
				 
			
@@ -72,6 +70,13 @@ func (p *mixtral) Tensors(ts []Tensor) []llm.Tensor {
 
				 	return append(out, p.llama.Tensors(ts)...)
			
 
				 }
			
 
				 
			
 
				+func (p *mixtral) Replacements() []string {
			
 
				+	return append(
			
 
				+		p.llama.Replacements(),
			
 
				+		"block_sparse_moe.gate", "ffn_gate_inp",
			
 
				+	)
			
 
				+}
			
 
				+
			
 
				 type experts []Tensor
			
 
				 
			
 
				 func (e experts) WriteTo(w io.Writer) (int64, error) {
			
--- a/convert/convert_phi3.go
+++ b/convert/convert_phi3.go
@@ -74,8 +74,7 @@ func (p *phi3) Tensors(ts []Tensor) []llm.Tensor {
 
				 
			
 
				 	out := make([]llm.Tensor, 0, len(ts)+2)
			
 
				 	for _, t := range ts {
			
 
				-		name := p.tensorName(t.Name())
			
 
				-		if strings.HasPrefix(name, "blk.0.") {
			
 
				+		if strings.HasPrefix(t.Name(), "blk.0.") {
			
 
				 			addRopeFactors.Do(func() {
			
 
				 				out = append(out, llm.Tensor{
			
 
				 					Name:     "rope_factors_long.weight",
			
@@ -92,7 +91,7 @@ func (p *phi3) Tensors(ts []Tensor) []llm.Tensor {
 
				 		}
			
 
				 
			
 
				 		out = append(out, llm.Tensor{
			
 
				-			Name:     name,
			
 
				+			Name:     t.Name(),
			
 
				 			Kind:     t.Kind(),
			
 
				 			Shape:    t.Shape(),
			
 
				 			WriterTo: t,
			
@@ -102,8 +101,8 @@ func (p *phi3) Tensors(ts []Tensor) []llm.Tensor {
 
				 	return out
			
 
				 }
			
 
				 
			
 
				-func (p *phi3) tensorName(n string) string {
			
 
				-	return strings.NewReplacer(
			
 
				+func (p *phi3) Replacements() []string {
			
 
				+	return []string{
			
 
				 		"lm_head", "output",
			
 
				 		"model.embed_tokens", "token_embd",
			
 
				 		"model.norm", "output_norm",
			
@@ -114,7 +113,7 @@ func (p *phi3) tensorName(n string) string {
 
				 		"mlp.down_proj", "ffn_down",
			
 
				 		"mlp.gate_up_proj", "ffn_up",
			
 
				 		"post_attention_layernorm", "ffn_norm",
			
 
				-	).Replace(n)
			
 
				+	}
			
 
				 }
			
 
				 
			
 
				 type ropeFactor []float32
			
--- a/convert/convert_test.go
+++ b/convert/convert_test.go
@@ -68,6 +68,7 @@ func TestConvertFull(t *testing.T) {
 
				 		// microsoft/Phi-3-mini-128-instruct@d548c233192db00165d842bf8edff054bb3212f8
			
 
				 		"Phi-3-mini-128k-instruct",
			
 
				 		"all-MiniLM-L6-v2",
			
 
				+		"gemma-2-9b-it",
			
 
				 	}
			
 
				 
			
 
				 	for i := range cases {
			
--- a/convert/reader.go
+++ b/convert/reader.go
@@ -35,9 +35,9 @@ const (
 
				 )
			
 
				 
			
 
				 func (t tensorBase) Kind() uint32 {
			
 
				-	if strings.HasSuffix(t.name, ".block_sparse_moe.gate.weight") {
			
 
				-		return 0
			
 
				-	} else if t.name == "embeddings.token_type_embeddings.weight" {
			
 
				+	if strings.HasSuffix(t.name, ".ffn_gate_inp.weight") ||
			
 
				+		t.name == "token_types.weight" {
			
 
				+		// these tensors are always F32
			
 
				 		return 0
			
 
				 	}
			
 
				 
			
@@ -57,10 +57,10 @@ func (t *tensorBase) SetRepacker(fn repacker) {
 
				 
			
 
				 type repacker func(string, []float32, []uint64) ([]float32, error)
			
 
				 
			
 
				-func parseTensors(fsys fs.FS) ([]Tensor, error) {
			
 
				+func parseTensors(fsys fs.FS, replacer *strings.Replacer) ([]Tensor, error) {
			
 
				 	patterns := []struct {
			
 
				 		Pattern string
			
 
				-		Func    func(fs.FS, ...string) ([]Tensor, error)
			
 
				+		Func    func(fs.FS, *strings.Replacer, ...string) ([]Tensor, error)
			
 
				 	}{
			
 
				 		{"model-*-of-*.safetensors", parseSafetensors},
			
 
				 		{"model.safetensors", parseSafetensors},
			
@@ -76,7 +76,7 @@ func parseTensors(fsys fs.FS) ([]Tensor, error) {
 
				 		}
			
 
				 
			
 
				 		if len(matches) > 0 {
			
 
				-			return pattern.Func(fsys, matches...)
			
 
				+			return pattern.Func(fsys, replacer, matches...)
			
 
				 		}
			
 
				 	}
			
 
				 
			
--- a/convert/reader_safetensors.go
+++ b/convert/reader_safetensors.go
@@ -8,6 +8,7 @@ import (
 
				 	"io"
			
 
				 	"io/fs"
			
 
				 	"slices"
			
 
				+	"strings"
			
 
				 
			
 
				 	"github.com/d4l3k/go-bfloat16"
			
 
				 	"github.com/x448/float16"
			
@@ -20,7 +21,7 @@ type safetensorMetadata struct {
 
				 	Offsets []int64  `json:"data_offsets"`
			
 
				 }
			
 
				 
			
 
				-func parseSafetensors(fsys fs.FS, ps ...string) ([]Tensor, error) {
			
 
				+func parseSafetensors(fsys fs.FS, replacer *strings.Replacer, ps ...string) ([]Tensor, error) {
			
 
				 	var ts []Tensor
			
 
				 	for _, p := range ps {
			
 
				 		f, err := fsys.Open(p)
			
@@ -56,7 +57,7 @@ func parseSafetensors(fsys fs.FS, ps ...string) ([]Tensor, error) {
 
				 					offset: safetensorsPad(n, value.Offsets[0]),
			
 
				 					size:   safetensorsPad(n, value.Offsets[1]) - safetensorsPad(n, value.Offsets[0]),
			
 
				 					tensorBase: &tensorBase{
			
 
				-						name:  key,
			
 
				+						name:  replacer.Replace(key),
			
 
				 						shape: value.Shape,
			
 
				 					},
			
 
				 				})
			
--- a/convert/reader_torch.go
+++ b/convert/reader_torch.go
@@ -3,12 +3,13 @@ package convert
 
				 import (
			
 
				 	"io"
			
 
				 	"io/fs"
			
 
				+	"strings"
			
 
				 
			
 
				 	"github.com/nlpodyssey/gopickle/pytorch"
			
 
				 	"github.com/nlpodyssey/gopickle/types"
			
 
				 )
			
 
				 
			
 
				-func parseTorch(fsys fs.FS, ps ...string) ([]Tensor, error) {
			
 
				+func parseTorch(fsys fs.FS, replacer *strings.Replacer, ps ...string) ([]Tensor, error) {
			
 
				 	var ts []Tensor
			
 
				 	for _, p := range ps {
			
 
				 		pt, err := pytorch.Load(p)
			
@@ -27,7 +28,7 @@ func parseTorch(fsys fs.FS, ps ...string) ([]Tensor, error) {
 
				 			ts = append(ts, torch{
			
 
				 				storage: t.(*pytorch.Tensor).Source,
			
 
				 				tensorBase: &tensorBase{
			
 
				-					name:  k.(string),
			
 
				+					name:  replacer.Replace(k.(string)),
			
 
				 					shape: shape,
			
 
				 				},
			
 
				 			})
			
--- a/convert/testdata/gemma-2-9b-it.json
+++ b/convert/testdata/gemma-2-9b-it.json
@@ -0,0 +1,6 @@
 
				+{
			
 
				+  "general.architecture": "gemma2",
			
 
				+  "gemma2.attention.sliding_window": "4096",
			
 
				+  "gemma2.attn_logit_softcapping": "50",
			
 
				+  "gemma2.final_logit_softcapping": "30"
			
 
				+}
			
--- a/convert/tokenizer_spm.go
+++ b/convert/tokenizer_spm.go
@@ -15,6 +15,11 @@ import (
 
				 )
			
 
				 
			
 
				 func parseSentencePiece(fsys fs.FS) (*Vocabulary, error) {
			
 
				+	ast, err := parseAdditionalSpecialTokens(fsys)
			
 
				+	if err != nil {
			
 
				+		return nil, err
			
 
				+	}
			
 
				+
			
 
				 	bts, err := fs.ReadFile(fsys, "tokenizer.model")
			
 
				 	if err != nil {
			
 
				 		return nil, err
			
@@ -37,7 +42,12 @@ func parseSentencePiece(fsys fs.FS) (*Vocabulary, error) {
 
				 			sentencepiece.ModelProto_SentencePiece_BYTE:
			
 
				 			v.Types = append(v.Types, int32(t))
			
 
				 		default:
			
 
				-			v.Types = append(v.Types, int32(sentencepiece.ModelProto_SentencePiece_NORMAL))
			
 
				+			tt := int32(sentencepiece.ModelProto_SentencePiece_NORMAL)
			
 
				+			if slices.Contains(ast, piece.GetPiece()) {
			
 
				+				tt = int32(sentencepiece.ModelProto_SentencePiece_CONTROL)
			
 
				+			}
			
 
				+
			
 
				+			v.Types = append(v.Types, tt)
			
 
				 		}
			
 
				 	}
			
 
				 
			
@@ -81,3 +91,23 @@ func parseSentencePiece(fsys fs.FS) (*Vocabulary, error) {
 
				 
			
 
				 	return &v, nil
			
 
				 }
			
 
				+
			
 
				+func parseAdditionalSpecialTokens(fsys fs.FS) ([]string, error) {
			
 
				+	f, err := fsys.Open("special_tokens_map.json")
			
 
				+	if errors.Is(err, os.ErrNotExist) {
			
 
				+		return nil, nil
			
 
				+	} else if err != nil {
			
 
				+		return nil, err
			
 
				+	}
			
 
				+	defer f.Close()
			
 
				+
			
 
				+	var m struct {
			
 
				+		AdditionalSpecialTokens []string `json:"additional_special_tokens"`
			
 
				+	}
			
 
				+
			
 
				+	if err := json.NewDecoder(f).Decode(&m); err != nil {
			
 
				+		return nil, err
			
 
				+	}
			
 
				+
			
 
				+	return m.AdditionalSpecialTokens, nil
			
 
				+}