1 month ago · 63a394068c
--- a/convert/convert_gemma3.go
+++ b/convert/convert_gemma3.go
@@ -26,15 +26,16 @@ type gemma3Model struct {
 
															 		NumChannels       uint32  `json:"num_channels"`        // num_channels 3
														
 
															 		PatchSize         uint32  `json:"patch_size"`          // patch_size 14
														
 
															 	} `json:"vision_config"`
														
 
															-	MaxPositionEmbeddings uint32  `json:"max_position_embeddings"`
														
 
															-	NumAttentionHeads     uint32  `json:"num_attention_heads"`
														
 
															-	NumKeyValueHeads      uint32  `json:"num_key_value_heads"`
														
 
															-	RMSNormEPS            float32 `json:"rms_norm_eps"`
														
 
															-	HeadDim               uint32  `json:"head_dim"`
														
 
															-	FinalLogitSoftcap     float32 `json:"final_logit_softcapping"`
														
 
															-	RopeLocalTheta        float32 `json:"rope_local_base_freq"`
														
 
															-	RopeGlobalTheta       float32 `json:"rope_global_base_freq"`
														
 
															-	SlidingWindow         uint32  `json:"sliding_window"`
														
 
															+	MaxPositionEmbeddings    uint32  `json:"max_position_embeddings"`
														
 
															+	NumAttentionHeads        uint32  `json:"num_attention_heads"`
														
 
															+	NumKeyValueHeads         uint32  `json:"num_key_value_heads"`
														
 
															+	RMSNormEPS               float32 `json:"rms_norm_eps"`
														
 
															+	HeadDim                  uint32  `json:"head_dim"`
														
 
															+	FinalLogitSoftcap        float32 `json:"final_logit_softcapping"`
														
 
															+	RopeLocalTheta           float32 `json:"rope_local_base_freq"`
														
 
															+	RopeGlobalTheta          float32 `json:"rope_global_base_freq"`
														
 
															+	SlidingWindow            uint32  `json:"sliding_window"`
														
 
															+	MultiModalTokensPerImage uint32  `json:"mm_tokens_per_image"`
														
 
															 }
														
 
															 const (
														
@@ -102,6 +103,10 @@ func (p *gemma3Model) KV(t *Tokenizer) ggml.KV {
 
															 		kv["gemma3.attention.value_length"] = cmp.Or(p.TextModel.HeadDim, 256)
														
 
															 	}
														
 
															+	if p.MultiModalTokensPerImage > 0 {
														
 
															+		kv["gemma3.mm.tokens_per_image"] = p.MultiModalTokensPerImage
														
 
															+	}
														
 
															+
														
 
															 	return kv
														
 
															 }
														
--- a/ml/backend.go
+++ b/ml/backend.go
@@ -135,7 +135,7 @@ type Tensor interface {
 
															 	RMSNorm(ctx Context, weight Tensor, eps float32) Tensor
														
 
															 	Scale(ctx Context, s float64) Tensor
														
 
															-	AvgPool1D(ctx Context, k, s, p int) Tensor
														
 
															+	AvgPool2D(ctx Context, k, s int, p float32) Tensor
														
 
															 	Conv2D(ctx Context, weight Tensor, s0, s1, p0, p1, d0, d1 int) Tensor
														
 
															 	RoPE(ctx Context, positionIDs, ropeFactors Tensor, dim, ropeType uint32, base, scale float32) Tensor
														
--- a/ml/backend/ggml/ggml.go
+++ b/ml/backend/ggml/ggml.go
@@ -247,7 +247,7 @@ func New(r *os.File, params ml.BackendParams) (ml.Backend, error) {
 
															 			createTensor(tensor{source: t}, output.bts)
														
 
															 		case strings.HasPrefix(t.Name, "v.") || strings.HasPrefix(t.Name, "mm."):
														
 
															 			// TODO: assign vision tensors to the gpu if possible
														
 
															-			createTensor(tensor{source: t}, input.bts)
														
 
															+			createTensor(tensor{source: t}, output.bts)
														
 
															 		case contains(t.Name, "rope_freqs", "rope_factors_long", "rope_factors_short"):
														
 
															 			// these tensors should be repeated per layer
														
 
															 			for i, layer := range layers {
														
@@ -952,10 +952,10 @@ func (t *Tensor) Conv2D(ctx ml.Context, t2 ml.Tensor, s0, s1, p0, p1, d0, d1 int
 
															 	}
														
 
															 }
														
 
															-func (t *Tensor) AvgPool1D(ctx ml.Context, k, s, p int) ml.Tensor {
														
 
															+func (t *Tensor) AvgPool2D(ctx ml.Context, k, s int, p float32) ml.Tensor {
														
 
															 	return &Tensor{
														
 
															 		b: t.b,
														
 
															-		t: C.ggml_pool_1d(ctx.(*Context).ctx, t.t, C.GGML_OP_POOL_AVG, C.int(k), C.int(s), C.int(p)),
														
 
															+		t: C.ggml_pool_2d(ctx.(*Context).ctx, t.t, C.GGML_OP_POOL_AVG, C.int(k), C.int(k), C.int(s), C.int(s), C.float(p), C.float(p)),
														
 
															 	}
														
 
															 }
														
--- a/model/models/gemma3/model.go
+++ b/model/models/gemma3/model.go
@@ -5,6 +5,7 @@ import (
 
															 	"encoding/binary"
														
 
															 	"hash/fnv"
														
 
															 	"image"
														
 
															+	"math"
														
 
															 	"github.com/ollama/ollama/kvcache"
														
 
															 	"github.com/ollama/ollama/ml"
														
@@ -30,9 +31,21 @@ var _ model.MultimodalProcessor = (*Model)(nil)
 
															 type MultiModalProjector struct {
														
 
															 	SoftEmbNorm     *nn.RMSNorm `gguf:"mm_soft_emb_norm"`
														
 
															 	InputProjection *nn.Linear  `gguf:"mm_input_projection"`
														
 
															+
														
 
															+	tokensPerImage int
														
 
															 }
														
 
															-func (p *MultiModalProjector) Forward(ctx ml.Context, visionOutputs ml.Tensor, eps float32) ml.Tensor {
														
 
															+func (p *MultiModalProjector) Forward(ctx ml.Context, visionOutputs ml.Tensor, imageSize, patchSize int, eps float32) ml.Tensor {
														
 
															+	l := visionOutputs.Dim(0)
														
 
															+
														
 
															+	visionOutputs = visionOutputs.Permute(ctx, 1, 0, 2, 3).Contiguous(ctx)
														
 
															+	patchesPerImage := imageSize / patchSize
														
 
															+	visionOutputs = visionOutputs.Reshape(ctx, patchesPerImage, patchesPerImage, l)
														
 
															+
														
 
															+	kernelSize := patchesPerImage / int(math.Sqrt(float64(p.tokensPerImage)))
														
 
															+	visionOutputs = visionOutputs.AvgPool2D(ctx, kernelSize, kernelSize, 0)
														
 
															+	visionOutputs = visionOutputs.Reshape(ctx, visionOutputs.Dim(0)*visionOutputs.Dim(1), l)
														
 
															+	visionOutputs = visionOutputs.Permute(ctx, 1, 0, 2, 3).Contiguous(ctx)
														
 
															 	visionOutputs = p.SoftEmbNorm.Forward(ctx, visionOutputs, eps)
														
 
															 	// TODO: inputProjection must be transposed since they're incompatible with visionOutputs
														
@@ -59,6 +72,9 @@ func New(c ml.Config) (model.Model, error) {
 
															 		ImageProcessor: newImageProcessor(c),
														
 
															 		VisionModel:    newVisionModel(c),
														
 
															 		TextModel:      newTextModel(c),
														
 
															+		MultiModalProjector: &MultiModalProjector{
														
 
															+			tokensPerImage: int(c.Uint("mm_tokens_per_image", 256)),
														
 
															+		},
														
 
															 	}
														
 
															 	slidingWindowLen := int32(c.Uint("attention.sliding_window"))
														
@@ -88,17 +104,7 @@ func (m *Model) EncodeMultimodal(ctx ml.Context, multimodalData []byte) (any, er
 
															 	}
														
 
															 	visionOutputs := m.VisionModel.Forward(ctx, pixelValues)
														
 
															-	visionOutputs = visionOutputs.Permute(ctx, 1, 0, 2, 3).Contiguous(ctx)
														
 
															-	patchesPerImage := m.ImageProcessor.imageSize / m.ImageProcessor.patchSize
														
 
															-
														
 
															-	// TODO (jmorganca): read this from the model config
														
 
															-	// it should instead be math.Sqrt(tokens per image)
														
 
															-	tokensPerSide := 8
														
 
															-	kernelSize := patchesPerImage / tokensPerSide
														
 
															-	visionOutputs = visionOutputs.AvgPool1D(ctx, kernelSize, kernelSize, 0)
														
 
															-
														
 
															-	visionOutputs = visionOutputs.Permute(ctx, 1, 0, 2, 3).Contiguous(ctx)
														
 
															-	visionOutputs = m.MultiModalProjector.Forward(ctx, visionOutputs, m.VisionModel.eps)
														
 
															+	visionOutputs = m.MultiModalProjector.Forward(ctx, visionOutputs, m.imageSize, m.patchSize, m.VisionModel.eps)
														
 
															 	return visionOutputs, nil
														
 
															 }