2 月之前 · bfce55db3d
--- a/ml/backend/ggml/ggml.go
+++ b/ml/backend/ggml/ggml.go
@@ -25,11 +25,13 @@ import (
 
				 	"github.com/ollama/ollama/format"
			
 
				 	fs "github.com/ollama/ollama/fs/ggml"
			
 
				 	"github.com/ollama/ollama/ml"
			
 
				+	ggml "github.com/ollama/ollama/ml/backend/ggml/ggml/src"
			
 
				 	"golang.org/x/sync/errgroup"
			
 
				 )
			
 
				 
			
 
				 func devices() iter.Seq[*C.struct_ggml_backend_device] {
			
 
				 	return func(yield func(*C.struct_ggml_backend_device) bool) {
			
 
				+		ggml.OnceLoad()
			
 
				 		for i := range C.ggml_backend_dev_count() {
			
 
				 			if !yield(C.ggml_backend_dev_get(i)) {
			
 
				 				return
			
@@ -146,8 +148,15 @@ func New(r *os.File, params ml.BackendParams) (ml.Backend, error) {
 
				 
			
 
				 	slog.Info("max tensors", "max_tensors", maxTensors)
			
 
				 
			
 
				+	type tensor struct {
			
 
				+		source *fs.Tensor
			
 
				+		target string
			
 
				+	}
			
 
				+
			
 
				+	targets := make(map[string][]string)
			
 
				+
			
 
				 	ctxs := make(map[*C.struct_ggml_backend_buffer_type]*C.struct_ggml_context)
			
 
				-	createTensor := func(t *fs.Tensor, bts []*C.struct_ggml_backend_buffer_type) *C.struct_ggml_tensor {
			
 
				+	createTensor := func(t tensor, bts []*C.struct_ggml_backend_buffer_type) *C.struct_ggml_tensor {
			
 
				 		for _, bt := range bts {
			
 
				 			if _, ok := ctxs[bt]; !ok {
			
 
				 				ctxs[bt] = C.ggml_init(C.struct_ggml_init_params{
			
@@ -156,16 +165,23 @@ func New(r *os.File, params ml.BackendParams) (ml.Backend, error) {
 
				 				})
			
 
				 			}
			
 
				 
			
 
				-			cname := C.CString(t.Name)
			
 
				+			targets[t.source.Name] = append(targets[t.source.Name], t.target)
			
 
				+
			
 
				+			name := t.source.Name
			
 
				+			if t.target != "" {
			
 
				+				name = t.target
			
 
				+			}
			
 
				+
			
 
				+			cname := C.CString(name)
			
 
				 			defer C.free(unsafe.Pointer(cname))
			
 
				 			if tt := C.ggml_get_tensor(ctxs[bt], cname); tt != nil {
			
 
				 				return tt
			
 
				 			}
			
 
				 
			
 
				-			tt := C.ggml_new_tensor(ctxs[bt], t.Kind, C.int(len(t.Shape)), (*C.int64_t)(unsafe.Pointer(&t.Shape[0])))
			
 
				+			tt := C.ggml_new_tensor(ctxs[bt], t.source.Kind, C.int(len(t.source.Shape)), (*C.int64_t)(unsafe.Pointer(&t.source.Shape[0])))
			
 
				 			C.ggml_set_name(tt, cname)
			
 
				 
			
 
				-			slog.Debug("created tensor", "name", t.Name, "shape", t.Shape, "dtype", t.Kind, "buffer_type", C.GoString(C.ggml_backend_buft_name(bt)))
			
 
				+			slog.Debug("created tensor", "name", name, "shape", t.source.Shape, "dtype", t.source.Kind, "buffer_type", C.GoString(C.ggml_backend_buft_name(bt)))
			
 
				 			//nolint:staticcheck // TODO: check if buffer type supports this tensor
			
 
				 			return tt
			
 
				 		}
			
@@ -187,9 +203,9 @@ func New(r *os.File, params ml.BackendParams) (ml.Backend, error) {
 
				 	for _, t := range meta.Tensors().Items() {
			
 
				 		switch {
			
 
				 		case hasPart(t.Name, "position_embd", "token_embd", "token_norm_embd", "token_types"):
			
 
				-			createTensor(t, input.bts)
			
 
				+			createTensor(tensor{source: t}, input.bts)
			
 
				 		case hasPart(t.Name, "cls", "output", "output_norm"):
			
 
				-			createTensor(t, output.bts)
			
 
				+			createTensor(tensor{source: t}, output.bts)
			
 
				 		default:
			
 
				 			if i := func() int {
			
 
				 				if fields := strings.FieldsFunc(t.Name, func(r rune) bool { return !unicode.IsNumber(r) }); len(fields) > 0 {
			
@@ -200,10 +216,13 @@ func New(r *os.File, params ml.BackendParams) (ml.Backend, error) {
 
				 
			
 
				 				return -1
			
 
				 			}(); i >= 0 {
			
 
				-				createTensor(t, layers[i].bts)
			
 
				+				createTensor(tensor{source: t}, layers[i].bts)
			
 
				 			} else {
			
 
				-				for _, layer := range layers {
			
 
				-					createTensor(t, layer.bts)
			
 
				+				for i, layer := range layers {
			
 
				+					createTensor(tensor{
			
 
				+						source: t,
			
 
				+						target: "blk." + strconv.Itoa(i) + "." + t.Name,
			
 
				+					}, layer.bts)
			
 
				 				}
			
 
				 			}
			
 
				 		}
			
@@ -237,28 +256,34 @@ func New(r *os.File, params ml.BackendParams) (ml.Backend, error) {
 
				 	sr := io.NewSectionReader(r, int64(meta.Tensors().Offset), n-int64(meta.Tensors().Offset))
			
 
				 	var g errgroup.Group
			
 
				 	for _, t := range meta.Tensors().Items() {
			
 
				-		g.Go(func() error {
			
 
				-			tt, ok := tensors[t.Name]
			
 
				-			if !ok {
			
 
				-				return fmt.Errorf("unassigned tensor: %s", t.Name)
			
 
				-			}
			
 
				+		for _, target := range targets[t.Name] {
			
 
				+			g.Go(func() error {
			
 
				+				if target == "" {
			
 
				+					target = t.Name
			
 
				+				}
			
 
				 
			
 
				-			bts := make([]byte, t.Size())
			
 
				-			n, err := io.ReadFull(io.NewSectionReader(sr, int64(t.Offset), int64(t.Size())), bts)
			
 
				-			if err != nil {
			
 
				-				return err
			
 
				-			}
			
 
				+				tt, ok := tensors[target]
			
 
				+				if !ok {
			
 
				+					return fmt.Errorf("unassigned tensor: %s", t.Name)
			
 
				+				}
			
 
				 
			
 
				-			if n != len(bts) {
			
 
				-				return errors.New("short read")
			
 
				-			}
			
 
				+				bts := make([]byte, t.Size())
			
 
				+				n, err := io.ReadFull(io.NewSectionReader(sr, int64(t.Offset), int64(t.Size())), bts)
			
 
				+				if err != nil {
			
 
				+					return err
			
 
				+				}
			
 
				 
			
 
				-			cname := C.CString(t.Name)
			
 
				-			C.ggml_backend_tensor_set(tt, unsafe.Pointer(&bts[0]), 0, C.size_t(t.Size()))
			
 
				-			C.free(unsafe.Pointer(cname))
			
 
				+				if n != len(bts) {
			
 
				+					return errors.New("short read")
			
 
				+				}
			
 
				 
			
 
				-			return nil
			
 
				-		})
			
 
				+				cname := C.CString(t.Name)
			
 
				+				C.ggml_backend_tensor_set(tt, unsafe.Pointer(&bts[0]), 0, C.size_t(t.Size()))
			
 
				+				C.free(unsafe.Pointer(cname))
			
 
				+
			
 
				+				return nil
			
 
				+			})
			
 
				+		}
			
 
				 	}
			
 
				 
			
 
				 	if g.Wait() != nil {
			
--- a/ml/backend/ggml/ggml/src/ggml-backend-reg.cpp
+++ b/ml/backend/ggml/ggml/src/ggml-backend-reg.cpp
@@ -207,27 +207,18 @@ struct ggml_backend_registry {
 
				         for (size_t i = 0; i < ggml_backend_reg_dev_count(reg); i++) {
			
 
				             register_device(ggml_backend_reg_dev_get(reg, i), score);
			
 
				         }
			
 
				-
			
 
				-        std::stable_sort(devices.begin(), devices.end(),
			
 
				-            [](const auto & a, const auto & b) {
			
 
				-                return a.second > b.second;
			
 
				-            }
			
 
				-        );
			
 
				     }
			
 
				 
			
 
				     void register_device(ggml_backend_dev_t device, int score = -1) {
			
 
				-        switch (ggml_backend_dev_type(device)) {
			
 
				-        case GGML_BACKEND_DEVICE_TYPE_CPU:
			
 
				-        case GGML_BACKEND_DEVICE_TYPE_GPU:
			
 
				-            score += 1 << 16;
			
 
				-        case GGML_BACKEND_DEVICE_TYPE_ACCEL:
			
 
				-            score += 1 << 20;
			
 
				-        }
			
 
				-
			
 
				 #ifndef NDEBUG
			
 
				         GGML_LOG_DEBUG("%s: registered device %s (%s)\n", __func__, ggml_backend_dev_name(device), ggml_backend_dev_description(device));
			
 
				 #endif
			
 
				         devices.push_back({device, score});
			
 
				+        std::stable_sort(devices.begin(), devices.end(),
			
 
				+            [](const auto & a, const auto & b) {
			
 
				+                return a.second > b.second;
			
 
				+            }
			
 
				+        );
			
 
				     }
			
 
				 
			
 
				     ggml_backend_reg_t load_backend(const std::filesystem::path & path, bool silent) {