Историја ревизија

Аутор SHA1 Порука Датум
  Michael Yang 829ff87bd1 revert tokenize ffi (#4761) пре 11 месеци
  Jeffrey Morgan 763bb65dbb use `int32_t` for call to tokenize (#4738) пре 11 месеци
  Michael Yang bf54c845e9 vocab only пре 11 месеци
  Michael Yang 26a00a0410 use ffi for tokenizing/detokenizing пре 11 месеци
  Michael Yang 01811c176a comments пре 1 година
  Michael Yang 9685c34509 quantize any fp16/fp32 model пре 1 година
  Hernan Martinez 86e67fc4a9 Add import declaration for windows,arm64 to llm.go пре 1 година
  Michael Yang 9502e5661f cgo quantize пре 1 година
  Daniel Hiltgen 58d95cc9bd Switch back to subprocessing for llama.cpp пре 1 година
  Michael Yang 91b3e4d282 update memory calcualtions пре 1 година
  Michael Yang d338d70492 refactor model parsing пре 1 година
  Patrick Devine 1b272d5bcd change `github.com/jmorganca/ollama` to `github.com/ollama/ollama` (#3347) пре 1 година
  Jeffrey Morgan f9cd55c70b disable gpu for certain model architectures and fix divide-by-zero on memory estimation пре 1 година
  Daniel Hiltgen 6c5ccb11f9 Revamp ROCm support пре 1 година
  Daniel Hiltgen a1dfab43b9 Ensure the libraries are present пре 1 година
  Jeffrey Morgan 4458efb73a Load all layers on `arm64` macOS if model is small enough (#2149) пре 1 година
  Daniel Hiltgen fedd705aea Mechanical switch from log to slog пре 1 година
  Michael Yang eaed6f8c45 add max context length check пре 1 година
  Daniel Hiltgen 7427fa1387 Fix up the CPU fallback selection пре 1 година
  Daniel Hiltgen de2fbdec99 Merge pull request #1819 from dhiltgen/multi_variant пре 1 година
  Michael Yang f4f939de28 Merge pull request #1552 from jmorganca/mxyng/lint-test пре 1 година
  Daniel Hiltgen 39928a42e8 Always dynamically load the llm server library пре 1 година
  Daniel Hiltgen d88c527be3 Build multiple CPU variants and pick the best пре 1 година
  Jeffrey Morgan ab6be852c7 revisit memory allocation to account for full kv cache on main gpu пре 1 година
  Daniel Hiltgen 8da7bef05f Support multiple variants for a given llm lib type пре 1 година
  Jeffrey Morgan b24e8d17b2 Increase minimum CUDA memory allocation overhead and fix minimum overhead for multi-gpu (#1896) пре 1 година
  Michael Yang f921e2696e typo пре 1 година
  Jeffrey Morgan f387e9631b use runner if cuda alloc won't fit пре 1 година
  Jeffrey Morgan cb534e6ac2 use 10% vram overhead for cuda пре 1 година
  Jeffrey Morgan 58ce2d8273 better estimate scratch buffer size пре 1 година