spring.ai.ollama.embedding.options.numa | 是否使用 NUMA。 | false |
spring.ai.ollama.embedding.options.num-ctx | 设置用于生成下一个令牌的上下文窗口的大小。 | 2048 |
spring.ai.ollama.embedding.options.num-batch | 提示处理最大批处理大小。 | 512 |
spring.ai.ollama.embedding.options.num-gpu | 发送到 GPU 的层数。在 macOS 上,默认为 1 以启用 metal 支持,0 禁用。此处的 1 表示应动态设置 NumGPU。 | -1 |
spring.ai.ollama.embedding.options.main-gpu | 使用多个 GPU 时,此选项控制哪个 GPU 用于小张量,对于这些张量,跨所有 GPU 拆分计算的开销不值得。所讨论的 GPU 将使用稍多的 VRAM 来存储临时结果的暂存缓冲区。 | 0 |
spring.ai.ollama.embedding.options.low-vram | - | false |
spring.ai.ollama.embedding.options.f16-kv | - | true |
spring.ai.ollama.embedding.options.logits-all | 返回所有令牌的 logits,而不仅仅是最后一个。要启用补全以返回 logprobs,此值必须为 true。 | - |
spring.ai.ollama.embedding.options.vocab-only | 仅加载词汇表,不加载权重。 | - |
spring.ai.ollama.embedding.options.use-mmap | 默认情况下,模型映射到内存中,这允许系统仅根据需要加载模型的必要部分。但是,如果模型大于您的总 RAM 量,或者如果您的系统可用内存不足,则使用 mmap 可能会增加页面换出的风险,从而对性能产生负面影响。禁用 mmap 会导致加载时间变慢,但如果您不使用 mlock,则可能会减少页面换出。请注意,如果模型大于总 RAM 量,则关闭 mmap 将阻止模型完全加载。 | null |
spring.ai.ollama.embedding.options.use-mlock | 将模型锁定在内存中,防止在内存映射时将其换出。这可以提高性能,但会牺牲内存映射的一些优势,因为它需要更多 RAM 才能运行,并且随着模型加载到 RAM 中,加载时间可能会变慢。 | false |
spring.ai.ollama.embedding.options.num-thread | 设置计算期间要使用的线程数。默认情况下,Ollama 将检测此值以获得最佳性能。建议将此值设置为系统具有的物理 CPU 内核数(而不是逻辑内核数)。0 = 让运行时决定。 | 0 |
spring.ai.ollama.embedding.options.num-keep | - | 4 |
spring.ai.ollama.embedding.options.seed | 设置用于生成的随机数种子。将此值设置为特定数字将使模型为同一提示生成相同的文本。 | -1 |
spring.ai.ollama.embedding.options.num-predict | 生成文本时要预测的最大令牌数。(-1 = 无限生成,-2 = 填充上下文) | -1 |
spring.ai.ollama.embedding.options.top-k | 降低生成无意义内容的概率。较高的值(例如 100)将提供更多样化的答案,而较低的值(例如 10)将更加保守。 | 40 |
spring.ai.ollama.embedding.options.top-p | 与 top-k 一起工作。较高的值(例如 0.95)将导致更多样化的文本,而较低的值(例如 0.5)将生成更集中和保守的文本。 | 0.9 |
spring.ai.ollama.embedding.options.min-p | top_p 的替代方案,旨在确保质量和多样性的平衡。参数 p 表示要考虑的令牌的最小概率,相对于最可能令牌的概率。例如,当 p=0.05 且最可能令牌的概率为 0.9 时,值小于 0.045 的 logits 将被过滤掉。 | 0.0 |
spring.ai.ollama.embedding.options.tfs-z | 无尾采样用于减少输出中不太可能的令牌的影响。较高的值(例如 2.0)将更多地减少影响,而值 1.0 将禁用此设置。 | 1.0 |
spring.ai.ollama.embedding.options.typical-p | - | 1.0 |
spring.ai.ollama.embedding.options.repeat-last-n | 设置模型向后看多远以防止重复。(默认值:64,0 = 禁用,-1 = num_ctx) | 64 |
spring.ai.ollama.embedding.options.temperature | 模型的温度。增加温度会使模型回答更具创造性。 | 0.8 |
spring.ai.ollama.embedding.options.repeat-penalty | 设置惩罚重复的强度。较高的值(例如 1.5)将更强烈地惩罚重复,而较低的值(例如 0.9)将更宽松。 | 1.1 |
spring.ai.ollama.embedding.options.presence-penalty | - | 0.0 |
spring.ai.ollama.embedding.options.frequency-penalty | - | 0.0 |
spring.ai.ollama.embedding.options.mirostat | 启用 Mirostat 采样以控制困惑度。(默认值:0,0 = 禁用,1 = Mirostat,2 = Mirostat 2.0) | 0 |
spring.ai.ollama.embedding.options.mirostat-tau | 控制输出的连贯性和多样性之间的平衡。较低的值将导致更集中和连贯的文本。 | 5.0 |
spring.ai.ollama.embedding.options.mirostat-eta | 影响算法响应生成文本反馈的速度。较低的学习率将导致较慢的调整,而较高的学习率将使算法更具响应性。 | 0.1 |
spring.ai.ollama.embedding.options.penalize-newline | - | true |
spring.ai.ollama.embedding.options.stop | 设置要使用的停止序列。遇到此模式时,LLM 将停止生成文本并返回。可以通过在模型文件中指定多个单独的停止参数来设置多个停止模式。 | - |
spring.ai.ollama.embedding.options.functions | 函数列表,由其名称标识,用于在单个提示请求中启用函数调用。具有这些名称的函数必须存在于 functionCallbacks 注册表中。 | - |