概括 - Ollama 官方中文文档

POST /api/generate

使用提供的模型为给定的提示生成响应。这是一个流式端点，因此会有一系列响应。最终的响应对象将包含来自请求的统计信息和其他数据。

model: (必需) 模型名称 (Model Names)。

prompt: 用于生成响应的提示。

suffix: 模型响应后的文本。

images: (可选) base64 编码的图像列表（用于多模态模型，例如 llava）。

高级参数（可选）：

format: 返回响应的格式。格式可以是 json 或 JSON schema（JSON模式）。

options: 额外的模型参数，在Modelfile 的文档中列出，例如 temperature（温度）。

system: 系统消息（覆盖在 Modelfile 中定义的消息）。

template: 要使用的提示模板（覆盖在 Modelfile 中定义的模板）。

stream: 如果为 false，则响应将作为单个响应对象返回，而不是一系列对象。

raw: 如果为 true，则不会对提示应用任何格式。如果您在请求中指定完整的模板化提示，您可以选择使用 raw 参数。

keep_alive: 控制模型在请求后保持加载到内存中的时间（默认：5m）。

context (已弃用): 从先前 /generate 请求返回的上下文参数，可用于保持简短的会话记忆。

通过在 format 参数中提供 JSON 模式(JSON schema)来支持结构化输出。模型将生成与该模式匹配的响应。请参阅下面的结构化输出示例。

通过将 format 参数设置为 json 来启用 JSON 模式(JSON Mode)。这会将响应构造为有效的 JSON 对象。请参阅 JSON 模式示例。

重要提示

重要的是指示模型在 prompt 中使用 JSON。否则，模型可能会生成大量空白。

markdown个数：10

概括