Zora glm-5.1

POST /v1/chat/completions

根据对话上下文生成模型回复。

Request

缓存调用示例

GLM-5.1 支持通过多次请求复用较长上下文，适合合同、报告、知识库片段、长文档等需要反复提问的场景。

显式缓存：在 messages[].content[] 文本块中添加 cache_control: { "type": "ephemeral" }，明确标记需要复用的长文本内容。后续请求继续带上同一段已标记的内容，再更换新的问题。
隐式缓存：不传 cache_control，把稳定的长上下文放在固定位置（如 system 消息）。后续请求保持这段上下文完全一致，只修改用户问题，系统会尝试复用相同前缀上下文。
多次调用：第一次请求提交长文本并提出第一个问题，第二次及后续请求复用同一长文本，继续提出总结、提取、改写、分析等新问题。

显式缓存参数示例

第一次请求：标记需要复用的长文本内容块。

{
  "model": "glm-5.1",
  "messages": [
    {
      "role": "system",
      "content": "你是一个擅长分析长文本资料的助手。"
    },
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "【待分析资料】这里是一段较长且后续会反复使用的业务资料、报告或知识库内容。为了节省后续请求成本，可以将这段稳定内容显式缓存。",
          "cache_control": {
            "type": "ephemeral"
          }
        },
        {
          "type": "text",
          "text": "请先总结这份资料的核心观点。"
        }
      ]
    }
  ],
  "stream": true
}

第二次请求：保持已标记的长文本内容一致，只替换新的问题。

{
  "model": "glm-5.1",
  "messages": [
    {
      "role": "system",
      "content": "你是一个擅长分析长文本资料的助手。"
    },
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "【待分析资料】这里是一段较长且后续会反复使用的业务资料、报告或知识库内容。为了节省后续请求成本，可以将这段稳定内容显式缓存。",
          "cache_control": {
            "type": "ephemeral"
          }
        },
        {
          "type": "text",
          "text": "请从这份资料中提取需要跟进的行动项。"
        }
      ]
    }
  ],
  "stream": true
}

隐式缓存参数示例

第一次请求：不传 cache_control，把稳定长文本放在固定位置。

{
  "model": "glm-5.1",
  "messages": [
    {
      "role": "system",
      "content": "【固定上下文】这里是一段较长且后续会反复使用的业务资料、报告或知识库内容。"
    },
    {
      "role": "user",
      "content": "【问题】请总结这份资料的核心观点。"
    }
  ],
  "stream": true
}

第二次请求：保持固定上下文完全一致，只修改用户问题。

{
  "model": "glm-5.1",
  "messages": [
    {
      "role": "system",
      "content": "【固定上下文】这里是一段较长且后续会反复使用的业务资料、报告或知识库内容。"
    },
    {
      "role": "user",
      "content": "【问题】请从这份资料中提取需要跟进的行动项。"
    }
  ],
  "stream": true
}

Responses

成功生成回复

Zora glm-5.1

/v1/chat/completions

Request​

缓存调用示例​

显式缓存参数示例​

隐式缓存参数示例​

Responses​

Request

缓存调用示例

显式缓存参数示例

隐式缓存参数示例

Responses