Zora glm-5.1
POST/v1/chat/completions
根据对话上下文生成模型回复。
Request
缓存调用示例
GLM-5.1 支持通过多次请求复用较长上下文,适合合同、报告、知识库片段、长文档等需要反复提问的场景。
- 显式缓存:在
messages[].content[]文本块中添加cache_control: { "type": "ephemeral" },明确标记需要复用的长文本内容。后续请求继续带上同一段已标记的内容,再更换新的问题。 - 隐式缓存:不传
cache_control,把稳定的长上下文放在固定位置(如 system 消息)。后续请求保持这段上下文完全一致,只修改用户问题,系统会尝试复用相同前缀上下文。 - 多次调用:第一次请求提交长文本并提出第一个问题,第二次及后续请求复用同一长文本,继续提出总结、提取、改写、分析等新问题。
显式缓存参数示例
第一次请求:标记需要复用的长文本内容块。
{
"model": "glm-5.1",
"messages": [
{
"role": "system",
"content": "你是一个擅长分析长文本资料的助手。"
},
{
"role": "user",
"content": [
{
"type": "text",
"text": "【待分析资料】这里是一段较长且后续会反复使用的业务资料、报告或知识库内容。为了节省后续请求成本,可以将这段稳定内容显式缓存。",
"cache_control": {
"type": "ephemeral"
}
},
{
"type": "text",
"text": "请先总结这份资料的核心观点。"
}
]
}
],
"stream": true
}
第二次请求:保持已标记的长文本内容一致,只替换新的问题。
{
"model": "glm-5.1",
"messages": [
{
"role": "system",
"content": "你是一个擅长分析长文本资料的助手。"
},
{
"role": "user",
"content": [
{
"type": "text",
"text": "【待分析资料】这里是一段较长且后续会反复使用的业务资料、报告或知识库内容。为了节省后续请求成本,可以将这段稳定内容显式缓存。",
"cache_control": {
"type": "ephemeral"
}
},
{
"type": "text",
"text": "请从这份资料中提取需要跟进的行动项。"
}
]
}
],
"stream": true
}
隐式缓存参数示例
第一次请求:不传 cache_control,把稳定长文本放在固定位置。
{
"model": "glm-5.1",
"messages": [
{
"role": "system",
"content": "【固定上下文】这里是一段较长且后续会反复使用的业务资料、报告或知识库内容。"
},
{
"role": "user",
"content": "【问题】请总结这份资料的核心观点。"
}
],
"stream": true
}
第二次请求:保持固定上下文完全一致,只修改用户问题。
{
"model": "glm-5.1",
"messages": [
{
"role": "system",
"content": "【固定上下文】这里是一段较长且后续会反复使用的业务资料、报告或知识库内容。"
},
{
"role": "user",
"content": "【问题】请从这份资料中提取需要跟进的行动项。"
}
],
"stream": true
}
Responses
- 200
- 400
- 401
- 429
成功生成回复
请求参数有误
未授权
请求频率超限