多模型支持¶ 平台当前支持 LLM(大语言模型)用于文本生成和对话。 即将推出:视觉模型¶ VLM(视觉语言模型)支持计划在未来版本中推出。 视觉模型将支持: 能力 说明 图像理解 分析和描述图像内容 视觉问答 回答关于上传图像的问题 文档 OCR 从图像和 PDF 中提取文字 多模态工作流 在 Agent 工作流中结合文本和视觉 模型类型¶ 类型 状态 说明 LLM ✅ 已支持 文本生成和对话 VLM 🔄 即将推出 图像理解和分析 敬请期待视觉模型支持的更新。