跳转至

Agent-Graph Documentation

Multimodal

mcp-agent-graph

多模态支持¶

平台现已支持多模态能力，让 Agent 能够处理图像等多种类型的内容。视觉语言模型（VLM）支持已完全实现并可使用。

发展阶段¶

阶段	支持模态	核心能力	状态
第一阶段	视觉理解 (VLM)	图像分析、图文对话	✅ 已实现
后续阶段	更多模态	持续扩展中	规划中

第一阶段：视觉理解 (VLM)¶

视觉语言模型支持现已上线，让 Agent 具备"看"和理解图像的能力。

已实现的功能¶

图像输入：在对话中上传图片，Agent 可以看图回答问题
图文分析：理解图片中的文字、物体、场景等信息
VLM 模型配置：在模型管理中添加支持视觉的模型
对话历史：保存包含图片的对话记录

使用方法¶

配置 VLM 模型：前往模型管理页面，添加支持视觉的模型
上传图片：在任意对话中，点击图片上传按钮或直接拖拽图片到聊天框
提问：Agent 将分析图片并回答您关于图片内容的问题
多轮对话：可以继续追问图片相关的问题，进行深入交流

后续规划¶

视觉理解稳定后，将逐步扩展至图像生成、语音交互、视频处理等更多模态，为 Agent 带来更丰富的感知和创作能力。

视觉能力现已上线！我们将持续关注多模态技术发展，为平台带来更多模态和更丰富的交互能力。