多模态支持¶
平台即将支持多模态能力,让 Agent 能够处理图像、音频、视频等多种类型的内容。
发展阶段¶
| 阶段 | 支持模态 | 核心能力 | 状态 |
|---|---|---|---|
| 第一阶段 | 视觉理解 (VLM) | 图像分析、图文对话 | 即将支持 |
| 后续阶段 | 更多模态 | 持续扩展中 | 规划中 |
第一阶段:视觉理解 (VLM)¶
优先支持视觉语言模型,让 Agent 具备"看"的能力。
将支持的功能¶
- 图像输入:在对话中上传图片,Agent 可以看图回答问题
- 图文分析:理解图片中的文字、物体、场景等信息
- VLM 模型配置:在模型管理中添加支持视觉的模型
- 对话历史:保存包含图片的对话记录
后续规划¶
视觉理解稳定后,将逐步扩展至图像生成、语音交互、视频处理等更多模态,为 Agent 带来更丰富的感知和创作能力。
我们将持续关注多模态技术发展,为平台带来更丰富的交互能力。