跳转至

多模态支持

平台即将支持多模态能力,让 Agent 能够处理图像、音频、视频等多种类型的内容。

发展阶段

阶段 支持模态 核心能力 状态
第一阶段 视觉理解 (VLM) 图像分析、图文对话 即将支持
后续阶段 更多模态 持续扩展中 规划中

第一阶段:视觉理解 (VLM)

优先支持视觉语言模型,让 Agent 具备"看"的能力。

将支持的功能

  • 图像输入:在对话中上传图片,Agent 可以看图回答问题
  • 图文分析:理解图片中的文字、物体、场景等信息
  • VLM 模型配置:在模型管理中添加支持视觉的模型
  • 对话历史:保存包含图片的对话记录

后续规划

视觉理解稳定后,将逐步扩展至图像生成、语音交互、视频处理等更多模态,为 Agent 带来更丰富的感知和创作能力。


我们将持续关注多模态技术发展,为平台带来更丰富的交互能力。