跳转至

对话导出

将对话导出为数据集,用于模型训练、分析或备份。

什么是对话导出

将对话导出为多种文件格式的结构化数据集,适用于模型微调、对话模式分析或数据归档。

导出 vs 分享:

功能 导出 分享
用途 数据集创建 公开查看
格式 JSONL/CSV/Parquet 网页
文件 不包含 可下载
使用场景 训练、分析 协作

支持的格式

格式 适用场景 文件大小
JSONL 模型训练、易读性 中等
CSV 表格分析 最大
Parquet 大数据处理 最小

数据结构

导出数据遵循 ShareGPT 格式,包含以下字段:

字段 类型 说明
data_source String 对话类型 (chat/agent/graph)
ability Array 对话标签
messages Array 对话轮次
tools Array 使用的工具
model String 模型名称
conversation_id String 源对话 ID

消息角色:

角色 说明
user 用户输入
assistant 模型响应(无工具调用)
function_call 模型响应(含工具调用)
tool 工具执行结果
system 系统提示词(仅第一条)

格式化规则:

规则 处理方式
Chat/Agent 所有轮次合并为一条记录
Graph 每轮(除第1轮外)成为独立记录
系统提示词 仅保留最后一条,置于首位
工具 去除重复,仅保留唯一工具

创建数据集

步骤 1: 选择对话

从对话页面顶部按钮进入导出管理器。

筛选选项:

筛选器 可选项
搜索 标题或标签
日期范围 创建时间段
类型 chat、agent、graph
状态 active、favorite、deleted

选择操作:

  • 点击对话切换选中状态
  • 使用"全选"选择筛选结果
  • 使用"取消全选"清空选择

步骤 2: 配置导出

填写导出表单:

字段 说明 示例
数据集名称 标识数据集 客服对话
文件名称 输出文件名(无扩展名) conversations_2024
文件格式 JSONL、CSV 或 Parquet jsonl
数据格式 当前仅支持 "standard" standard

步骤 3: 执行导出

点击"确认导出"创建数据集。

处理流程:

选择 → 配置 → 导出 → 预览 → 下载

导出完成后,可查看预览数据或立即下载。

管理数据集

切换到"数据集管理"标签页查看所有导出。

可用操作:

操作 说明
预览 查看前 20 条记录
下载 获取包含数据和元数据的 ZIP
删除 永久删除数据集

数据集列表显示:

信息
数据集名称 创建时指定的名称
数据格式 当前为 "standard"
创建时间 导出时间戳

下载文件

每个下载的 ZIP 包含:

文件 内容
数据文件 对话数据 (*.jsonl/csv/parquet)
dataset_info.json 数据集元数据和架构

dataset_info.json 结构:

{
  "dataset_name": {
    "file_name": "conversations.jsonl",
    "formatting": "sharegpt",
    "num_samples": 150,
    "columns": {
      "messages": "messages"
    },
    "tags": {
      "role_tag": "role",
      "content_tag": "content",
      "user_tag": "user",
      "assistant_tag": "assistant",
      "function_tag": "function_call",
      "observation_tag": "tool",
      "system_tag": "system"
    }
  }
}

预览数据

预览以 JSON 格式显示前 20 条记录。

预览用途:

  • 验证导出了正确的对话
  • 下载前检查数据结构
  • 确认格式符合预期
  • 查看示例消息和工具

使用场景

场景 使用方式
模型微调 导出成功对话用于训练
质量分析 导出为 CSV 用表格审查
数据归档 定期导出重要对话备份
性能指标 分析对话模式
数据集创建 构建特定能力的训练集

最佳实践

命名规范: 使用描述性、带日期的名称,如 support_conversations_2024_01

导出前检查: 确认选中的对话包含预期内容

选择合适格式: - JSONL 用于训练和通用场景 - CSV 用于表格分析 - Parquet 用于大规模处理

定期备份: 定期导出重要对话

清理数据: 导出前删除测试对话

说明

用户隔离: 每个用户仅能看到自己的数据集

排除第1轮: Graph 对话跳过第 1 轮(初始化轮)

格式支持: 当前仅支持 "standard" ShareGPT 格式

相关链接