对话导出¶

将对话导出为数据集,用于模型训练、分析或备份。

什么是对话导出¶

将对话导出为多种文件格式的结构化数据集,适用于模型微调、对话模式分析或数据归档。

导出 vs 分享:

功能	导出	分享
用途	数据集创建	公开查看
格式	JSONL/CSV/Parquet	网页
文件	不包含	可下载
使用场景	训练、分析	协作

支持的格式¶

格式	适用场景	文件大小
JSONL	模型训练、易读性	中等
CSV	表格分析	最大
Parquet	大数据处理	最小

数据结构¶

导出数据遵循 ShareGPT 格式,包含以下字段:

字段	类型	说明
data_source	String	对话类型 (chat/agent/graph)
ability	Array	对话标签
messages	Array	对话轮次
tools	Array	使用的工具
model	String	模型名称
conversation_id	String	源对话 ID

消息角色:

角色	说明
user	用户输入
assistant	模型响应(无工具调用)
function_call	模型响应(含工具调用)
tool	工具执行结果
system	系统提示词(仅第一条)

格式化规则:

规则	处理方式
Chat/Agent	所有轮次合并为一条记录
Graph	每轮(除第1轮外)成为独立记录
系统提示词	仅保留最后一条,置于首位
工具	去除重复,仅保留唯一工具

创建数据集¶

步骤 1: 选择对话¶

从对话页面顶部按钮进入导出管理器。

筛选选项:

筛选器	可选项
搜索	标题或标签
日期范围	创建时间段
类型	chat、agent、graph
状态	active、favorite、deleted

选择操作:

点击对话切换选中状态
使用"全选"选择筛选结果
使用"取消全选"清空选择

步骤 2: 配置导出¶

填写导出表单:

字段	说明	示例
数据集名称	标识数据集	`客服对话`
文件名称	输出文件名(无扩展名)	`conversations_2024`
文件格式	JSONL、CSV 或 Parquet	`jsonl`
数据格式	当前仅支持 "standard"	`standard`

步骤 3: 执行导出¶

点击"确认导出"创建数据集。

处理流程:

选择 → 配置 → 导出 → 预览 → 下载

导出完成后,可查看预览数据或立即下载。

管理数据集¶

切换到"数据集管理"标签页查看所有导出。

可用操作:

操作	说明
预览	查看前 20 条记录
下载	获取包含数据和元数据的 ZIP
删除	永久删除数据集

数据集列表显示:

列	信息
数据集名称	创建时指定的名称
数据格式	当前为 "standard"
创建时间	导出时间戳

下载文件¶

每个下载的 ZIP 包含:

文件	内容
数据文件	对话数据 (*.jsonl/csv/parquet)
dataset_info.json	数据集元数据和架构

dataset_info.json 结构:

{
  "dataset_name": {
    "file_name": "conversations.jsonl",
    "formatting": "sharegpt",
    "num_samples": 150,
    "columns": {
      "messages": "messages"
    },
    "tags": {
      "role_tag": "role",
      "content_tag": "content",
      "user_tag": "user",
      "assistant_tag": "assistant",
      "function_tag": "function_call",
      "observation_tag": "tool",
      "system_tag": "system"
    }
  }
}

预览数据¶

预览以 JSON 格式显示前 20 条记录。

预览用途:

验证导出了正确的对话
下载前检查数据结构
确认格式符合预期
查看示例消息和工具

使用场景¶

场景	使用方式
模型微调	导出成功对话用于训练
质量分析	导出为 CSV 用表格审查
数据归档	定期导出重要对话备份
性能指标	分析对话模式
数据集创建	构建特定能力的训练集

最佳实践¶

命名规范: 使用描述性、带日期的名称,如 support_conversations_2024_01

导出前检查: 确认选中的对话包含预期内容

选择合适格式: - JSONL 用于训练和通用场景 - CSV 用于表格分析 - Parquet 用于大规模处理

定期备份: 定期导出重要对话

清理数据: 导出前删除测试对话

说明¶

用户隔离: 每个用户仅能看到自己的数据集

排除第1轮: Graph 对话跳过第 1 轮(初始化轮)

格式支持: 当前仅支持 "standard" ShareGPT 格式