对话导出¶
将对话导出为数据集,用于模型训练、分析或备份。
什么是对话导出¶
将对话导出为多种文件格式的结构化数据集,适用于模型微调、对话模式分析或数据归档。
导出 vs 分享:
| 功能 | 导出 | 分享 |
|---|---|---|
| 用途 | 数据集创建 | 公开查看 |
| 格式 | JSONL/CSV/Parquet | 网页 |
| 文件 | 不包含 | 可下载 |
| 使用场景 | 训练、分析 | 协作 |
支持的格式¶
| 格式 | 适用场景 | 文件大小 |
|---|---|---|
| JSONL | 模型训练、易读性 | 中等 |
| CSV | 表格分析 | 最大 |
| Parquet | 大数据处理 | 最小 |
数据结构¶
导出数据遵循 ShareGPT 格式,包含以下字段:
| 字段 | 类型 | 说明 |
|---|---|---|
| data_source | String | 对话类型 (chat/agent/graph) |
| ability | Array | 对话标签 |
| messages | Array | 对话轮次 |
| tools | Array | 使用的工具 |
| model | String | 模型名称 |
| conversation_id | String | 源对话 ID |
消息角色:
| 角色 | 说明 |
|---|---|
| user | 用户输入 |
| assistant | 模型响应(无工具调用) |
| function_call | 模型响应(含工具调用) |
| tool | 工具执行结果 |
| system | 系统提示词(仅第一条) |
格式化规则:
| 规则 | 处理方式 |
|---|---|
| Chat/Agent | 所有轮次合并为一条记录 |
| Graph | 每轮(除第1轮外)成为独立记录 |
| 系统提示词 | 仅保留最后一条,置于首位 |
| 工具 | 去除重复,仅保留唯一工具 |
创建数据集¶
步骤 1: 选择对话¶
从对话页面顶部按钮进入导出管理器。
筛选选项:
| 筛选器 | 可选项 |
|---|---|
| 搜索 | 标题或标签 |
| 日期范围 | 创建时间段 |
| 类型 | chat、agent、graph |
| 状态 | active、favorite、deleted |
选择操作:
- 点击对话切换选中状态
- 使用"全选"选择筛选结果
- 使用"取消全选"清空选择
步骤 2: 配置导出¶
填写导出表单:
| 字段 | 说明 | 示例 |
|---|---|---|
| 数据集名称 | 标识数据集 | 客服对话 |
| 文件名称 | 输出文件名(无扩展名) | conversations_2024 |
| 文件格式 | JSONL、CSV 或 Parquet | jsonl |
| 数据格式 | 当前仅支持 "standard" | standard |
步骤 3: 执行导出¶
点击"确认导出"创建数据集。
处理流程:
导出完成后,可查看预览数据或立即下载。
管理数据集¶
切换到"数据集管理"标签页查看所有导出。
可用操作:
| 操作 | 说明 |
|---|---|
| 预览 | 查看前 20 条记录 |
| 下载 | 获取包含数据和元数据的 ZIP |
| 删除 | 永久删除数据集 |
数据集列表显示:
| 列 | 信息 |
|---|---|
| 数据集名称 | 创建时指定的名称 |
| 数据格式 | 当前为 "standard" |
| 创建时间 | 导出时间戳 |
下载文件¶
每个下载的 ZIP 包含:
| 文件 | 内容 |
|---|---|
| 数据文件 | 对话数据 (*.jsonl/csv/parquet) |
| dataset_info.json | 数据集元数据和架构 |
dataset_info.json 结构:
{
"dataset_name": {
"file_name": "conversations.jsonl",
"formatting": "sharegpt",
"num_samples": 150,
"columns": {
"messages": "messages"
},
"tags": {
"role_tag": "role",
"content_tag": "content",
"user_tag": "user",
"assistant_tag": "assistant",
"function_tag": "function_call",
"observation_tag": "tool",
"system_tag": "system"
}
}
}
预览数据¶
预览以 JSON 格式显示前 20 条记录。
预览用途:
- 验证导出了正确的对话
- 下载前检查数据结构
- 确认格式符合预期
- 查看示例消息和工具
使用场景¶
| 场景 | 使用方式 |
|---|---|
| 模型微调 | 导出成功对话用于训练 |
| 质量分析 | 导出为 CSV 用表格审查 |
| 数据归档 | 定期导出重要对话备份 |
| 性能指标 | 分析对话模式 |
| 数据集创建 | 构建特定能力的训练集 |
最佳实践¶
命名规范: 使用描述性、带日期的名称,如 support_conversations_2024_01
导出前检查: 确认选中的对话包含预期内容
选择合适格式: - JSONL 用于训练和通用场景 - CSV 用于表格分析 - Parquet 用于大规模处理
定期备份: 定期导出重要对话
清理数据: 导出前删除测试对话
说明¶
用户隔离: 每个用户仅能看到自己的数据集
排除第1轮: Graph 对话跳过第 1 轮(初始化轮)
格式支持: 当前仅支持 "standard" ShareGPT 格式