WorkBuddy 工作空间流程
PDF/EPUB 放进文件夹,
输入“开始”。
WorkBuddy 在本机读取当前 workspace 根目录 PDF/EPUB,上传后用本次 staged_path
调用 process_incoming_batch,再把导出包解压回本机 outputs/。
只需要输入
开始
Skill 管理器选择“从仓库添加”后粘贴仓库地址;不支持仓库载入时再使用 ZIP。
自动处理路径
-
1
本机 workspace
只读取根目录 PDF/EPUB
-
2
WorkBuddy 上传
进入 corpus/incoming
-
3
远端 MCP 处理
MinerU、清洗、metadata、QC、review
-
4
ZIP 回到本机
解压到 outputs/
Step 0
配置一次,之后只用“开始”。
WorkBuddy 只需要远端 MCP 配置和 WorkBuddy Skill。打开 PDF/EPUB 文件夹作为 workspace 后,新会话里输入“开始”即可。
WorkBuddy Skill 安装
优先在 Skill 管理器选择“从仓库添加”,粘贴下面的仓库地址。ZIP 下载仍保留给不支持仓库载入的版本。
https://corpus.phuyu.cloud/skill-repository/corpus-pipeline.git
WorkBuddy MCP 配置
添加自定义 Streamable HTTP MCP。配置后新开会话,让 Agent 调用 batch_status 验证连接;“开始”目标始终来自当前 workspace。
{
"mcpServers": {
"corpus-pipeline": {
"type": "streamable-http",
"url": "https://corpus.phuyu.cloud/mcp"
}
}
}
必须加载
WorkBuddy Skill
Skill 定义“开始”的完整动作:上传、批处理、下载、解压。
工作空间
根目录 PDF/EPUB
Agent 只处理当前 workspace 根目录的一层 PDF/EPUB,不递归扫描。
验证方式
batch_status
能返回 total、状态分布和 next_actions 才算连接成功。
Normal Run
“开始”后发生什么。
这些步骤由 WorkBuddy 和远端 MCP 自动完成。只看进度摘要和本机产物。
阶段
执行者
动作
读取
WorkBuddy 本机
只扫描 workspace 根目录的一层 PDF/EPUB,不递归、不扫桌面或下载目录。
上传
WorkBuddy 本机
POST 到 /upload/source,记录本次返回的 staged_path。
处理
远端 MCP
调用 process_incoming_batch(..., staged_paths=[本次上传]),只处理当前 workspace 对应批次。
导出
远端 MCP
export_batch 生成可直接下载的 ZIP,包含 Markdown、图片资产、metadata、QC、review 和 MANIFEST.json。
回写
WorkBuddy 本机
下载 ZIP,解压到当前 workspace 的 outputs/。
Local Results
结果应该出现在本机哪里。
WorkBuddy 完成后,只需要打开当前 workspace 下的 outputs/。
outputs/markdown/
清洗后的 Markdown。引用图片时会指向同级 outputs/assets/。
outputs/assets/
Markdown 引用的图片资产,按文档分目录保存。移动结果时和 markdown/ 一起保留。
outputs/review/
需要人工复核的 JSON 与 Markdown 摘要。没有复核项时不会生成对应 review 文件。
outputs/metadata/
出版物 metadata JSON。缺失或低置信度字段会进入 review。
outputs/qc/
机械 QC 报告,记录空 Markdown、缺 content JSON、重复行比例等检查。
outputs/
markdown/
pub_000001__source-name.md
assets/
pub_000001__source-name/
images/
figure_001.png
metadata/
pub_000001__source-name.metadata.json
qc/
pub_000001__source-name.qc.json
review/
pub_000001__source-name.review.json
pub_000001__source-name.review.md
MANIFEST.json
README.md
metadata 缺 title、publisher、publication_year。
Markdown 为空、重复行异常、双栏顺序明显混乱。
图片或表格数量与版面预期明显不符。
OCR 质量不足,或 Agent 无法判断。