WorkBuddy MCP 配置
添加自定义 Streamable HTTP MCP。配置后新开会话,让 Agent 调用 batch_status 验证连接。
{
"mcpServers": {
"corpus-pipeline": {
"type": "streamable-http",
"url": "https://corpus.phuyu.cloud/mcp"
}
}
}
WorkBuddy 工作空间流程
WorkBuddy 在本机读取当前 workspace 根目录 PDF,上传到远端受控 staging,
调用 process_incoming_batch,再把导出包解压回本机 outputs/。
开始
Step 0
WorkBuddy 只需要远端 MCP 配置和团队 Skill。打开 PDF 文件夹作为 workspace 后,新会话里输入“开始”即可。
添加自定义 Streamable HTTP MCP。配置后新开会话,让 Agent 调用 batch_status 验证连接。
{
"mcpServers": {
"corpus-pipeline": {
"type": "streamable-http",
"url": "https://corpus.phuyu.cloud/mcp"
}
}
}
Skill 定义“开始”的完整动作:上传、批处理、下载、解压。
Agent 只处理当前 workspace 根目录的一层 PDF,不递归扫描。
batch_status
能返回 total、状态分布和 next_actions 才算连接成功。
Normal Run
这些步骤由 WorkBuddy 和远端 MCP 自动完成。只看进度摘要和本机产物。
/upload/pdf,同 hash 重复文件不会重复登记。
process_incoming_batch(mode="real"),自动完成登记、预检、MinerU、清洗、metadata、QC、review。
export_batch 生成可直接下载的 ZIP,包含 Markdown、metadata、QC、review 和 MANIFEST.json。
outputs/。
Local Results
WorkBuddy 完成后,只需要打开当前 workspace 下的 outputs/。
outputs/markdown/清洗后的 Markdown。文件名包含稳定 document_id 和原始文件名。
outputs/review/需要人工复核的 JSON 与 Markdown 摘要。没有复核项时不会生成对应 review 文件。
outputs/metadata/出版物 metadata JSON。缺失或低置信度字段会进入 review。
outputs/qc/机械 QC 报告,记录空 Markdown、缺 content JSON、重复行比例等检查。
outputs/
markdown/
pub_000001__source-name.md
metadata/
pub_000001__source-name.metadata.json
qc/
pub_000001__source-name.qc.json
review/
pub_000001__source-name.review.json
pub_000001__source-name.review.md
MANIFEST.json
README.md
Review Rules
metadata 缺 title、publisher、publication_year。
Markdown 为空、重复行异常、双栏顺序明显混乱。
图片或表格数量与版面预期明显不符。
OCR 质量不足,或 Agent 无法判断。