WorkBuddy MCP 配置
添加自定义 Streamable HTTP MCP。配置后新开会话,让 Agent 调用 batch_status 验证连接。
{
"mcpServers": {
"corpus-pipeline": {
"type": "streamable-http",
"url": "https://corpus.phuyu.cloud/mcp"
}
}
}
WorkBuddy 工作空间流程
成员不用理解 MCP 工具细节,也不用手动把文件放到服务器。
WorkBuddy 在本机读取当前 workspace 根目录 PDF,上传到远端受控 staging,
调用 process_incoming_batch,再把导出包解压回本机 outputs/。
开始
corpus/incomingoutputs/Step 0
WorkBuddy 需要同时拥有远端 MCP 配置、团队 Skill 和上传口令。口令应放在 WorkBuddy secret 或连接器变量里,不要写进仓库或聊天记录。
添加自定义 Streamable HTTP MCP。配置后新开会话,让 Agent 调用 batch_status 验证连接。
{
"mcpServers": {
"corpus-pipeline": {
"type": "streamable-http",
"url": "https://corpus.phuyu.cloud/mcp"
}
}
}
Skill 定义“开始”的完整动作:上传、批处理、下载、解压。
上传和 export 下载都使用同一团队 token 保护。
batch_status
能返回 total、状态分布和 next_actions 才算连接成功。
Normal Run
这些步骤由 WorkBuddy 和远端 MCP 自动完成。成员只看进度摘要和本机产物。
/upload/pdf,同 hash 重复文件不会重复登记。
process_incoming_batch(mode="real"),自动完成登记、预检、MinerU、清洗、metadata、QC、review。
export_batch 生成 ZIP,包含 Markdown、metadata、QC、review 和 MANIFEST.json。
outputs/。
Local Results
WorkBuddy 完成后,成员只需要打开当前 workspace 下的 outputs/。
outputs/markdown/清洗后的 Markdown。文件名包含稳定 document_id 和原始文件名。
outputs/review/需要人工复核的 JSON 与 Markdown 摘要。没有复核项时不会生成对应 review 文件。
outputs/metadata/出版物 metadata JSON。缺失或低置信度字段会进入 review。
outputs/qc/机械 QC 报告,记录空 Markdown、缺 content JSON、重复行比例等检查。
outputs/
markdown/
pub_000001__source-name.md
metadata/
pub_000001__source-name.metadata.json
qc/
pub_000001__source-name.qc.json
review/
pub_000001__source-name.review.json
pub_000001__source-name.review.md
MANIFEST.json
README.md
Review Rules
metadata 缺 title、publisher、publication_year。
Markdown 为空、重复行异常、双栏顺序明显混乱。
图片或表格数量与版面预期明显不符。
OCR 质量不足,或 Agent 无法判断。
Fallback
只有 WorkBuddy 当前版本不能自动读取 workspace 或不能自动发 HTTP 请求时,才使用这里的网页上传。上传后仍由远端 MCP 批处理。
文件会进入服务器的 corpus/incoming,不会覆盖 raw PDF。正式流程仍应优先使用 WorkBuddy 自动桥接。
Downloads
优先安装 WorkBuddy Skill 包;其他文件用于配置模板、备用上传或本地 stdio fallback。