Corpus Pipeline

WorkBuddy 工作空间流程

把 PDF 放进文件夹,输入“开始”。

成员不用理解 MCP 工具细节,也不用手动把文件放到服务器。 WorkBuddy 在本机读取当前 workspace 根目录 PDF,上传到远端受控 staging, 调用 process_incoming_batch,再把导出包解压回本机 outputs/

成员只需要输入 开始
本机工作空间、远端 MCP 处理、结果回到本机 outputs 的流程示意
  1. 1本机 workspace 根目录 PDF
  2. 2WorkBuddy 上传到 corpus/incoming
  3. 3远端 MCP 跑 MinerU 管线
  4. 4ZIP 回到本机 outputs/

Step 0

配置一次,之后只用“开始”。

WorkBuddy 需要同时拥有远端 MCP 配置、团队 Skill 和上传口令。口令应放在 WorkBuddy secret 或连接器变量里,不要写进仓库或聊天记录。

WorkBuddy MCP 配置

添加自定义 Streamable HTTP MCP。配置后新开会话,让 Agent 调用 batch_status 验证连接。

{
  "mcpServers": {
    "corpus-pipeline": {
      "type": "streamable-http",
      "url": "https://corpus.phuyu.cloud/mcp"
    }
  }
}
必须加载 WorkBuddy Skill

Skill 定义“开始”的完整动作:上传、批处理、下载、解压。

必须配置 团队上传口令

上传和 export 下载都使用同一团队 token 保护。

验证方式 batch_status

能返回 total、状态分布和 next_actions 才算连接成功。

Normal Run

“开始”后发生什么。

这些步骤由 WorkBuddy 和远端 MCP 自动完成。成员只看进度摘要和本机产物。

阶段 执行者 动作
读取 WorkBuddy 本机 只扫描 workspace 根目录的一层 PDF,不递归、不扫桌面或下载目录。
上传 WorkBuddy 本机 POST 到 /upload/pdf,同 hash 重复文件不会重复登记。
处理 远端 MCP 调用 process_incoming_batch(mode="real"),自动完成登记、预检、MinerU、清洗、metadata、QC、review。
导出 远端 MCP export_batch 生成 ZIP,包含 Markdown、metadata、QC、review 和 MANIFEST.json
回写 WorkBuddy 本机 下载 ZIP,解压到当前 workspace 的 outputs/

Local Results

结果应该出现在本机哪里。

WorkBuddy 完成后,成员只需要打开当前 workspace 下的 outputs/

outputs/markdown/

清洗后的 Markdown。文件名包含稳定 document_id 和原始文件名。

outputs/review/

需要人工复核的 JSON 与 Markdown 摘要。没有复核项时不会生成对应 review 文件。

outputs/metadata/

出版物 metadata JSON。缺失或低置信度字段会进入 review。

outputs/qc/

机械 QC 报告,记录空 Markdown、缺 content JSON、重复行比例等检查。

outputs/
  markdown/
    pub_000001__source-name.md
  metadata/
    pub_000001__source-name.metadata.json
  qc/
    pub_000001__source-name.qc.json
  review/
    pub_000001__source-name.review.json
    pub_000001__source-name.review.md
  MANIFEST.json
  README.md

Review Rules

这些情况不会自动放行。

metadata 缺 title、publisher、publication_year。

Markdown 为空、重复行异常、双栏顺序明显混乱。

图片或表格数量与版面预期明显不符。

OCR 质量不足,或 Agent 无法判断。

Fallback

备用上传入口。

只有 WorkBuddy 当前版本不能自动读取 workspace 或不能自动发 HTTP 请求时,才使用这里的网页上传。上传后仍由远端 MCP 批处理。

网页手动上传到受控 staging

文件会进入服务器的 corpus/incoming,不会覆盖 raw PDF。正式流程仍应优先使用 WorkBuddy 自动桥接。

Downloads

下载正确的包。

优先安装 WorkBuddy Skill 包;其他文件用于配置模板、备用上传或本地 stdio fallback。