Corpus Pipeline

WorkBuddy 工作空间流程

PDF 放进文件夹, 输入“开始”。

WorkBuddy 在本机读取当前 workspace 根目录 PDF,上传到远端受控 staging, 调用 process_incoming_batch,再把导出包解压回本机 outputs/

只需要输入 开始

自动处理路径

  1. 1
    本机 workspace 只读取根目录 PDF
  2. 2
    WorkBuddy 上传 进入 corpus/incoming
  3. 3
    远端 MCP 处理 MinerU、清洗、metadata、QC、review
  4. 4
    ZIP 回到本机 解压到 outputs/

Step 0

配置一次,之后只用“开始”。

WorkBuddy 只需要远端 MCP 配置和团队 Skill。打开 PDF 文件夹作为 workspace 后,新会话里输入“开始”即可。

WorkBuddy MCP 配置

添加自定义 Streamable HTTP MCP。配置后新开会话,让 Agent 调用 batch_status 验证连接。

{
  "mcpServers": {
    "corpus-pipeline": {
      "type": "streamable-http",
      "url": "https://corpus.phuyu.cloud/mcp"
    }
  }
}
必须加载 WorkBuddy Skill

Skill 定义“开始”的完整动作:上传、批处理、下载、解压。

工作空间 根目录 PDF

Agent 只处理当前 workspace 根目录的一层 PDF,不递归扫描。

验证方式 batch_status

能返回 total、状态分布和 next_actions 才算连接成功。

Normal Run

“开始”后发生什么。

这些步骤由 WorkBuddy 和远端 MCP 自动完成。只看进度摘要和本机产物。

阶段 执行者 动作
读取 WorkBuddy 本机 只扫描 workspace 根目录的一层 PDF,不递归、不扫桌面或下载目录。
上传 WorkBuddy 本机 POST 到 /upload/pdf,同 hash 重复文件不会重复登记。
处理 远端 MCP 调用 process_incoming_batch(mode="real"),自动完成登记、预检、MinerU、清洗、metadata、QC、review。
导出 远端 MCP export_batch 生成可直接下载的 ZIP,包含 Markdown、metadata、QC、review 和 MANIFEST.json
回写 WorkBuddy 本机 下载 ZIP,解压到当前 workspace 的 outputs/

Local Results

结果应该出现在本机哪里。

WorkBuddy 完成后,只需要打开当前 workspace 下的 outputs/

outputs/markdown/

清洗后的 Markdown。文件名包含稳定 document_id 和原始文件名。

outputs/review/

需要人工复核的 JSON 与 Markdown 摘要。没有复核项时不会生成对应 review 文件。

outputs/metadata/

出版物 metadata JSON。缺失或低置信度字段会进入 review。

outputs/qc/

机械 QC 报告,记录空 Markdown、缺 content JSON、重复行比例等检查。

outputs/
  markdown/
    pub_000001__source-name.md
  metadata/
    pub_000001__source-name.metadata.json
  qc/
    pub_000001__source-name.qc.json
  review/
    pub_000001__source-name.review.json
    pub_000001__source-name.review.md
  MANIFEST.json
  README.md

Review Rules

这些情况不会自动放行。

metadata 缺 title、publisher、publication_year。

Markdown 为空、重复行异常、双栏顺序明显混乱。

图片或表格数量与版面预期明显不符。

OCR 质量不足,或 Agent 无法判断。