register_batch
传入一个 PDF 目录路径,Agent 自动扫描所有 .pdf 并分配 pub_000001 等稳定 ID。已登记的自动跳过。
Batch-First MCP Pipeline · corpus.phuyu.cloud/mcp
Agent 通过 MCP 调用 13 个受控工具,自动完成登记、预检、MinerU 转换、Markdown 清洗、 元数据提取、QC 质检、人工复核的全流程。不碰 shell,不手拼命令,不改 raw PDF。
Quick Start
连上 corpus-pipeline MCP 后,把下面这段话发给 Agent,它就会自动扫描目录、登记新文件、并行推进所有文档直至 QC 完成。
请批量处理 /data/new_publications 目录下的全部 PDF。
先调用 register_batch 登记新文件,
再对每个新登记的 document_id 调用 run_pipeline(profile=baseline_auto_v1),
最后用 batch_status 汇总全量结果,
把需要人工复核的文档列出来。
传入一个 PDF 目录路径,Agent 自动扫描所有 .pdf 并分配 pub_000001 等稳定 ID。已登记的自动跳过。
端到端单文档全自动:inspect → mineru → normalize → metadata → QC。mock 模式毫秒级返回,适合测试和批量验证。
全量进度总览:每个状态多少文档、每个文档到哪一步、next_actions 智能建议下一步该做什么。
QC 未通过的自动进入 review。Agent 汇总待复核清单,人类只需审核 title、publisher、year 三个字段。
Setup
线上服务器已部署在 https://corpus.phuyu.cloud/mcp(健康检查 /health)。任何 Agent 工具只需选择 Streamable HTTP 传输,填入这个 URL 即可。
图形界面:连接器 → 管理连接器 → 自定义连接器 → 配置 MCP,粘贴如下 JSON:
{
"mcpServers": {
"corpus-pipeline": {
"type": "streamable-http",
"url": "https://corpus.phuyu.cloud/mcp"
}
}
}
或者直接编辑 ~/.workbuddy/mcp.json,保存后重启。
编辑 ~/.codex/config.toml:
[mcp_servers.corpus-pipeline]
transport = "http"
url = "https://corpus.phuyu.cloud/mcp"
enabled = true
default_tools_approval_mode = "auto"
macOS / Linux 路径 ~/.codex/config.toml;Windows 路径 %USERPROFILE%\.codex\config.toml。
Claude Desktop、Cursor、VS Code 等工具同理 — 全部使用 Streamable HTTP + https://corpus.phuyu.cloud/mcp。本地开发可用 python -m mcp_server.server(默认 stdio)。
How It Works
批量模式的 run_pipeline 内部复用了下面这些步骤。了解原理有助于排错和深度定制。
看队列。哪个文档在哪一步,需要新登记还是继续推进。
新 PDF 分配 pub_000001 稳定 ID,记录 hash、rights_status。批量版一键扫目录。
读页数、文本层密度、hash、疑似扫描件。决定用哪个 MinerU profile。
只传 profile:baseline_auto_v1 / ocr_scan_v1 / debug_page_range_v1。Agent 不暴露命令行。
查看 queued → running → mineru_done / failed。失败时先读 log,不无记录重跑。
拿产物 URI:output.md、content.json、layout.json、images、tables、logs、manifest。
生成 clean.md + metadata.json。无法确认的字段标 review_required,不要猜。
QC 检查完整性、重复行、metadata 字段。未通过的进入人工复核。
Delivery & Review
批量流水线跑完后,Agent 会给出汇总。以下清单帮你确认交付质量。
Review Queue
metadata 缺 title、publisher、publication_year,或 confidence 低于团队阈值。
Markdown 为空、重复行比例异常、双栏顺序混乱、页码或章节明显错位。
图片、表格数量与版面预期明显不符,或 OCR 质量不足以直接入库。
成员无法判断时,不让 Agent 猜结论;保留证据并创建 review task。
document_id: pub_000001
current_status: qc_done | review_required | approved
agent_entry: corpus-pipeline MCP
mineru_profile: baseline_auto_v1
job_id: job_000001
artifacts:
clean_markdown: corpus/cleaned/pub_000001.clean.md
metadata: corpus/metadata/pub_000001.metadata.json
qc: corpus/qc/pub_000001.qc.json
review:
required: true
reason: Missing publication_year
next_action: human reviewer checks title page