配置一次
安装 WorkBuddy Skill,添加 Streamable HTTP MCP:https://corpus.phuyu.cloud/mcp,并配置团队上传口令。
Batch-First MCP Pipeline · corpus.phuyu.cloud/mcp
小组成员把所有 PDF 放进一个本机文件夹,作为 WorkBuddy workspace 打开。输入“开始”后, WorkBuddy 自动上传、调用远端 MCP、运行 MinerU 管线,并把 Markdown 与复核档案下载回本机。
Quick Start
远端 MCP 不能主动读取成员电脑硬盘;WorkBuddy 根据 Skill 在本机 workspace 根目录读取 PDF,自动上传到受控 staging,再调用远端 MCP 批处理,最后把导出包解压回本机 outputs/。
安装 WorkBuddy Skill,添加 Streamable HTTP MCP:https://corpus.phuyu.cloud/mcp,并配置团队上传口令。
把待加工 PDF 全部放在一个本机文件夹根目录,用 WorkBuddy 把这个文件夹作为 workspace 打开。
WorkBuddy 扫描根目录 PDF,自动上传,调用 process_incoming_batch,无需成员手动操作 MCP。
处理完成后,本机出现 outputs/markdown、outputs/review、outputs/metadata、outputs/qc。
开始
Fallback Intake
默认应让 WorkBuddy 自动完成上传。只有当前客户端不能读取 workspace 或不能自动发 HTTP 请求时,才使用这个网页表单作为备用入口。
在 WorkBuddy 里添加远端 Streamable HTTP MCP:https://corpus.phuyu.cloud/mcp。
安装团队 Skill,让 WorkBuddy 知道“开始”代表上传、处理、导出和下载,不需要成员记工具名。
PDF 放在 workspace 根目录;WorkBuddy 只读取这一层,不递归、不扫桌面或下载目录。
远端导出的 ZIP 会被 WorkBuddy 下载并解压到本机 outputs/。
Setup
线上服务器已部署在 https://corpus.phuyu.cloud/mcp(健康检查 /health)。支持远程 MCP 的客户端选择 Streamable HTTP;只支持本地 stdio 的客户端请下载本地服务器包。
图形界面:连接器 → 管理连接器 → 自定义连接器 → 配置 MCP,粘贴如下 JSON。保存后配置团队上传口令为 secret,新开 Agent 会话并调用 batch_status 验证。
{
"mcpServers": {
"corpus-pipeline": {
"type": "streamable-http",
"url": "https://corpus.phuyu.cloud/mcp"
}
}
}
如果 WorkBuddy 使用文件配置,放入配置包里的 workbuddy.mcp.json,再按客户端要求重启。
Codex 版本差异较大。优先在设置里添加远程 MCP;如果使用 TOML 配置,可参考配置包中的模板:
[mcp_servers.corpus-pipeline]
transport = "streamable-http"
url = "https://corpus.phuyu.cloud/mcp"
enabled = true
如果当前 Codex 只支持本地 stdio MCP,下载本地服务器包后用 python -m mcp_server.server 作为本地命令。
连接成功的判断标准不是“配置文件存在”,而是 Agent 能实际调用 batch_status,并返回文档数量、状态分布、next_actions。
MCP 提供远端处理工具,Skill 负责让 WorkBuddy 理解“开始”的完整含义:只读当前 workspace 根目录 PDF、自动上传、调用批处理、下载 export ZIP 并解压到本机 outputs。
下载 WorkBuddy Skill 包。如果客户端支持导入 zip,直接导入;否则把其中的 SKILL.md 放入对应 Skill 目录。
How It Works
成员只输入“开始”;WorkBuddy 在背后用受控 HTTP 上传本机 PDF,再用远端 MCP 按状态机逐个推进。了解原理有助于排错和复核。
只读取 workspace 根目录 PDF,通过受控上传端点送入远端 corpus/incoming。
登记 staging、逐文档预检、自动选 profile、跑 MinerU、清洗、metadata、QC、review。
只扫描 corpus/incoming,分配 pub_000001 稳定 ID,按 source hash 幂等跳过重复文件。
读页数、文本层密度、hash、疑似扫描件。born-digital 用 baseline,扫描件用 OCR。
只传 profile:baseline_auto_v1 / ocr_scan_v1 / debug_page_range_v1。Agent 不暴露命令行。
生成 clean.md、metadata.json、qc.json。无法确认的字段标 review_required,不让 Agent 猜。
打包 Markdown、metadata、QC、review 和 MANIFEST,返回受控下载 URL。
WorkBuddy 下载 export ZIP,解压到 workspace 的 outputs/,成员直接查看本机产物。
Delivery & Review
批量流水线跑完后,Agent 会给出汇总。以下清单帮你确认交付质量。
Review Queue
metadata 缺 title、publisher、publication_year,或 confidence 低于团队阈值。
Markdown 为空、重复行比例异常、双栏顺序混乱、页码或章节明显错位。
图片、表格数量与版面预期明显不符,或 OCR 质量不足以直接入库。
成员无法判断时,不让 Agent 猜结论;保留证据并创建 review task。
document_id: pub_000001
current_status: qc_done | review_required | approved
agent_entry: corpus-pipeline MCP
mineru_profile: baseline_auto_v1
job_id: job_000001
artifacts:
clean_markdown: corpus/cleaned/pub_000001.clean.md
metadata: corpus/metadata/pub_000001.metadata.json
qc: corpus/qc/pub_000001.qc.json
review:
required: true
reason: Missing publication_year
next_action: human reviewer checks title page
Downloads
不要把“工作流指令”“MCP 客户端配置”“本地服务器代码”混在一起安装。每个包都带 README,先读再合并到你的客户端。
单个 Markdown 文件。说明 WorkBuddy 如何把“开始”解释为本机上传、远端 MCP 批处理、下载 outputs。
MD主推荐包。ZIP 内含 corpus-pipeline/SKILL.md、MCP JSON 模板和 README,让成员只需输入“开始”。
ZIP 内含 WorkBuddy JSON、Codex TOML 示例、通用 Streamable HTTP 配置和本地 stdio 模板。
ZIP备用脚本。WorkBuddy 不能自动上传时使用;正常流程由 Skill 在 workspace 中自动完成。
PYZIP 只有一个根目录,含 README.md、mcp_server/、pipeline/、docs 和 requirements。
# 1. 下载并解压
unzip corpus-pipeline-mcp-server.zip -d corpus-pipeline
# 2. 安装依赖(需要 Python ≥ 3.11)
cd corpus-pipeline/corpus-pipeline-mcp-server
python3 -m venv .venv
.venv/bin/pip install -r requirements.txt
# 3. 启动 MCP 服务器(stdio 模式,供本地 Agent 调用)
.venv/bin/python -m mcp_server.server
# 4. 或启动为线上服务器
.venv/bin/python -m mcp_server.server --transport streamable-http --port 8000
# 备用:本机批量上传到线上 staging
CORPUS_UPLOAD_TOKEN=团队口令 python3 corpus-pipeline-upload-pdfs.py ./pdfs