网页解析器 — 用户手册 | YoBench
如何在 YoBench 中使用「网页解析器」模块:网站爬取、AI 页面处理、JSON/CSV 导出、暂停/恢复、代理与速率限制。
「网页解析器」模块的用途
该模块沿内部链接自动遍历网站,提取每个页面的文本,并(可选地)将其交给您选择的 AI 提供商以及提示词处理 —— 把 HTML 转化为结构化数据。输出为 JSON 或 CSV,可直接用于后续处理。适合一次性抓取以及具有复杂提取逻辑的大规模解析任务。
您将获得:
- 自动发现的爬虫 —— 提供起始 URL 和页面上限,模块自行跟随内部链接。
- 逐页 AI 处理 —— 每个页面被发送给 LLM,带上您的提示词与数据模板;结果单独保存。
- JSON/CSV 导出 —— 通过报告中的 下载 按钮。
- Spider-trap 检测 —— 内置循环 URL 检测与路径深度上限(15 段)。
- 代理与鉴权 —— 每个模板可使用所选代理与鉴权配置(请求头、Cookie)。
- 暂停与恢复 —— 任务可中止后继续,不丢失进度。
- 速率控制 —— 每个模板的每秒请求数限制。
- 本地存储 —— 所有页面与结果都保存在 YoBench 数据库中。
- 页面列表的无限滚动 — 大规模抓取(数百页)按需加载,无需翻页。
模板参数
模板是一组可复用的参数。您需要指定:
- 起始 URL —— 入口点。
- 最大页数 ——
max_pages。默认 100,限制任务总规模。 - 速率(req/s) ——
rate_limit。默认 2,限制请求速率。 - AI 已启用 ——
ai_enabled标志。关闭时模块仅保存页面文本,不进行 AI 处理。 - AI 提供商 —— 使用 AI 聊天 注册表中的哪个提供商。
- LLM 提示词 —— 从页面中提取数据的指令。
- 数据模板 —— LLM 应填充的 JSON 框架(
data_template)。 - 输出格式 ——
none/json/csv。 - 代理 (可选) —— 让流量通过代理配置。
- 鉴权配置 (可选) —— 用于鉴权的请求头、Cookie、查询参数。
技术限制(UI 中不可调整):
- 请求使用 fetch API(无 headless 浏览器、不渲染 JavaScript)。仅 JS 渲染的站点解析效果差 —— 此类请使用 Site Audit(基于 Chromium)。
- User-Agent 固定为:
Mozilla/5.0 ... Chrome/120。 - 每个页面的 请求超时 为 30 秒。
- 不遵循 robots.txt —— 请友好对待站点并合理设置 rate limit。
全局设置
模块在中心 设置 区中没有专属条目 —— 所有项目均在模板层面配置。
操作
对任务(job):
- 开始 —— 从模板创建任务:页面队列建立,解析器开始运行。
- 暂停 —— 保存当前队列和 LLM 处理状态。
- 继续 —— 从暂停点恢复。
- 停止 —— 取消任务并清空队列。
- 下载 JSON / CSV —— 导出所有已处理页面的 structured_data。
对页面(page):
- 查看原始文本、LLM 响应与最终 JSON。
状态
任务: queued → running → paused | completed | stopped | error。
页面: crawled → processing → processed | error。
使用流程
1. 创建模板
- 在左侧菜单打开 网页解析器 模块。
- 在 解析模板 标签页点击 创建模板。
- 填入起始 URL、页面上限、速率。
- 启用 AI,选择提供商,撰写提示词与数据模板。
- 选择输出格式(JSON / CSV)或
none(若只需要原始文本)。 - 可选地选择代理与鉴权配置。
- 保存。
2. 启动任务
- 在模板旁点击 开始。新任务以
running状态出现。 - 报告 标签页展示进度:已爬取 / 已处理 / 失败 的页面数。
- 必要时点击 暂停 —— 任务保存到数据库,应用重启后仍存在。
- 继续时点击 继续。
3. 下载结果
对 completed 状态的任务点击 下载 JSON 或 下载 CSV。文件包含每个已处理页面的 structured_data。
4. 查看
- 在报告中打开某一页面 —— 可看到原始文本、LLM 响应与最终 JSON。
- 将 JSON 输入到其他模块(例如导入 Context Manager 或外部脚本)。
下一步
- 配置 AI 提供商 —— 没有它们 AI 处理无法工作(模块仍可仅保存文本)。
- 对需要 JS 渲染的站点,请使用基于 Chromium 的 Site Audit。
- 持续可用性检查请使用 Health Check。
帮助与反馈
希望支持 headless 浏览器、robots.txt 或调度器?通过反馈表单联系我们。