网页解析器 — 用户手册 | YoBench

「网页解析器」模块的用途

该模块沿内部链接自动遍历网站,提取每个页面的文本,并(可选地)将其交给您选择的 AI 提供商以及提示词处理 —— 把 HTML 转化为结构化数据。输出为 JSON 或 CSV,可直接用于后续处理。适合一次性抓取以及具有复杂提取逻辑的大规模解析任务。

您将获得:

自动发现的爬虫 —— 提供起始 URL 和页面上限,模块自行跟随内部链接。
逐页 AI 处理 —— 每个页面被发送给 LLM,带上您的提示词与数据模板;结果单独保存。
JSON/CSV 导出 —— 通过报告中的下载按钮。
Spider-trap 检测 —— 内置循环 URL 检测与路径深度上限(15 段)。
代理与鉴权 —— 每个模板可使用所选代理与鉴权配置(请求头、Cookie)。
暂停与恢复 —— 任务可中止后继续,不丢失进度。
速率控制 —— 每个模板的每秒请求数限制。
本地存储 —— 所有页面与结果都保存在 YoBench 数据库中。
页面列表的无限滚动 — 大规模抓取(数百页)按需加载,无需翻页。

模板参数

模板是一组可复用的参数。您需要指定:

起始 URL —— 入口点。
最大页数 —— max_pages。默认 100,限制任务总规模。
速率(req/s) —— rate_limit。默认 2,限制请求速率。
AI 已启用 —— ai_enabled 标志。关闭时模块仅保存页面文本,不进行 AI 处理。
AI 提供商 —— 使用 AI 聊天注册表中的哪个提供商。
LLM 提示词 —— 从页面中提取数据的指令。
数据模板 —— LLM 应填充的 JSON 框架(data_template)。
输出格式 —— none / json / csv。
代理 (可选) —— 让流量通过代理配置。
鉴权配置 (可选) —— 用于鉴权的请求头、Cookie、查询参数。

技术限制(UI 中不可调整):

请求使用 fetch API(无 headless 浏览器、不渲染 JavaScript)。仅 JS 渲染的站点解析效果差 —— 此类请使用 Site Audit(基于 Chromium)。
User-Agent 固定为:Mozilla/5.0 ... Chrome/120。
每个页面的 请求超时 为 30 秒。
不遵循 robots.txt —— 请友好对待站点并合理设置 rate limit。

全局设置

模块在中心设置区中没有专属条目 —— 所有项目均在模板层面配置。

操作

对任务(job):

开始 —— 从模板创建任务:页面队列建立,解析器开始运行。
暂停 —— 保存当前队列和 LLM 处理状态。
继续 —— 从暂停点恢复。
停止 —— 取消任务并清空队列。
下载 JSON / CSV —— 导出所有已处理页面的 structured_data。

对页面(page):

查看原始文本、LLM 响应与最终 JSON。

状态

任务: queued → running → paused | completed | stopped | error。

页面: crawled → processing → processed | error。

使用流程

1. 创建模板

在左侧菜单打开 网页解析器 模块。
在 解析模板 标签页点击 创建模板。
填入起始 URL、页面上限、速率。
启用 AI,选择提供商,撰写提示词与数据模板。
选择输出格式(JSON / CSV)或 none(若只需要原始文本)。
可选地选择代理与鉴权配置。
保存。

2. 启动任务

在模板旁点击开始。新任务以 running 状态出现。
报告标签页展示进度:已爬取 / 已处理 / 失败的页面数。
必要时点击暂停 —— 任务保存到数据库,应用重启后仍存在。
继续时点击继续。

3. 下载结果

对 completed 状态的任务点击 下载 JSON 或 下载 CSV。文件包含每个已处理页面的 structured_data。

4. 查看

在报告中打开某一页面 —— 可看到原始文本、LLM 响应与最终 JSON。
将 JSON 输入到其他模块(例如导入 Context Manager 或外部脚本)。

下一步

配置 AI 提供商 —— 没有它们 AI 处理无法工作(模块仍可仅保存文本)。
对需要 JS 渲染的站点,请使用基于 Chromium 的 Site Audit。
持续可用性检查请使用 Health Check。

帮助与反馈

希望支持 headless 浏览器、robots.txt 或调度器?通过反馈表单联系我们。