下载
RU EN DE FR ES PT 中文

网页解析器 — 用户手册 | YoBench

如何在 YoBench 中使用「网页解析器」模块:网站爬取、AI 页面处理、JSON/CSV 导出、暂停/恢复、代理与速率限制。

「网页解析器」模块的用途

该模块沿内部链接自动遍历网站,提取每个页面的文本,并(可选地)将其交给您选择的 AI 提供商以及提示词处理 —— 把 HTML 转化为结构化数据。输出为 JSON 或 CSV,可直接用于后续处理。适合一次性抓取以及具有复杂提取逻辑的大规模解析任务。

您将获得:

  • 自动发现的爬虫 —— 提供起始 URL 和页面上限,模块自行跟随内部链接。
  • 逐页 AI 处理 —— 每个页面被发送给 LLM,带上您的提示词与数据模板;结果单独保存。
  • JSON/CSV 导出 —— 通过报告中的 下载 按钮。
  • Spider-trap 检测 —— 内置循环 URL 检测与路径深度上限(15 段)。
  • 代理与鉴权 —— 每个模板可使用所选代理与鉴权配置(请求头、Cookie)。
  • 暂停与恢复 —— 任务可中止后继续,不丢失进度。
  • 速率控制 —— 每个模板的每秒请求数限制。
  • 本地存储 —— 所有页面与结果都保存在 YoBench 数据库中。
  • 页面列表的无限滚动 — 大规模抓取(数百页)按需加载,无需翻页。

模板参数

模板是一组可复用的参数。您需要指定:

  • 起始 URL —— 入口点。
  • 最大页数 —— max_pages。默认 100,限制任务总规模。
  • 速率(req/s) —— rate_limit。默认 2,限制请求速率。
  • AI 已启用 —— ai_enabled 标志。关闭时模块仅保存页面文本,不进行 AI 处理。
  • AI 提供商 —— 使用 AI 聊天 注册表中的哪个提供商。
  • LLM 提示词 —— 从页面中提取数据的指令。
  • 数据模板 —— LLM 应填充的 JSON 框架(data_template)。
  • 输出格式 —— none / json / csv
  • 代理 (可选) —— 让流量通过代理配置。
  • 鉴权配置 (可选) —— 用于鉴权的请求头、Cookie、查询参数。

技术限制(UI 中不可调整):

  • 请求使用 fetch API(无 headless 浏览器、不渲染 JavaScript)。仅 JS 渲染的站点解析效果差 —— 此类请使用 Site Audit(基于 Chromium)。
  • User-Agent 固定为:Mozilla/5.0 ... Chrome/120
  • 每个页面的 请求超时 为 30 秒。
  • 不遵循 robots.txt —— 请友好对待站点并合理设置 rate limit。

全局设置

模块在中心 设置 区中没有专属条目 —— 所有项目均在模板层面配置。

操作

对任务(job):

  • 开始 —— 从模板创建任务:页面队列建立,解析器开始运行。
  • 暂停 —— 保存当前队列和 LLM 处理状态。
  • 继续 —— 从暂停点恢复。
  • 停止 —— 取消任务并清空队列。
  • 下载 JSON / CSV —— 导出所有已处理页面的 structured_data。

对页面(page):

  • 查看原始文本、LLM 响应与最终 JSON。

状态

任务: queuedrunningpaused | completed | stopped | error

页面: crawledprocessingprocessed | error

使用流程

1. 创建模板

  1. 在左侧菜单打开 网页解析器 模块。
  2. 解析模板 标签页点击 创建模板
  3. 填入起始 URL、页面上限、速率。
  4. 启用 AI,选择提供商,撰写提示词与数据模板。
  5. 选择输出格式(JSON / CSV)或 none(若只需要原始文本)。
  6. 可选地选择代理与鉴权配置。
  7. 保存。

2. 启动任务

  1. 在模板旁点击 开始。新任务以 running 状态出现。
  2. 报告 标签页展示进度:已爬取 / 已处理 / 失败 的页面数。
  3. 必要时点击 暂停 —— 任务保存到数据库,应用重启后仍存在。
  4. 继续时点击 继续

3. 下载结果

completed 状态的任务点击 下载 JSON下载 CSV。文件包含每个已处理页面的 structured_data

4. 查看

  • 在报告中打开某一页面 —— 可看到原始文本、LLM 响应与最终 JSON。
  • 将 JSON 输入到其他模块(例如导入 Context Manager 或外部脚本)。

下一步

  • 配置 AI 提供商 —— 没有它们 AI 处理无法工作(模块仍可仅保存文本)。
  • 对需要 JS 渲染的站点,请使用基于 Chromium 的 Site Audit
  • 持续可用性检查请使用 Health Check

帮助与反馈

希望支持 headless 浏览器、robots.txt 或调度器?通过反馈表单联系我们