mirror of
https://github.com/simstudioai/sim.git
synced 2026-02-09 14:14:57 -05:00
179 lines
7.4 KiB
Plaintext
179 lines
7.4 KiB
Plaintext
---
|
||
title: Firecrawl
|
||
description: 抓取、搜索、爬取、映射并提取网页数据
|
||
---
|
||
|
||
import { BlockInfoCard } from "@/components/ui/block-info-card"
|
||
|
||
<BlockInfoCard
|
||
type="firecrawl"
|
||
color="#181C1E"
|
||
/>
|
||
|
||
{/* MANUAL-CONTENT-START:intro */}
|
||
[Firecrawl](https://firecrawl.dev/) 是一个强大的网页抓取和内容提取 API,可以无缝集成到 Sim 中,帮助开发者从任何网站提取干净、结构化的内容。通过这种集成,您可以轻松地将网页转换为 Markdown 和 HTML 等可用的数据格式,同时保留重要内容。
|
||
|
||
在 Sim 中使用 Firecrawl,您可以:
|
||
|
||
- **提取干净的内容**:移除广告、导航元素和其他干扰,只保留主要内容
|
||
- **转换为结构化格式**:将网页转换为 Markdown、HTML 或 JSON
|
||
- **捕获元数据**:提取 SEO 元数据、Open Graph 标签和其他页面信息
|
||
- **处理依赖 JavaScript 的网站**:从依赖 JavaScript 的现代 Web 应用中处理内容
|
||
- **过滤内容**:使用 CSS 选择器专注于页面的特定部分
|
||
- **大规模处理**:通过可靠的 API 满足高容量抓取需求
|
||
- **搜索网络**:执行智能网络搜索并获取结构化结果
|
||
- **抓取整个网站**:抓取网站的多个页面并汇总其内容
|
||
|
||
在 Sim 中,Firecrawl 集成使您的代理能够以编程方式访问和处理 Web 内容,作为其工作流程的一部分。支持的操作包括:
|
||
|
||
- **抓取**:从单个网页提取结构化内容(Markdown、HTML、元数据)。
|
||
- **搜索**:使用 Firecrawl 的智能搜索功能在网络上搜索信息。
|
||
- **抓取**:抓取网站的多个页面,返回每个页面的结构化内容和元数据。
|
||
|
||
这使您的代理能够从网站收集信息,提取结构化数据,并利用这些信息做出决策或生成洞察——无需处理复杂的原始 HTML 解析或浏览器自动化。只需使用您的 API 密钥配置 Firecrawl 模块,选择操作(抓取、搜索或抓取),并提供相关参数。您的代理即可立即开始以干净、结构化的格式处理 Web 内容。
|
||
{/* MANUAL-CONTENT-END */}
|
||
|
||
## 使用说明
|
||
|
||
将 Firecrawl 集成到工作流程中。使用 AI 抓取页面、搜索网络、爬取整个网站、映射 URL 结构并提取结构化数据。
|
||
|
||
## 工具
|
||
|
||
### `firecrawl_scrape`
|
||
|
||
从网页中提取结构化内容,并支持全面的元数据。将内容转换为 Markdown 或 HTML,同时捕获 SEO 元数据、Open Graph 标签和页面信息。
|
||
|
||
#### 输入
|
||
|
||
| 参数 | 类型 | 必需 | 描述 |
|
||
| --------- | ---- | -------- | ----------- |
|
||
| `url` | string | 是 | 要抓取内容的 URL |
|
||
| `scrapeOptions` | json | 否 | 内容抓取选项 |
|
||
| `apiKey` | string | 是 | Firecrawl API 密钥 |
|
||
|
||
#### 输出
|
||
|
||
| 参数 | 类型 | 描述 |
|
||
| --------- | ---- | ----------- |
|
||
| `markdown` | string | Markdown 格式的页面内容 |
|
||
| `html` | string | 页面原始 HTML 内容 |
|
||
| `metadata` | object | 包括 SEO 和 Open Graph 信息的页面元数据 |
|
||
|
||
### `firecrawl_search`
|
||
|
||
使用 Firecrawl 在网络上搜索信息
|
||
|
||
#### 输入
|
||
|
||
| 参数 | 类型 | 必需 | 描述 |
|
||
| --------- | ---- | -------- | ----------- |
|
||
| `query` | string | 是 | 要使用的搜索查询 |
|
||
| `apiKey` | string | 是 | Firecrawl API 密钥 |
|
||
|
||
#### 输出
|
||
|
||
| 参数 | 类型 | 描述 |
|
||
| --------- | ---- | ----------- |
|
||
| `data` | array | 搜索结果数据 |
|
||
|
||
### `firecrawl_crawl`
|
||
|
||
抓取整个网站并从所有可访问页面提取结构化内容
|
||
|
||
#### 输入
|
||
|
||
| 参数 | 类型 | 必需 | 描述 |
|
||
| --------- | ---- | -------- | ----------- |
|
||
| `url` | string | 是 | 要爬取的网站 URL |
|
||
| `limit` | number | 否 | 要爬取的最大页面数 \(默认值:100\) |
|
||
| `onlyMainContent` | boolean | 否 | 仅提取页面的主要内容 |
|
||
| `apiKey` | string | 是 | Firecrawl API 密钥 |
|
||
|
||
#### 输出
|
||
|
||
| 参数 | 类型 | 描述 |
|
||
| --------- | ---- | ----------- |
|
||
| `pages` | array | 包含抓取页面内容和元数据的数组 |
|
||
|
||
### `firecrawl_map`
|
||
|
||
快速可靠地从任何网站获取完整的 URL 列表。适用于在不进行爬取的情况下发现网站上的所有页面。
|
||
|
||
#### 输入
|
||
|
||
| 参数 | 类型 | 必需 | 描述 |
|
||
| --------- | ---- | -------- | ----------- |
|
||
| `url` | string | 是 | 要映射并发现链接的基础 URL |
|
||
| `search` | string | 否 | 按与搜索词的相关性过滤结果 \(例如:"blog"\) |
|
||
| `sitemap` | string | 否 | 控制站点地图的使用:"skip"、"include" \(默认值\) 或 "only" |
|
||
| `includeSubdomains` | boolean | 否 | 是否包含子域名的 URL \(默认值:true\) |
|
||
| `ignoreQueryParameters` | boolean | 否 | 排除包含查询字符串的 URL \(默认值:true\) |
|
||
| `limit` | number | 否 | 返回的最大链接数 \(最大值:100,000,默认值:5,000\) |
|
||
| `timeout` | number | 否 | 请求超时时间(毫秒) |
|
||
| `location` | json | 否 | 用于代理的地理上下文 \(国家、语言\) |
|
||
| `apiKey` | string | 是 | Firecrawl API 密钥 |
|
||
|
||
#### 输出
|
||
|
||
| 参数 | 类型 | 描述 |
|
||
| --------- | ---- | ----------- |
|
||
| `success` | boolean | 映射操作是否成功 |
|
||
| `links` | array | 从网站发现的 URL 数组 |
|
||
|
||
### `firecrawl_extract`
|
||
|
||
使用自然语言提示和 JSON 架构从整个网页中提取结构化数据。强大的智能数据提取功能。
|
||
|
||
#### 输入
|
||
|
||
| 参数 | 类型 | 必需 | 描述 |
|
||
| --------- | ---- | -------- | ----------- |
|
||
| `urls` | json | 是 | 要提取数据的 URL 数组 \(支持 glob 格式\) |
|
||
| `prompt` | string | 否 | 提取过程的自然语言指导 |
|
||
| `schema` | json | 否 | 定义要提取数据结构的 JSON 架构 |
|
||
| `enableWebSearch` | boolean | 否 | 启用网络搜索以查找补充信息 \(默认值:false\) |
|
||
| `ignoreSitemap` | boolean | 否 | 扫描时忽略 sitemap.xml 文件 \(默认值:false\) |
|
||
| `includeSubdomains` | boolean | 否 | 扩展扫描到子域名 \(默认值:true\) |
|
||
| `showSources` | boolean | 否 | 在响应中返回数据源 \(默认值:false\) |
|
||
| `ignoreInvalidURLs` | boolean | 否 | 跳过数组中的无效 URL \(默认值:true\) |
|
||
| `scrapeOptions` | json | 否 | 高级抓取配置选项 |
|
||
| `apiKey` | string | 是 | Firecrawl API 密钥 |
|
||
|
||
#### 输出
|
||
|
||
| 参数 | 类型 | 描述 |
|
||
| --------- | ---- | ----------- |
|
||
| `success` | boolean | 提取操作是否成功 |
|
||
| `data` | object | 根据模式或提示提取的结构化数据 |
|
||
|
||
### `firecrawl_agent`
|
||
|
||
自主网页数据提取代理。根据自然语言提示进行搜索和信息收集,无需指定具体 URL。
|
||
|
||
#### 输入
|
||
|
||
| 参数 | 类型 | 必需 | 描述 |
|
||
| --------- | ---- | -------- | ----------- |
|
||
| `prompt` | string | 是 | 要提取数据的自然语言描述(最多 10,000 个字符) |
|
||
| `urls` | json | 否 | 可选的 URL 数组,用于聚焦代理任务 |
|
||
| `schema` | json | 否 | 定义要提取数据结构的 JSON 架构 |
|
||
| `maxCredits` | number | 否 | 此代理任务可消耗的最大积分数 |
|
||
| `strictConstrainToURLs` | boolean | 否 | 若为 true,代理仅访问 urls 数组中提供的 URL |
|
||
| `apiKey` | string | 是 | Firecrawl API 密钥 |
|
||
|
||
#### 输出
|
||
|
||
| 参数 | 类型 | 描述 |
|
||
| --------- | ---- | ----------- |
|
||
| `success` | boolean | 代理操作是否成功 |
|
||
| `status` | string | 代理任务的当前状态(processing、completed、failed) |
|
||
| `data` | object | 代理提取的数据 |
|
||
| `creditsUsed` | number | 此代理任务消耗的积分数 |
|
||
| `expiresAt` | string | 结果过期的时间戳(24 小时) |
|
||
| `sources` | object | 代理使用的来源 URL 数组 |
|
||
|
||
## 说明
|
||
|
||
- 分类:`tools`
|
||
- 类型:`firecrawl`
|