mirror of
https://github.com/simstudioai/sim.git
synced 2026-02-12 07:24:55 -05:00
* improvement(docs): updated script to copy over icons, cleanup unnecessary pages * updated script with auto-icon generation * ignore translations, only icons changed * updated images * updated i18n.lock * updated images
60 lines
2.3 KiB
Plaintext
60 lines
2.3 KiB
Plaintext
---
|
||
title: 视觉
|
||
description: 使用视觉模型分析图像
|
||
---
|
||
|
||
import { BlockInfoCard } from "@/components/ui/block-info-card"
|
||
|
||
<BlockInfoCard
|
||
type="vision"
|
||
color="#4D5FFF"
|
||
/>
|
||
|
||
{/* MANUAL-CONTENT-START:intro */}
|
||
视觉是一款可以使用视觉模型分析图像的工具。
|
||
|
||
使用 Vision,您可以:
|
||
|
||
- **分析图像**:使用视觉模型分析图像
|
||
- **提取文本**:从图像中提取文本
|
||
- **识别对象**:识别图像中的对象
|
||
- **描述图像**:详细描述图像
|
||
- **生成图像**:从文本生成图像
|
||
|
||
在 Sim 中,Vision 集成使您的代理能够在工作流程中使用视觉模型分析图像。这为需要使用视觉模型分析图像的强大自动化场景提供了可能。您的代理可以使用视觉模型分析图像、从图像中提取文本、识别图像中的对象、详细描述图像以及从文本生成图像。此集成弥合了您的 AI 工作流程与图像分析需求之间的差距,实现了更复杂且以图像为中心的自动化。通过将 Sim 与 Vision 连接,您可以创建能够跟上最新信息的代理,提供更准确的响应,并为用户带来更多价值——这一切都无需人工干预或自定义代码。
|
||
{/* MANUAL-CONTENT-END */}
|
||
|
||
## 使用说明
|
||
|
||
将 Vision 集成到工作流程中。可以使用视觉模型分析图像。需要 API 密钥。
|
||
|
||
## 工具
|
||
|
||
### `vision_tool`
|
||
|
||
使用先进的视觉模型处理和分析图像。能够理解图像内容、提取文本、识别对象并提供详细的视觉描述。
|
||
|
||
#### 输入
|
||
|
||
| 参数 | 类型 | 必需 | 描述 |
|
||
| --------- | ---- | -------- | ----------- |
|
||
| `apiKey` | string | 是 | 所选模型提供商的 API 密钥 |
|
||
| `imageUrl` | string | 否 | 可公开访问的图片 URL |
|
||
| `imageFile` | file | 否 | 要分析的图片文件 |
|
||
| `model` | string | 否 | 要使用的视觉模型 \(gpt-4o, claude-3-opus-20240229 等\) |
|
||
| `prompt` | string | 否 | 用于图像分析的自定义提示 |
|
||
|
||
#### 输出
|
||
|
||
| 参数 | 类型 | 描述 |
|
||
| --------- | ---- | ----------- |
|
||
| `content` | string | 分析后的内容和图像的描述 |
|
||
| `model` | string | 用于分析的视觉模型 |
|
||
| `tokens` | number | 分析中使用的总 token 数 |
|
||
| `usage` | object | 详细的 token 使用情况分析 |
|
||
|
||
## 注意事项
|
||
|
||
- 类别:`tools`
|
||
- 类型:`vision`
|