Files
sim/apps/docs/content/docs/zh/tools/vision.mdx
Waleed 9a6a6fdacb improvement(docs): updated with new ss, docs script updated to copy items from main app into docs for tools (#1918)
* improvement(docs): updated script to copy over icons, cleanup unnecessary pages

* updated script with auto-icon generation

* ignore translations, only icons changed

* updated images

* updated i18n.lock

* updated images
2025-11-12 01:15:23 -08:00

60 lines
2.3 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
title: 视觉
description: 使用视觉模型分析图像
---
import { BlockInfoCard } from "@/components/ui/block-info-card"
<BlockInfoCard
type="vision"
color="#4D5FFF"
/>
{/* MANUAL-CONTENT-START:intro */}
视觉是一款可以使用视觉模型分析图像的工具。
使用 Vision您可以
- **分析图像**:使用视觉模型分析图像
- **提取文本**:从图像中提取文本
- **识别对象**:识别图像中的对象
- **描述图像**:详细描述图像
- **生成图像**:从文本生成图像
在 Sim 中Vision 集成使您的代理能够在工作流程中使用视觉模型分析图像。这为需要使用视觉模型分析图像的强大自动化场景提供了可能。您的代理可以使用视觉模型分析图像、从图像中提取文本、识别图像中的对象、详细描述图像以及从文本生成图像。此集成弥合了您的 AI 工作流程与图像分析需求之间的差距,实现了更复杂且以图像为中心的自动化。通过将 Sim 与 Vision 连接,您可以创建能够跟上最新信息的代理,提供更准确的响应,并为用户带来更多价值——这一切都无需人工干预或自定义代码。
{/* MANUAL-CONTENT-END */}
## 使用说明
将 Vision 集成到工作流程中。可以使用视觉模型分析图像。需要 API 密钥。
## 工具
### `vision_tool`
使用先进的视觉模型处理和分析图像。能够理解图像内容、提取文本、识别对象并提供详细的视觉描述。
#### 输入
| 参数 | 类型 | 必需 | 描述 |
| --------- | ---- | -------- | ----------- |
| `apiKey` | string | 是 | 所选模型提供商的 API 密钥 |
| `imageUrl` | string | 否 | 可公开访问的图片 URL |
| `imageFile` | file | 否 | 要分析的图片文件 |
| `model` | string | 否 | 要使用的视觉模型 \(gpt-4o, claude-3-opus-20240229 等\) |
| `prompt` | string | 否 | 用于图像分析的自定义提示 |
#### 输出
| 参数 | 类型 | 描述 |
| --------- | ---- | ----------- |
| `content` | string | 分析后的内容和图像的描述 |
| `model` | string | 用于分析的视觉模型 |
| `tokens` | number | 分析中使用的总 token 数 |
| `usage` | object | 详细的 token 使用情况分析 |
## 注意事项
- 类别:`tools`
- 类型:`vision`