Compare commits

...

30 Commits

Author SHA1 Message Date
Waleed
ebcd243942 v0.5.11: stt, videogen, vllm, billing fixes, new models 2025-11-25 01:14:12 -08:00
Siddharth Ganesan
d413bcdfb0 feat(copilot): add claude opus 4.5 and remove context usage indicator (#2113)
* Add claude opus 4.5 to copilot and remove context usage indicator

* Lint
2025-11-24 16:40:55 -08:00
Siddharth Ganesan
ff768ca410 fix(copilot): fix webhook triggers unsaving in new diff store (#2096)
* Fix copilot trigger unsave

* Fix for schedules

* fix lint

* hide schedule save subblock from preview

---------

Co-authored-by: Vikhyath Mondreti <vikhyath@simstudio.ai>
2025-11-24 16:06:11 -08:00
Vikhyath Mondreti
bbaf7e90f8 improvement(autolayout): simplify code to use fixed block widths, height + refactor (#2112)
* improvement(autolayout): simplify code to use fixed block widths, height + refactor

* change to aliased imports
2025-11-24 13:13:28 -08:00
Waleed
c80827f21b feat(agent): added workflow, kb, and function as a tool for agent block, fix keyboard nav in tool input (#2107)
* feat(agent): added workflow, kb, and function as a tool for agent block

* fix keyboard nav and keyboard selection in tool-inp

* ack PR comments

* remove custom tool changes

* fixed kb tools for agent

* cleanup
2025-11-24 12:16:02 -08:00
Waleed
a5b7897b34 feat(models): added claude opus 4.5 (#2111)
* feat(models): added claude opus 4.5

* add to copilot dropdown
2025-11-24 12:12:30 -08:00
Vikhyath Mondreti
c6482f2997 fix(billing): only check owners for billed overages (#2085) 2025-11-24 11:30:29 -08:00
Adam Gough
bf1719a294 added new scope (#2110) 2025-11-24 10:34:51 -08:00
Waleed
619cab162d feat(i18n): update translations (#2106)
Co-authored-by: aadamgough <aadamgough@users.noreply.github.com>
2025-11-22 21:25:53 -08:00
Adam Gough
72776f4402 improvement(docs): added docs content (#2105) 2025-11-22 17:52:56 -08:00
Waleed
6114c213d2 feature(models): added vllm provider (#2103)
* Add vLLM self-hosted provider

* updated vllm to have pull parity with openai, dynamically fetch models

---------

Co-authored-by: MagellaX <alphacr792@gmail.com>
2025-11-22 14:50:43 -08:00
Waleed
d1f0d21e7f improvement(logs): surface integration triggers in logs instead of catchall 'webhook' trigger type (#2102)
* improvement(logs): surface integration triggers in logs instead of  catchall

* optimized calculation, added new triggers to search

* cleanup

* fix console log
2025-11-22 14:18:42 -08:00
Waleed
33ac828d3d fix(settings): settings components and behavior consolidation (#2100)
* fix(settings): settings components and behavior consolidation

* ack PR comments
2025-11-21 19:49:32 -08:00
Adam Gough
29156e3b61 added missing mcp images (#2099) 2025-11-21 19:02:04 -08:00
Adam Gough
fa4b34fc46 removed broken scope (#2098) 2025-11-21 18:45:00 -08:00
Waleed
9fad5860bc feat(i18n): update translations (#2097)
Co-authored-by: waleedlatif1 <waleedlatif1@users.noreply.github.com>
2025-11-21 18:28:13 -08:00
Waleed
0a4244bcef feat(tools): added more tts providers, added stt and videogen models, fixed search modal keyboard nav (#2094)
* feat(tools): added more tts providers, added stt and videogen models, fixed search modal keyboard nav

* fixed icons

* cleaned up

* added falai

* improvement: icons

* fixed build

---------

Co-authored-by: Emir Karabeg <emirkarabeg@berkeley.edu>
2025-11-21 16:56:13 -08:00
Waleed
b7e814b721 v0.5.10: copilot upgrade, preprocessor, logs search, UI, code hygiene 2025-11-21 12:04:34 -08:00
Siddharth Ganesan
3be57aff8f improvement(copilot): add gpt5.1 and codex (#2092) 2025-11-21 11:39:27 -08:00
Siddharth Ganesan
ddd3219126 improvement(copilot): v0.2 (#2086)
* Edit workflow returns workflow

* Condense workflkow conosle

* Limit console results to 2

* mark checkoff v1

* Mark and checkoff todo

* Fixes

* Plan mode

* fix agent output

* broken

* Fixes

* Fix diff mode persist

* Fix diff coloring

* Undo/redo

* Checkpoint udno redo

* fix(templates): fix templates details page (#1942)

* Fix template details

* Fix deps

* fix(templates-details): restore approval feature, and keep details UI consistent, smoothen out creation of profile (#1943)

* fix(templates): view current ui

* update UI to be less cluttered

* make state management for creating user profile smoother

* fix autoselect logic

* fix lint

* fix(landing): need to propagate landing page copilot prompt (#1944)

* fix(wand): subblocks should not be overwritten after wand gen (#1946)

* fix(settings): fix broken api keys, help modal, logs, workflow renaming (#1945)

* fix(settings): fix broken api keys, help modal, logs, workflow renaming

* fix build

* cleanup

* use emcn

* fix(files): changed file input value sample from string -> object (#1947)

* improvement: usage-indicator UI (#1948)

* fix(deploy): fix button (#1949)

* fix(executor): consolidate execution hooks (#1950)

* fix(autoconnect): should check if triggermode is set from the toolbar drag event directly (#1951)

* improvement: templates styling (#1952)

* improvement: template use button (#1954)

* feat(newgifs): added new gifs (#1953)

* new gifs

* changed wording

* changed wording

* lowercase

* changed wording

* remove blog stuff

---------

Co-authored-by: aadamgough <adam@sim.ai>
Co-authored-by: waleed <walif6@gmail.com>

* feat(drizzle): added ods for analytics from drizzle (#1956)

* feat(drizzle): added ods for analytics from drizzle

* clean

* fix(sheets): file selector had incorrect provider (#1958)

* feat(docs): added docs analytics drizzle ods (#1957)

* feat(docs): added docs analytics drizzle ods

* fix build

* fix provider for docs selector (#1959)

* fix(custom-tools): updates to legacy + copilot generated custom tools  (#1960)

* fix(custom-tools): updates to existing tools

* don't reorder custom tools in modal based on edit time

* restructure custom tools to persist copilot generated tools

* fix tests

* fix(slack): remove update message incorrect canonical param (#1964)

* fix(slack): send message tool

* add logging

* add more logs

* add more logs

* fix canonical param

* improvement(templates): add share button, serve public templates routes for unauthenticated users and workspace one for authenticated users, improve settings style and organization (#1962)

* improvement(templates): add share button, serve public templates routes for unauthenticated users and workspace one for authenticated users, improve settings style and organization

* fix lint

---------

Co-authored-by: Vikhyath Mondreti <vikhyath@simstudio.ai>

* fix(onedrive): incorrect canonical param (#1966)

* fix(onedrive): incorrect canonical param

* fix download file

* fix

* fix

* Revert "fix"

This reverts commit f68ccd75fd.

* Revert "fix"

This reverts commit f3d8acee7d.

* fix(executor): streaming after tool calls (#1963)

* Provider changes

* Fix lint

* fix(code): readd wand to code subblock (#1969)

* fix(cmd-k): z-index + reoder tools, triggers (#1970)

* fix(cmd-k): z-index + reoder tools, triggers

* fix more z-index styling

* fix(executor): streaming response format (#1972)

* fix(workflow-block): fix redeploy header to not repeatedly show redeploy when redeploy is not necessary (#1973)

* fix(workflow-block): fix redeploy header to not repeatedly show redeploy when redeploy is not necessary

* cleanup

* improvement(platform): chat, emcn, terminal, usage-limit (#1974)

* improvement(usage-indicator): layout

* improvement: expand default terminal height

* fix: swap workflow block ports

* improvement: chat initial positioning

* improvement(chat): display; improvement(emcn): popover attributes

* fix lint

* feat(settings): added reactquery for settings, removed zustand stores, added apollo, added workflow block selector dropdown search, added add environment variable option to empty env var dropdown (#1971)

* feat(settings): added reactquery for settings, removed zustand stores, added apollo, added workflow block selector dropdown search, added add environment variable option to empty env var dropdown

* fix delete dialog for copilot keys

* simplify combobox

* fix more z indices

* consolidated duplicate hooks

---------

Co-authored-by: Vikhyath Mondreti <vikhyath@simstudio.ai>

* fix(copilot-subflows): copilot-added subflows id mismatch (#1977)

* feat(i18n): update translations (#1978)

* feat(i18n): update translations

* fix build

---------

Co-authored-by: waleedlatif1 <waleedlatif1@users.noreply.github.com>

* fix(logs): show block inputs (#1979)

* Fix executor lgos block inputs

* Fix Comment

* fix(onedrive): parse array values correctly (#1981)

* fix(onedrive): parse array values correctly

* fix onedrive

* fix

* fix onedrive input parsing by reusing code subblock

* fix type

* feat(files): add presigned URL generation support for execution files (#1980)

* fix(popovers): billed account + async example command (#1982)

* fix(settings): update usage data in settings > subs to use reactquery hooks (#1983)

* fix(settings): update usage data in settings > subs to use reactquery hooks

* standardize usage pills calculation

* fix(output-selector): z-index in chat deploy modal (#1984)

* improvement(logs): improved logs search (#1985)

* improvement(logs): improved logs search

* more

* ack PR comments

* feat(slack): added slack full message object in response (#1987)

* feat(slack): add better error messages, reminder to add bot to app (#1990)

* feat(i18n): update translations (#1989)

Co-authored-by: waleedlatif1 <waleedlatif1@users.noreply.github.com>

* fix(landing): hero stripe icon (#1988)

* Temp

* Update

* Update

* Update

* Progress

* Diff store fixes

* simplify sockets ops for diff store

* Search patterns tool

* Better tool calls

* Fix sanitizationg

* Context window display

* fix(variables): fix double stringification (#1991)

* improvement(variables): support dot notation for nested objects (#1992)

* improvement(tanstack): migrate multiple stores (#1994)

* improvement(tanstack): migrate folders, knowledge to tanstack

* fix types

* fix(folders): duplicate (#1996)

* fix(variables): fix variables block json resolution (#1997)

* Improvement(ui/ux): signup, command-list, cursors, search modal, workflow runs, usage indicator (#1998)

* improvement: signup loading, command-list, cursors, search modal ordering

* improvement: workflow runs, search modal

* improvement(usage-indicator): ui/ux

* test(pr): hackathon (#1999)

* test(pr): github trigger (#2000)

* fix(usage-indicator): conditional rendering, upgrade, and ui/ux (#2001)

* fix: usage-limit indicator and render conditonally on is billing enabled

* fix: upgrade render

* fix(notes): fix notes, tighten spacing, update deprecated zustand function, update use mention data to ignore block positon (#2002)

* fix(pdfs): use unpdf instead of pdf-parse (#2004)

* fix(modals): fix z-index for various modals and output selector and variables (#2005)

* fix(condition): treat condition input the same as the code subblock (#2006)

* feat(models): added gpt-5.1 (#2007)

* improvement: runpath edges, blocks, active (#2008)

* feat(i18n): update translations (#2009)

* fix(triggers): check triggermode and consolidate block type (#2011)

* fix(triggers): disabled trigger shouldn't be added to dag (#2012)

* Fix disabled blocks

* Comments

* Fix api/chat trigger not found message

* fix(tags): only show start block upstream if is ancestor (#2013)

* fix(variables): Fix resolution on double < (#2016)

* Fix variable <>

* Ling

* Clean

* feat(billing): add notif for first failed payment, added upgrade email from free, updated providers that supported granular tool control to support them, fixed envvar popover, fixed redirect to wrong workspace after oauth connect (#2015)

* feat(billing): add notif for first failed payment, added upgrade email from free, updated providers that supported granular tool control to support them, fixed envvar popover, fixed redirect to wrong workspace after oauth connect

* fix build

* ack PR comments

* feat(performance): added reactquery hooks for workflow operations, for logs, fixed logs reloading, fix subscription UI (#2017)

* feat(performance): added reactquery hooks for workflow operations, for logs, fixed logs reloading, fix subscription UI

* use useInfiniteQuery for logs fetching

* fix(copilot): run workflow supports input format and fix run id (#2018)

* fix(router): fix error edge in router block + fix source handle problem (#2019)

* Fix router block error port handling

* Remove comment

* Fix edge execution

* improvement: code subblock, action bar, connections (#2024)

* improvement: action bar, connections

* fix: code block draggable resize

* fix(response): fix response block http format (#2027)

* Fix response block

* Lint

* fix(notes): fix notes block spacing, additional logs for billing transfer route (#2029)

* fix(usage-data): refetch on usage limit update in settings (#2032)

* fix(overage): fix pill calculation in the usage indicator to be consistent across views (#2034)

* fix(workflows): fixed workflow loading in without start block, added templates RQ hook, cleaned up unused templates code (#2035)

* fix(triggers): dedup + not surfacing deployment status log (#2033)

* fix(triggers): dedup + not surfacing deployment status log

* fix ms teams

* change to microsoftteams

* Revert "change to microsoftteams"

This reverts commit 217f808641.

* fix

* fix

* fix provider name

* fix oauth for msteams

* improvement(undo-redo): expand undo-redo store to store 100 ops instead of 15 (#2036)

* improvement(undo-redo): expand undo-redo store to store 100 ops instead of 15

* prevent undo-redo from interfering with subblock browser text undo

* improvement(docs): remove copy page from mobile view on docs (#2037)

* improvement(docs): remove copy page from mobile view on docs

* bring title and pagenav lower on mobile

* added cursor pointer to clickable components in docs

* fix(workflow-block): clearing child workflow input format field must lazy cascade parent workflow state deletion (#2038)

* Error tools

* Ui tools

* Navigate ui tool

* Combine env vars and oauth tools

* Plan mode section

* Plan mode v1

* Plan mode v1

* Plan mode improvements

* Build plan button

* Make workflow plan editable

* Tool improvements

* Fix build plan button

* Lint

* Fix

* Fix lint

* Fix plan

* Remove migrations

* fix undo/redo settling of ops

* Add migratinos back

* Smoothen out diff store

* Hide plan mode

* Fix lint

* Edit run workflow params

* Fix lint

* Fix tests

* Fix typing

* Fix build errors and lint

* Fix build

* Fix tests

---------

Co-authored-by: Vikhyath Mondreti <vikhyathvikku@gmail.com>
Co-authored-by: Waleed <walif6@gmail.com>
Co-authored-by: Emir Karabeg <78010029+emir-karabeg@users.noreply.github.com>
Co-authored-by: Adam Gough <77861281+aadamgough@users.noreply.github.com>
Co-authored-by: aadamgough <adam@sim.ai>
Co-authored-by: Vikhyath Mondreti <vikhyath@simstudio.ai>
Co-authored-by: Emir Karabeg <emirkarabeg@berkeley.edu>
Co-authored-by: waleedlatif1 <waleedlatif1@users.noreply.github.com>
2025-11-21 10:22:08 -08:00
Waleed
67bd5bd8fa fix(integ): remove unused oauth providers from list of supported integrations (#2090) 2025-11-20 20:20:10 -08:00
Waleed
c52501616c feat(i18n): update translations (#2088)
Co-authored-by: waleedlatif1 <waleedlatif1@users.noreply.github.com>
2025-11-20 19:37:20 -08:00
Emir Karabeg
3dbf0f5679 feat: keyboard navigation; improvement: SEO/GEO; refactor: file structure, unused fonts; fix: chat streaming, notification stack (#2083)
* improvement: panel tabs handler on click

* fix: output break words

* feat: keyboard navigation; improvement: SEO/GEO; refactor: file structure, unused fonts; fix: chat streaming, notification stack

* feat: unresolved value handling on error; fix: layout refresh; refactor: delete old panel

* refactor: control bar delete; improvement: workflow constants; fix: clear notifications keyboard shortcut

* update developers count

* fixed relative imports

---------

Co-authored-by: waleed <walif6@gmail.com>
2025-11-20 19:37:09 -08:00
Emir Karabeg
6187561219 improvement(chat): ui (#2089) 2025-11-20 19:16:51 -08:00
Waleed
022b4f64a7 fix(linear): fix remaining ops (#2087) 2025-11-20 19:02:12 -08:00
Waleed
768cdec6ce fix(logs): fixed logs search (#2084) 2025-11-20 17:16:08 -08:00
Waleed
75f55c894a fix(logging): add preprocessing util shared by all execution paths (#2081)
* fix(logging): add preprocessing util shared by all execution paths

* DRY
2025-11-20 14:05:14 -08:00
Waleed
4a0450d1fc fix(embeddings): modified embeddings utils to only index english docs (#2078) 2025-11-20 14:03:49 -08:00
Waleed
00ae718692 improvement(runners): upgrade runners, remove trigger deploy action (#2082) 2025-11-20 13:49:17 -08:00
Vikhyath Mondreti
d7586cdd9f fix(undo-redo): eviction policy to not have unbounded undo-redo stacks (#2079)
* fix(undo-redo): eviction policy to not have unbounded undo-redo stacks

* fix zindex custom tools delete
2025-11-20 12:12:04 -08:00
749 changed files with 32198 additions and 12945 deletions

View File

@@ -374,7 +374,7 @@ In addition, you will need to update the registries:
Add your block to the blocks registry (`/apps/sim/blocks/registry.ts`):
```typescript:/apps/sim/blocks/registry.ts
import { PineconeBlock } from './blocks/pinecone'
import { PineconeBlock } from '@/blocks/blocks/pinecone'
// Registry of all available blocks
export const registry: Record<string, BlockConfig> = {

View File

@@ -21,7 +21,7 @@ jobs:
name: Build AMD64
needs: test-build
if: github.event_name == 'push' && (github.ref == 'refs/heads/main' || github.ref == 'refs/heads/staging')
runs-on: blacksmith-4vcpu-ubuntu-2404
runs-on: blacksmith-8vcpu-ubuntu-2404
permissions:
contents: read
packages: write
@@ -162,7 +162,7 @@ jobs:
# Create GHCR multi-arch manifests (only for main, after both builds)
create-ghcr-manifests:
name: Create GHCR Manifests
runs-on: blacksmith-4vcpu-ubuntu-2404
runs-on: blacksmith-8vcpu-ubuntu-2404
needs: [build-amd64, build-ghcr-arm64]
if: github.event_name == 'push' && github.ref == 'refs/heads/main'
permissions:
@@ -198,18 +198,30 @@ jobs:
"${IMAGE_BASE}:${{ github.sha }}-arm64"
docker manifest push "${IMAGE_BASE}:${{ github.sha }}"
# Deploy Trigger.dev (after ECR images are pushed, runs in parallel with process-docs)
trigger-deploy:
name: Deploy Trigger.dev
needs: build-amd64
if: github.event_name == 'push' && (github.ref == 'refs/heads/main' || github.ref == 'refs/heads/staging')
uses: ./.github/workflows/trigger-deploy.yml
secrets: inherit
# Check if docs changed
check-docs-changes:
name: Check Docs Changes
runs-on: blacksmith-4vcpu-ubuntu-2404
if: github.event_name == 'push' && github.ref == 'refs/heads/main'
outputs:
docs_changed: ${{ steps.filter.outputs.docs }}
steps:
- uses: actions/checkout@v4
with:
fetch-depth: 2 # Need at least 2 commits to detect changes
- uses: dorny/paths-filter@v3
id: filter
with:
filters: |
docs:
- 'apps/docs/content/docs/en/**'
- 'apps/sim/scripts/process-docs.ts'
- 'apps/sim/lib/chunkers/**'
# Process docs embeddings (after ECR images are pushed, runs in parallel with trigger-deploy)
# Process docs embeddings (only when docs change, after ECR images are pushed)
process-docs:
name: Process Docs
needs: build-amd64
if: github.event_name == 'push' && (github.ref == 'refs/heads/main' || github.ref == 'refs/heads/staging')
needs: [build-amd64, check-docs-changes]
if: needs.check-docs-changes.outputs.docs_changed == 'true'
uses: ./.github/workflows/docs-embeddings.yml
secrets: inherit

View File

@@ -7,8 +7,8 @@ on:
jobs:
process-docs-embeddings:
name: Process Documentation Embeddings
runs-on: blacksmith-4vcpu-ubuntu-2404
if: github.ref == 'refs/heads/main' || github.ref == 'refs/heads/staging'
runs-on: blacksmith-8vcpu-ubuntu-2404
if: github.ref == 'refs/heads/main'
steps:
- name: Checkout code
@@ -41,6 +41,6 @@ jobs:
- name: Process docs embeddings
working-directory: ./apps/sim
env:
DATABASE_URL: ${{ github.ref == 'refs/heads/main' && secrets.DATABASE_URL || secrets.STAGING_DATABASE_URL }}
DATABASE_URL: ${{ secrets.DATABASE_URL }}
OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
run: bun run scripts/process-docs.ts --clear

View File

@@ -12,7 +12,7 @@ permissions:
jobs:
build-amd64:
name: Build AMD64
runs-on: blacksmith-4vcpu-ubuntu-2404
runs-on: blacksmith-8vcpu-ubuntu-2404
strategy:
fail-fast: false
matrix:
@@ -146,7 +146,7 @@ jobs:
create-ghcr-manifests:
name: Create GHCR Manifests
runs-on: blacksmith-4vcpu-ubuntu-2404
runs-on: blacksmith-8vcpu-ubuntu-2404
needs: [build-amd64, build-ghcr-arm64]
if: github.ref == 'refs/heads/main'
strategy:

View File

@@ -1,55 +0,0 @@
name: Trigger.dev Deploy
on:
workflow_call:
workflow_dispatch:
jobs:
deploy:
name: Deploy to Trigger.dev
runs-on: blacksmith-4vcpu-ubuntu-2404
concurrency:
group: trigger-deploy-${{ github.ref }}
cancel-in-progress: false
env:
TRIGGER_ACCESS_TOKEN: ${{ secrets.TRIGGER_ACCESS_TOKEN }}
TRIGGER_PROJECT_ID: ${{ secrets.TRIGGER_PROJECT_ID }}
steps:
- name: Checkout code
uses: actions/checkout@v4
- name: Setup Node
uses: actions/setup-node@v4
with:
node-version: latest
- name: Setup Bun
uses: oven-sh/setup-bun@v2
with:
bun-version: 1.2.22
- name: Cache Bun dependencies
uses: actions/cache@v4
with:
path: |
~/.bun/install/cache
node_modules
**/node_modules
key: ${{ runner.os }}-bun-${{ hashFiles('**/bun.lock') }}
restore-keys: |
${{ runner.os }}-bun-
- name: Install dependencies
run: bun install --frozen-lockfile
- name: Deploy to Trigger.dev (Staging)
if: github.ref == 'refs/heads/staging'
working-directory: ./apps/sim
run: npx --yes trigger.dev@4.0.4 deploy -e staging
- name: Deploy to Trigger.dev (Production)
if: github.ref == 'refs/heads/main'
working-directory: ./apps/sim
run: npx --yes trigger.dev@4.0.4 deploy

View File

@@ -4085,7 +4085,29 @@ export function CalendlyIcon(props: SVGProps<SVGSVGElement>) {
)
}
export function AudioWaveformIcon(props: SVGProps<SVGSVGElement>) {
export function STTIcon(props: SVGProps<SVGSVGElement>) {
return (
<svg
{...props}
xmlns='http://www.w3.org/2000/svg'
width='24'
height='24'
viewBox='0 0 24 24'
fill='none'
stroke='currentColor'
strokeWidth='2'
strokeLinecap='round'
strokeLinejoin='round'
>
<path d='m15 16 2.536-7.328a1.02 1.02 1 0 1 1.928 0L22 16' />
<path d='M15.697 14h5.606' />
<path d='m2 16 4.039-9.69a.5.5 0 0 1 .923 0L11 16' />
<path d='M3.304 13h6.392' />
</svg>
)
}
export function TTSIcon(props: SVGProps<SVGSVGElement>) {
return (
<svg
{...props}
@@ -4108,3 +4130,23 @@ export function AudioWaveformIcon(props: SVGProps<SVGSVGElement>) {
</svg>
)
}
export function VideoIcon(props: SVGProps<SVGSVGElement>) {
return (
<svg
{...props}
xmlns='http://www.w3.org/2000/svg'
width='24'
height='24'
viewBox='0 0 24 24'
fill='none'
stroke='currentColor'
strokeWidth='2'
strokeLinecap='round'
strokeLinejoin='round'
>
<path d='m16 13 5.223 3.482a.5.5 0 0 0 .777-.416V7.87a.5.5 0 0 0-.752-.432L16 10.5' />
<rect x='2' y='6' width='14' height='12' rx='2' />
</svg>
)
}

View File

@@ -1,7 +1,7 @@
'use client'
import type * as React from 'react'
import { blockTypeToIconMap } from './icon-mapping'
import { blockTypeToIconMap } from '@/components/ui/icon-mapping'
interface BlockInfoCardProps {
type: string

View File

@@ -8,7 +8,6 @@ import {
ApolloIcon,
ArxivIcon,
AsanaIcon,
AudioWaveformIcon,
BrainIcon,
BrowserUseIcon,
CalendlyIcon,
@@ -63,6 +62,7 @@ import {
SalesforceIcon,
SerperIcon,
SlackIcon,
STTIcon,
StagehandIcon,
StripeIcon,
SupabaseIcon,
@@ -70,8 +70,10 @@ import {
TelegramIcon,
TranslateIcon,
TrelloIcon,
TTSIcon,
TwilioIcon,
TypeformIcon,
VideoIcon,
WealthboxIcon,
WebflowIcon,
WhatsAppIcon,
@@ -92,16 +94,18 @@ export const blockTypeToIconMap: Record<string, IconComponent> = {
webflow: WebflowIcon,
wealthbox: WealthboxIcon,
vision: EyeIcon,
video_generator: VideoIcon,
typeform: TypeformIcon,
twilio_voice: TwilioIcon,
twilio_sms: TwilioIcon,
tts: TTSIcon,
trello: TrelloIcon,
translate: TranslateIcon,
thinking: BrainIcon,
telegram: TelegramIcon,
tavily: TavilyIcon,
supabase: SupabaseIcon,
stt: AudioWaveformIcon,
stt: STTIcon,
stripe: StripeIcon,
stagehand_agent: StagehandIcon,
stagehand: StagehandIcon,

View File

@@ -2,8 +2,8 @@
import { useState } from 'react'
import NextImage, { type ImageProps as NextImageProps } from 'next/image'
import { Lightbox } from '@/components/ui/lightbox'
import { cn } from '@/lib/utils'
import { Lightbox } from './lightbox'
interface ImageProps extends Omit<NextImageProps, 'className'> {
className?: string

View File

@@ -5,6 +5,7 @@ title: Human in the Loop
import { Callout } from 'fumadocs-ui/components/callout'
import { Tab, Tabs } from 'fumadocs-ui/components/tabs'
import { Image } from '@/components/ui/image'
import { Video } from '@/components/ui/video'
Der Human in the Loop Block pausiert die Workflow-Ausführung und wartet auf menschliches Eingreifen, bevor er fortfährt. Verwenden Sie ihn, um Genehmigungspunkte hinzuzufügen, Feedback zu sammeln oder zusätzliche Eingaben an kritischen Entscheidungspunkten einzuholen.
@@ -76,7 +77,7 @@ Definiert die Felder, die Genehmigende bei der Antwort ausfüllen. Diese Daten w
}
```
Greifen Sie in nachfolgenden Blöcken mit `<blockId.resumeInput.fieldName>` auf Fortsetzungsdaten zu.
Greifen Sie in nachgelagerten Blöcken auf Wiederaufnahmedaten mit `<blockId.resumeInput.fieldName>` zu.
## Genehmigungsmethoden
@@ -174,8 +175,14 @@ Zugriff über `<blockId.resumeInput.fieldName>`.
<approval1.resumeInput.approved> === true
```
Das Beispiel unten zeigt ein Genehmigungsportal, wie es von einem Genehmiger gesehen wird, nachdem der Workflow angehalten wurde. Genehmiger können die Daten überprüfen und Eingaben als Teil der Workflow-Wiederaufnahme bereitstellen. Auf das Genehmigungsportal kann direkt über die eindeutige URL, `<blockId.url>`, zugegriffen werden.
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="hitl-resume.mp4" width={700} height={450} />
</div>
## Verwandte Blöcke
- **[Bedingung](/blocks/condition)** - Verzweigung basierend auf Genehmigungsentscheidungen
- **[Variablen](/blocks/variables)** - Speicherung von Genehmigungsverlauf und Metadaten
- **[Variablen](/blocks/variables)** - Speichern von Genehmigungsverlauf und Metadaten
- **[Antwort](/blocks/response)** - Rückgabe von Workflow-Ergebnissen an API-Aufrufer

View File

@@ -4,6 +4,7 @@ title: Grundlagen
import { Callout } from 'fumadocs-ui/components/callout'
import { Step, Steps } from 'fumadocs-ui/components/steps'
import { Video } from '@/components/ui/video'
## Wie Verbindungen funktionieren
@@ -28,7 +29,11 @@ Verbindungen sind die Pfade, die den Datenfluss zwischen Blöcken in Ihrem Workf
</Step>
</Steps>
### Verbindungsfluss
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="connections-build.mp4" width={700} height={450} />
</div>
### Verbindungsablauf
Der Datenfluss durch Verbindungen folgt diesen Prinzipien:

View File

@@ -71,6 +71,16 @@ Diese kontextbezogenen Informationen helfen Copilot, genauere und relevantere Un
</Card>
</Cards>
<div className="flex justify-center">
<Image
src="/static/copilot/copilot-mode.png"
alt="Copilot-Modusauswahl-Oberfläche"
width={600}
height={400}
className="my-6"
/>
</div>
## Tiefenebenen
<Cards>
@@ -82,7 +92,7 @@ Diese kontextbezogenen Informationen helfen Copilot, genauere und relevantere Un
</span>
}
>
<div className="m-0 text-sm">Am schnellsten und günstigsten. Ideal für kleine Änderungen, einfache Workflows und geringfügige Anpassungen.</div>
<div className="m-0 text-sm">Am schnellsten und günstigsten. Ideal für kleine Änderungen, einfache Arbeitsabläufe und geringfügige Anpassungen.</div>
</Card>
<Card
title={
@@ -102,7 +112,7 @@ Diese kontextbezogenen Informationen helfen Copilot, genauere und relevantere Un
</span>
}
>
<div className="m-0 text-sm">Mehr Denkleistung für umfangreichere Workflows und komplexe Änderungen bei gleichzeitiger Leistungsfähigkeit.</div>
<div className="m-0 text-sm">Mehr Denkleistung für umfangreichere Arbeitsabläufe und komplexe Änderungen bei gleichzeitiger Leistungsfähigkeit.</div>
</Card>
<Card
title={
@@ -118,7 +128,7 @@ Diese kontextbezogenen Informationen helfen Copilot, genauere und relevantere Un
### Modusauswahl-Oberfläche
Du kannst einfach zwischen verschiedenen Denkmodi über den Modusauswähler in der Copilot-Oberfläche wechseln:
Du kannst einfach zwischen verschiedenen Denkmodi über die Modusauswahl in der Copilot-Oberfläche wechseln:
<Image
src="/static/copilot/copilot-models.png"
@@ -140,8 +150,8 @@ Wähle deinen Modus basierend auf der Komplexität deiner Aufgabe - verwende Sch
Die Copilot-Nutzung wird pro Token vom zugrundeliegenden LLM abgerechnet:
- **Eingabe-Tokens**: werden zum Basistarif des Anbieters berechnet (**zum Selbstkostenpreis**)
- **Ausgabe-Tokens**: werden mit dem **1,5-fachen** des Basisausgabepreises des Anbieters berechnet
- **Eingabe-Tokens**: werden zum Basispreis des Anbieters berechnet (**zum Selbstkostenpreis**)
- **Ausgabe-Tokens**: werden mit dem **1,5-fachen** des Basis-Ausgabepreises des Anbieters berechnet
```javascript
copilotCost = (inputTokens × inputPrice + outputTokens × (outputPrice × 1.5)) / 1,000,000
@@ -149,13 +159,13 @@ copilotCost = (inputTokens × inputPrice + outputTokens × (outputPrice × 1.5))
| Komponente | Angewendeter Tarif |
|------------|------------------------|
| Input | inputPrice |
| Output | outputPrice × 1,5 |
| Eingabe | inputPrice |
| Ausgabe | outputPrice × 1,5 |
<Callout type="warning">
Die angezeigten Preise spiegeln die Tarife vom 4. September 2025 wider. Überprüfen Sie die Anbieterdokumentation für aktuelle Preise.
Die angezeigten Preise spiegeln die Tarife vom 4. September 2025 wider. Überprüfen Sie die Anbieter-Dokumentation für aktuelle Preise.
</Callout>
<Callout type="info">
Modellpreise werden pro Million Token berechnet. Die Berechnung teilt durch 1.000.000, um die tatsächlichen Kosten zu ermitteln. Siehe <a href="/execution/costs">die Seite zur Kostenberechnung</a> für Hintergründe und Beispiele.
Modellpreise werden pro Million Tokens angegeben. Die Berechnung teilt durch 1.000.000, um die tatsächlichen Kosten zu ermitteln. Siehe <a href="/execution/costs">die Seite zur Kostenberechnung</a> für Hintergründe und Beispiele.
</Callout>

View File

@@ -5,6 +5,7 @@ title: Einführung
import { Card, Cards } from 'fumadocs-ui/components/card'
import { Callout } from 'fumadocs-ui/components/callout'
import { Image } from '@/components/ui/image'
import { Video } from '@/components/ui/video'
Sim ist ein Open-Source-Tool zur visuellen Workflow-Erstellung für die Entwicklung und Bereitstellung von KI-Agenten-Workflows. Entwerfen Sie intelligente Automatisierungssysteme mit einer No-Code-Oberfläche verbinden Sie KI-Modelle, Datenbanken, APIs und Business-Tools über eine intuitive Drag-and-Drop-Oberfläche. Ob Sie Chatbots entwickeln, Geschäftsprozesse automatisieren oder komplexe Datenpipelines orchestrieren Sim bietet die Werkzeuge, um Ihre KI-Workflows zum Leben zu erwecken.
@@ -32,19 +33,27 @@ Verwandeln Sie Rohdaten in umsetzbare Erkenntnisse. Extrahieren Sie Informatione
**API-Integrations-Workflows**
Orchestieren Sie komplexe Interaktionen zwischen mehreren Diensten. Erstellen Sie einheitliche API-Endpunkte, implementieren Sie anspruchsvolle Geschäftslogik und bauen Sie ereignisgesteuerte Automatisierungssysteme.
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="introduction/chat-workflow.mp4" width={700} height={450} />
</div>
## Wie es funktioniert
**Visueller Workflow-Editor**
Entwerfen Sie Workflows mit einer intuitiven Drag-and-Drop-Oberfläche. Verbinden Sie KI-Modelle, Datenbanken, APIs und Drittanbieterdienste über eine visuelle No-Code-Schnittstelle, die komplexe Automatisierungslogik leicht verständlich und wartbar macht.
Entwerfen Sie Workflows mit einer intuitiven Drag-and-Drop-Oberfläche. Verbinden Sie KI-Modelle, Datenbanken, APIs und Dienste von Drittanbietern über eine visuelle No-Code-Schnittstelle, die komplexe Automatisierungslogik leicht verständlich und wartbar macht.
**Modulares Blocksystem**
Bauen Sie mit spezialisierten Komponenten: Verarbeitungsblöcke (KI-Agenten, API-Aufrufe, benutzerdefinierte Funktionen), Logikblöcke (bedingte Verzweigungen, Schleifen, Router) und Ausgabeblöcke (Antworten, Evaluatoren). Jeder Block übernimmt eine bestimmte Aufgabe in Ihrem Workflow.
**Flexible Ausführungsauslöser**
Starten Sie Workflows über verschiedene Kanäle, darunter Chat-Schnittstellen, REST-APIs, Webhooks, geplante Cron-Jobs oder externe Ereignisse von Plattformen wie Slack und GitHub.
Starten Sie Workflows über mehrere Kanäle, einschließlich Chat-Schnittstellen, REST-APIs, Webhooks, geplante Cron-Jobs oder externe Ereignisse von Plattformen wie Slack und GitHub.
**Echtzeit-Zusammenarbeit**
Ermöglichen Sie Ihrem Team die gemeinsame Entwicklung. Mehrere Benutzer können Workflows gleichzeitig bearbeiten, mit Live-Updates und granularen Berechtigungskontrollen.
Ermöglichen Sie Ihrem Team, gemeinsam zu arbeiten. Mehrere Benutzer können Workflows gleichzeitig bearbeiten, mit Live-Updates und detaillierten Berechtigungskontrollen.
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="introduction/build-workflow.mp4" width={700} height={450} />
</div>
## Integrationen
@@ -57,7 +66,28 @@ Sim bietet native Integrationen mit über 80 Diensten in verschiedenen Kategorie
- **Suche & Daten**: Google Search, Perplexity, Firecrawl, Exa AI
- **Datenbanken**: PostgreSQL, MySQL, Supabase, Pinecone, Qdrant
Für benutzerdefinierte Integrationen nutzen Sie unsere [MCP (Model Context Protocol) Unterstützung](/mcp), um beliebige externe Dienste oder Tools anzubinden.
Für benutzerdefinierte Integrationen nutzen Sie unsere [MCP (Model Context Protocol)-Unterstützung](/mcp), um beliebige externe Dienste oder Tools anzubinden.
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="introduction/integrations-sidebar.mp4" width={700} height={450} />
</div>
## KI-gesteuerter Copilot
**Fragen stellen & Anleitung erhalten**
Der Copilot beantwortet Fragen zu Sim, erklärt Ihre Workflows und gibt Verbesserungsvorschläge. Verwenden Sie das `@` Symbol, um auf Workflows, Blöcke, Dokumentation, Wissen und Protokolle für kontextbezogene Unterstützung zu verweisen.
**Workflows erstellen & bearbeiten**
Wechseln Sie in den Agent-Modus, damit der Copilot Änderungen direkt auf Ihrer Arbeitsfläche vorschlagen und anwenden kann. Fügen Sie Blöcke hinzu, konfigurieren Sie Einstellungen, verbinden Sie Variablen und strukturieren Sie Workflows mit natürlichsprachlichen Befehlen um.
**Adaptive Reasoning-Stufen**
Wählen Sie zwischen den Modi Schnell, Auto, Erweitert oder Behemoth, je nach Komplexität der Aufgabe. Beginnen Sie mit Schnell für einfache Fragen und steigern Sie sich bis zu Behemoth für komplexe architektonische Änderungen und tiefgehendes Debugging.
Erfahren Sie mehr über [Copilot-Funktionen](/copilot) und wie Sie die Produktivität mit KI-Unterstützung maximieren können.
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="introduction/copilot-workflow.mp4" width={700} height={450} />
</div>
## Bereitstellungsoptionen
@@ -75,7 +105,7 @@ Bereit, Ihren ersten KI-Workflow zu erstellen?
<Card title="Erste Schritte" href="/getting-started">
Erstellen Sie Ihren ersten Workflow in 10 Minuten
</Card>
<Card title="Workflow-Bausteine" href="/blocks">
<Card title="Workflow-Blöcke" href="/blocks">
Erfahren Sie mehr über die Bausteine
</Card>
<Card title="Tools & Integrationen" href="/tools">

View File

@@ -39,14 +39,24 @@ Tickets von Linear abrufen und filtern
| Parameter | Typ | Erforderlich | Beschreibung |
| --------- | ---- | -------- | ----------- |
| `teamId` | string | Ja | Linear Team-ID |
| `projectId` | string | Ja | Linear Projekt-ID |
| `teamId` | string | Nein | Linear Team-ID zum Filtern |
| `projectId` | string | Nein | Linear Projekt-ID zum Filtern |
| `assigneeId` | string | Nein | Benutzer-ID zum Filtern nach Zugewiesenem |
| `stateId` | string | Nein | Workflow-Status-ID zum Filtern nach Status |
| `priority` | number | Nein | Priorität zum Filtern \(0=Keine Priorität, 1=Dringend, 2=Hoch, 3=Normal, 4=Niedrig\) |
| `labelIds` | array | Nein | Array von Label-IDs zum Filtern |
| `createdAfter` | string | Nein | Tickets filtern, die nach diesem Datum erstellt wurden \(ISO 8601 Format\) |
| `updatedAfter` | string | Nein | Tickets filtern, die nach diesem Datum aktualisiert wurden \(ISO 8601 Format\) |
| `includeArchived` | boolean | Nein | Archivierte Tickets einschließen \(Standard: false\) |
| `first` | number | Nein | Anzahl der zurückzugebenden Tickets \(Standard: 50, max: 250\) |
| `after` | string | Nein | Paginierungscursor für die nächste Seite |
| `orderBy` | string | Nein | Sortierreihenfolge: "createdAt" oder "updatedAt" \(Standard: "updatedAt"\) |
#### Ausgabe
| Parameter | Typ | Beschreibung |
| --------- | ---- | ----------- |
| `issues` | array | Array von Tickets aus dem angegebenen Linear Team und Projekt, jedes enthält id, title, description, state, teamId und projectId |
| `issues` | array | Array von gefilterten Tickets aus Linear |
### `linear_get_issue`
@@ -73,15 +83,25 @@ Ein neues Ticket in Linear erstellen
| Parameter | Typ | Erforderlich | Beschreibung |
| --------- | ---- | -------- | ----------- |
| `teamId` | string | Ja | Linear Team-ID |
| `projectId` | string | Ja | Linear Projekt-ID |
| `projectId` | string | Nein | Linear Projekt-ID |
| `title` | string | Ja | Ticket-Titel |
| `description` | string | Nein | Ticket-Beschreibung |
| `stateId` | string | Nein | Workflow-Status-ID \(Status\) |
| `assigneeId` | string | Nein | Benutzer-ID, dem das Ticket zugewiesen werden soll |
| `priority` | number | Nein | Priorität \(0=Keine Priorität, 1=Dringend, 2=Hoch, 3=Normal, 4=Niedrig\) |
| `estimate` | number | Nein | Schätzung in Punkten |
| `labelIds` | array | Nein | Array von Label-IDs, die dem Ticket zugewiesen werden sollen |
| `cycleId` | string | Nein | Zyklus-ID, dem das Ticket zugewiesen werden soll |
| `parentId` | string | Nein | Übergeordnete Ticket-ID \(für die Erstellung von Untertickets\) |
| `dueDate` | string | Nein | Fälligkeitsdatum im ISO 8601-Format \(nur Datum: JJJJ-MM-TT\) |
| `subscriberIds` | array | Nein | Array von Benutzer-IDs, die das Ticket abonnieren sollen |
| `projectMilestoneId` | string | Nein | Projektmeilenstein-ID, die mit dem Ticket verknüpft werden soll |
#### Ausgabe
| Parameter | Typ | Beschreibung |
| --------- | ---- | ----------- |
| `issue` | object | Das erstellte Ticket mit id, title, description, state, teamId und projectId |
| `issue` | object | Das erstellte Ticket mit allen seinen Eigenschaften |
### `linear_update_issue`
@@ -98,7 +118,13 @@ Ein bestehendes Ticket in Linear aktualisieren
| `assigneeId` | string | Nein | Benutzer-ID, dem das Ticket zugewiesen werden soll |
| `priority` | number | Nein | Priorität \(0=Keine Priorität, 1=Dringend, 2=Hoch, 3=Normal, 4=Niedrig\) |
| `estimate` | number | Nein | Schätzung in Punkten |
| `labelIds` | array | Nein | Array von Label-IDs, die dem Ticket zugewiesen werden sollen |
| `labelIds` | array | Nein | Array von Label-IDs, die für das Ticket gesetzt werden sollen \(ersetzt alle vorhandenen Labels\) |
| `projectId` | string | Nein | Projekt-ID, zu der das Ticket verschoben werden soll |
| `cycleId` | string | Nein | Zyklus-ID, dem das Ticket zugewiesen werden soll |
| `parentId` | string | Nein | Übergeordnete Ticket-ID \(um dieses zu einem Unterticket zu machen\) |
| `dueDate` | string | Nein | Fälligkeitsdatum im ISO 8601-Format \(nur Datum: JJJJ-MM-TT\) |
| `addedLabelIds` | array | Nein | Array von Label-IDs, die dem Ticket hinzugefügt werden sollen \(ohne vorhandene Labels zu ersetzen\) |
| `removedLabelIds` | array | Nein | Array von Label-IDs, die vom Ticket entfernt werden sollen |
#### Ausgabe
@@ -236,8 +262,8 @@ Einen Kommentar in Linear bearbeiten
| Parameter | Typ | Erforderlich | Beschreibung |
| --------- | ---- | -------- | ----------- |
| `commentId` | string | Ja | Kommentar-ID, die aktualisiert werden soll |
| `body` | string | Ja | Neuer Kommentartext \(unterstützt Markdown\) |
| `commentId` | string | Ja | Kommentar-ID zum Aktualisieren |
| `body` | string | Nein | Neuer Kommentartext \(unterstützt Markdown\) |
#### Ausgabe
@@ -344,14 +370,14 @@ Ein bestehendes Projekt in Linear aktualisieren
| Parameter | Typ | Erforderlich | Beschreibung |
| --------- | ---- | -------- | ----------- |
| `projectId` | string | Ja | Projekt-ID, die aktualisiert werden soll |
| `projectId` | string | Ja | Projekt-ID zum Aktualisieren |
| `name` | string | Nein | Neuer Projektname |
| `description` | string | Nein | Neue Projektbeschreibung |
| `state` | string | Nein | Projektstatus (geplant, gestartet, abgeschlossen, abgebrochen) |
| `state` | string | Nein | Projektstatus \(planned, started, completed, canceled\) |
| `leadId` | string | Nein | Benutzer-ID des Projektleiters |
| `startDate` | string | Nein | Projektstartdatum (ISO-Format) |
| `targetDate` | string | Nein | Projektzieldatum (ISO-Format) |
| `priority` | number | Nein | Projektpriorität (0-4) |
| `startDate` | string | Nein | Projektstartdatum \(ISO-Format: JJJJ-MM-TT\) |
| `targetDate` | string | Nein | Projektzieldatum \(ISO-Format: JJJJ-MM-TT\) |
| `priority` | number | Nein | Projektpriorität \(0=Keine Priorität, 1=Dringend, 2=Hoch, 3=Normal, 4=Niedrig\) |
#### Ausgabe
@@ -525,11 +551,11 @@ Einen neuen Workflow-Status in Linear erstellen
| Parameter | Typ | Erforderlich | Beschreibung |
| --------- | ---- | -------- | ----------- |
| `teamId` | string | Ja | Team-ID, in dem der Status erstellt werden soll |
| `name` | string | Ja | Name des Status \(z.B. "In Prüfung"\) |
| `color` | string | Ja | Farbe des Status \(Hex-Format\) |
| `teamId` | string | Ja | Team-ID, in der der Status erstellt werden soll |
| `name` | string | Ja | Statusname \(z.B. "In Prüfung"\) |
| `color` | string | Nein | Statusfarbe \(Hex-Format\) |
| `type` | string | Ja | Statustyp: "backlog", "unstarted", "started", "completed" oder "canceled" |
| `description` | string | Nein | Beschreibung des Status |
| `description` | string | Nein | Statusbeschreibung |
| `position` | number | Nein | Position im Workflow |
#### Ausgabe
@@ -635,9 +661,9 @@ Einen Anhang zu einem Ticket in Linear hinzufügen
| Parameter | Typ | Erforderlich | Beschreibung |
| --------- | ---- | -------- | ----------- |
| `issueId` | string | Ja | Ticket-ID, an die der Anhang angehängt werden soll |
| `issueId` | string | Ja | Ticket-ID, an die angehängt werden soll |
| `url` | string | Ja | URL des Anhangs |
| `title` | string | Nein | Titel des Anhangs |
| `title` | string | Ja | Titel des Anhangs |
| `subtitle` | string | Nein | Untertitel/Beschreibung des Anhangs |
#### Ausgabe
@@ -673,7 +699,7 @@ Metadaten eines Anhangs in Linear aktualisieren
| Parameter | Typ | Erforderlich | Beschreibung |
| --------- | ---- | -------- | ----------- |
| `attachmentId` | string | Ja | Anhang-ID zum Aktualisieren |
| `title` | string | Nein | Neuer Titel des Anhangs |
| `title` | string | Ja | Neuer Titel des Anhangs |
| `subtitle` | string | Nein | Neuer Untertitel des Anhangs |
#### Ausgabe
@@ -707,8 +733,8 @@ Zwei Tickets in Linear miteinander verknüpfen (blockiert, bezieht sich auf, dup
| Parameter | Typ | Erforderlich | Beschreibung |
| --------- | ---- | -------- | ----------- |
| `issueId` | string | Ja | Quell-Ticket-ID |
| `relatedIssueId` | string | Ja | Ziel-Ticket-ID für die Verknüpfung |
| `type` | string | Ja | Beziehungstyp: "blocks", "blocked", "duplicate", "related" |
| `relatedIssueId` | string | Ja | Ziel-Ticket-ID, mit der verknüpft werden soll |
| `type` | string | Ja | Beziehungstyp: "blocks", "duplicate" oder "related". Hinweis: Wenn "blocks" von A nach B erstellt wird, wird die umgekehrte Beziehung \(B blockiert durch A\) automatisch erstellt. |
#### Ausgabe
@@ -1217,7 +1243,8 @@ Ein neues Projekt-Label in Linear erstellen
| Parameter | Typ | Erforderlich | Beschreibung |
| --------- | ---- | -------- | ----------- |
| `name` | string | Ja | Projekt-Label-Name |
| `projectId` | string | Ja | Das Projekt für dieses Label |
| `name` | string | Ja | Projektlabel-Name |
| `color` | string | Nein | Label-Farbe \(Hex-Code\) |
| `description` | string | Nein | Label-Beschreibung |
| `isGroup` | boolean | Nein | Ob dies eine Label-Gruppe ist |
@@ -1394,6 +1421,7 @@ Einen neuen Projektstatus in Linear erstellen
| Parameter | Typ | Erforderlich | Beschreibung |
| --------- | ---- | -------- | ----------- |
| `projectId` | string | Ja | Das Projekt, für das der Status erstellt werden soll |
| `name` | string | Ja | Name des Projektstatus |
| `color` | string | Ja | Statusfarbe \(Hex-Code\) |
| `description` | string | Nein | Statusbeschreibung |

View File

@@ -11,26 +11,43 @@ import { BlockInfoCard } from "@/components/ui/block-info-card"
/>
{/* MANUAL-CONTENT-START:intro */}
Transkribiere Sprache zu Text mit modernsten KI-Modellen führender Anbieter. Die Sim Speech-to-Text (STT)-Tools ermöglichen es dir, Audio- und Videodateien in präzise Transkripte umzuwandeln, mit Unterstützung für mehrere Sprachen, Zeitstempel und optionaler Übersetzung.
Transkribieren Sie Sprache zu Text mit den neuesten KI-Modellen von erstklassigen Anbietern. Die Speech-to-Text (STT)-Tools von Sim ermöglichen es Ihnen, Audio und Video in genaue, mit Zeitstempeln versehene und optional übersetzte Transkripte umzuwandeln mit Unterstützung für verschiedene Sprachen und erweitert durch fortschrittliche Funktionen wie Sprechertrennung und Sprecheridentifikation.
Unterstützte Anbieter:
**Unterstützte Anbieter & Modelle:**
- **[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)**: Fortschrittliches Open-Source-STT-Modell von OpenAI. Unterstützt Modelle wie `whisper-1` und verarbeitet eine Vielzahl von Sprachen und Audioformaten.
- **[Deepgram](https://deepgram.com/)**: Echtzeit- und Batch-STT-API mit Deep-Learning-Modellen wie `nova-3`, `nova-2` und `whisper-large`. Bietet Funktionen wie Sprechererkennung, Intentionserkennung und branchenspezifische Anpassungen.
- **[ElevenLabs](https://elevenlabs.io/)**: Bekannt für hochwertige Sprach-KI, bietet ElevenLabs STT-Modelle mit Fokus auf Genauigkeit und natürlichem Sprachverständnis für zahlreiche Sprachen und Dialekte.
- **[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)** (OpenAI):
OpenAIs Whisper ist ein Open-Source-Deep-Learning-Modell, das für seine Robustheit in verschiedenen Sprachen und Audiobedingungen bekannt ist. Es unterstützt fortschrittliche Modelle wie `whisper-1` und zeichnet sich bei Transkription, Übersetzung und Aufgaben aus, die eine hohe Modellgeneralisierung erfordern. Unterstützt von OpenAI dem Unternehmen hinter ChatGPT und führender KI-Forschung wird Whisper häufig in der Forschung und als Basis für vergleichende Bewertungen eingesetzt.
Wähle den Anbieter und das Modell, das am besten zu deiner Aufgabe passt sei es schnelle, produktionsreife Transkription (Deepgram), hochpräzise Mehrsprachenfähigkeit (Whisper) oder fortschrittliches Verständnis und Sprachabdeckung (ElevenLabs).
- **[Deepgram](https://deepgram.com/)** (Deepgram Inc.):
Das in San Francisco ansässige Unternehmen Deepgram bietet skalierbare, produktionsreife Spracherkennungs-APIs für Entwickler und Unternehmen. Zu den Modellen von Deepgram gehören `nova-3`, `nova-2` und `whisper-large`. Sie bieten Echtzeit- und Batch-Transkription mit branchenführender Genauigkeit, Unterstützung mehrerer Sprachen, automatische Zeichensetzung, intelligente Sprechertrennung, Anrufanalysen und Funktionen für Anwendungsfälle von der Telefonie bis zur Medienproduktion.
- **[ElevenLabs](https://elevenlabs.io/)** (ElevenLabs):
Als führendes Unternehmen im Bereich Sprach-KI ist ElevenLabs besonders für hochwertige Sprachsynthese und -erkennung bekannt. Sein STT-Produkt bietet hochpräzises, natürliches Verständnis zahlreicher Sprachen, Dialekte und Akzente. Die neuesten STT-Modelle von ElevenLabs sind für Klarheit und Sprecherunterscheidung optimiert und eignen sich sowohl für kreative als auch für Barrierefreiheitsszenarien. ElevenLabs ist bekannt für bahnbrechende Fortschritte bei KI-gestützten Sprachtechnologien.
- **[AssemblyAI](https://www.assemblyai.com/)** (AssemblyAI Inc.):
AssemblyAI bietet API-gesteuerte, hochpräzise Spracherkennung mit Funktionen wie automatischer Kapitelbildung, Themenerkennung, Zusammenfassung, Stimmungsanalyse und Inhaltsmoderation neben der Transkription. Sein proprietäres Modell, einschließlich des gefeierten `Conformer-2`, unterstützt einige der größten Medien-, Call-Center- und Compliance-Anwendungen der Branche. AssemblyAI wird weltweit von Fortune-500-Unternehmen und führenden KI-Startups vertraut.
- **[Google Cloud Speech-to-Text](https://cloud.google.com/speech-to-text)** (Google Cloud):
Googles Speech-to-Text API für Unternehmen unterstützt über 125 Sprachen und Varianten und bietet hohe Genauigkeit sowie Funktionen wie Echtzeit-Streaming, Wort-für-Wort-Konfidenz, Sprechererkennung, automatische Zeichensetzung, benutzerdefiniertes Vokabular und domänenspezifische Anpassungen. Modelle wie `latest_long`, `video` und domänenoptimierte Modelle stehen zur Verfügung, basierend auf Googles jahrelanger Forschung und für globale Skalierbarkeit entwickelt.
- **[AWS Transcribe](https://aws.amazon.com/transcribe/)** (Amazon Web Services):
AWS Transcribe nutzt Amazons Cloud-Infrastruktur, um robuste Spracherkennung als API bereitzustellen. Es unterstützt mehrere Sprachen und Funktionen wie Sprecheridentifikation, benutzerdefiniertes Vokabular, Kanalidentifikation (für Call-Center-Audio) und medizinspezifische Transkription. Zu den beliebten Modellen gehören `standard` und domänenspezifische Varianten. AWS Transcribe ist ideal für Organisationen, die bereits Amazons Cloud nutzen.
**Wie man wählt:**
Wählen Sie den Anbieter und das Modell, das zu Ihrer Anwendung passt ob Sie schnelle, unternehmenstaugliche Transkription mit zusätzlicher Analytik benötigen (Deepgram, AssemblyAI, Google, AWS), hohe Vielseitigkeit und Open-Source-Zugang (OpenAI Whisper) oder fortschrittliches Sprecher-/Kontextverständnis (ElevenLabs). Berücksichtigen Sie die Preisgestaltung, Sprachabdeckung, Genauigkeit und alle speziellen Funktionen (wie Zusammenfassung, Kapitelunterteilung oder Stimmungsanalyse), die Sie möglicherweise benötigen.
Weitere Details zu Funktionen, Preisen, Funktionshighlights und Feinabstimmungsoptionen finden Sie in der offiziellen Dokumentation jedes Anbieters über die oben genannten Links.
{/* MANUAL-CONTENT-END */}
## Nutzungsanleitung
Transkribiere Audio- und Videodateien zu Text mit führenden KI-Anbietern. Unterstützt mehrere Sprachen, Zeitstempel und Sprechererkennung.
Transkribieren Sie Audio- und Videodateien mit führenden KI-Anbietern in Text. Unterstützt mehrere Sprachen, Zeitstempel und Sprechererkennung.
## Tools
### `stt_whisper`
Transkribiere Audio zu Text mit OpenAI Whisper
Transkribieren Sie Audio in Text mit OpenAI Whisper
#### Eingabe
@@ -39,22 +56,23 @@ Transkribiere Audio zu Text mit OpenAI Whisper
| `provider` | string | Ja | STT-Anbieter \(whisper\) |
| `apiKey` | string | Ja | OpenAI API-Schlüssel |
| `model` | string | Nein | Zu verwendendes Whisper-Modell \(Standard: whisper-1\) |
| `audioFile` | file | Nein | Zu transkribierende Audio- oder Videodatei |
| `audioFileReference` | file | Nein | Verweis auf Audio-/Videodatei aus vorherigen Blöcken |
| `audioFile` | file | Nein | Audio- oder Videodatei zur Transkription |
| `audioFileReference` | file | Nein | Referenz zu Audio-/Videodatei aus vorherigen Blöcken |
| `audioUrl` | string | Nein | URL zu Audio- oder Videodatei |
| `language` | string | Nein | Sprachcode \(z.B. "en", "es", "fr"\) oder "auto" für automatische Erkennung |
| `timestamps` | string | Nein | Zeitstempel-Granularität: none, sentence oder word |
| `translateToEnglish` | boolean | Nein | Audio ins Englische übersetzen |
| `prompt` | string | Nein | Optionaler Text, um den Stil des Modells zu leiten oder ein vorheriges Audiosegment fortzusetzen. Hilft bei Eigennamen und Kontext. |
| `temperature` | number | Nein | Sampling-Temperatur zwischen 0 und 1. Höhere Werte machen die Ausgabe zufälliger, niedrigere Werte fokussierter und deterministischer. |
#### Ausgabe
| Parameter | Typ | Beschreibung |
| --------- | ---- | ----------- |
| `transcript` | string | Vollständig transkribierter Text |
| `transcript` | string | Vollständiger transkribierter Text |
| `segments` | array | Segmente mit Zeitstempeln |
| `language` | string | Erkannte oder angegebene Sprache |
| `duration` | number | Audiodauer in Sekunden |
| `confidence` | number | Gesamter Konfidenzwert |
### `stt_deepgram`
@@ -78,7 +96,7 @@ Audio mit Deepgram in Text transkribieren
| Parameter | Typ | Beschreibung |
| --------- | ---- | ----------- |
| `transcript` | string | Vollständig transkribierter Text |
| `transcript` | string | Vollständiger transkribierter Text |
| `segments` | array | Segmente mit Zeitstempeln und Sprecherkennungen |
| `language` | string | Erkannte oder angegebene Sprache |
| `duration` | number | Audiodauer in Sekunden |
@@ -86,7 +104,7 @@ Audio mit Deepgram in Text transkribieren
### `stt_elevenlabs`
Audio in Text transkribieren mit ElevenLabs
Audio mit ElevenLabs in Text transkribieren
#### Eingabe
@@ -94,9 +112,71 @@ Audio in Text transkribieren mit ElevenLabs
| --------- | ---- | -------- | ----------- |
| `provider` | string | Ja | STT-Anbieter \(elevenlabs\) |
| `apiKey` | string | Ja | ElevenLabs API-Schlüssel |
| `model` | string | Nein | Zu verwendenes ElevenLabs-Modell \(scribe_v1, scribe_v1_experimental\) |
| `audioFile` | file | Nein | Audio- oder Videodatei zur Transkription |
| `audioFileReference` | file | Nein | Referenz zu Audio-/Videodatei aus vorherigen Blöcken |
| `model` | string | Nein | Zu verwendendes ElevenLabs-Modell \(scribe_v1, scribe_v1_experimental\) |
| `audioFile` | file | Nein | Zu transkribierendes Audio- oder Videodatei |
| `audioFileReference` | file | Nein | Referenz auf Audio-/Videodatei aus vorherigen Blöcken |
| `audioUrl` | string | Nein | URL zu Audio- oder Videodatei |
| `language` | string | Nein | Sprachcode \(z.B. "en", "es", "fr"\) oder "auto" für automatische Erkennung |
| `timestamps` | string | Nein | Zeitstempel-Granularität: none, sentence oder word |
#### Ausgabe
| Parameter | Typ | Beschreibung |
| --------- | ---- | ----------- |
| `transcript` | string | Vollständig transkribierter Text |
| `segments` | array | Segmente mit Zeitstempeln |
| `language` | string | Erkannte oder angegebene Sprache |
| `duration` | number | Audiodauer in Sekunden |
| `confidence` | number | Gesamter Konfidenzwert |
### `stt_assemblyai`
Audio mit AssemblyAI und erweiterten NLP-Funktionen in Text transkribieren
#### Eingabe
| Parameter | Typ | Erforderlich | Beschreibung |
| --------- | ---- | -------- | ----------- |
| `provider` | string | Ja | STT-Anbieter \(assemblyai\) |
| `apiKey` | string | Ja | AssemblyAI API-Schlüssel |
| `model` | string | Nein | Zu verwendendes AssemblyAI-Modell \(Standard: best\) |
| `audioFile` | file | Nein | Zu transkribierendes Audio- oder Videodatei |
| `audioFileReference` | file | Nein | Referenz auf Audio-/Videodatei aus vorherigen Blöcken |
| `audioUrl` | string | Nein | URL zu Audio- oder Videodatei |
| `language` | string | Nein | Sprachcode \(z.B. "en", "es", "fr"\) oder "auto" für automatische Erkennung |
| `timestamps` | string | Nein | Zeitstempel-Granularität: none, sentence oder word |
| `diarization` | boolean | Nein | Sprechererkennung aktivieren |
| `sentiment` | boolean | Nein | Stimmungsanalyse aktivieren |
| `entityDetection` | boolean | Nein | Entitätserkennung aktivieren |
| `piiRedaction` | boolean | Nein | PII-Schwärzung aktivieren |
| `summarization` | boolean | Nein | Automatische Zusammenfassung aktivieren |
#### Ausgabe
| Parameter | Typ | Beschreibung |
| --------- | ---- | ----------- |
| `transcript` | string | Vollständig transkribierter Text |
| `segments` | array | Segmente mit Zeitstempeln und Sprecherkennungen |
| `language` | string | Erkannte oder angegebene Sprache |
| `duration` | number | Audiodauer in Sekunden |
| `confidence` | number | Gesamter Konfidenzwert |
| `sentiment` | array | Ergebnisse der Stimmungsanalyse |
| `entities` | array | Erkannte Entitäten |
| `summary` | string | Automatisch generierte Zusammenfassung |
### `stt_gemini`
Audio mit Google Gemini und multimodalen Fähigkeiten in Text transkribieren
#### Eingabe
| Parameter | Typ | Erforderlich | Beschreibung |
| --------- | ---- | -------- | ----------- |
| `provider` | string | Ja | STT-Anbieter \(gemini\) |
| `apiKey` | string | Ja | Google API-Schlüssel |
| `model` | string | Nein | Zu verwendendes Gemini-Modell \(Standard: gemini-2.5-flash\) |
| `audioFile` | file | Nein | Zu transkribierendes Audio- oder Videodatei |
| `audioFileReference` | file | Nein | Referenz auf Audio-/Videodatei aus vorherigen Blöcken |
| `audioUrl` | string | Nein | URL zu Audio- oder Videodatei |
| `language` | string | Nein | Sprachcode \(z.B. "en", "es", "fr"\) oder "auto" für automatische Erkennung |
| `timestamps` | string | Nein | Zeitstempel-Granularität: none, sentence oder word |

View File

@@ -0,0 +1,256 @@
---
title: Text-zu-Sprache
description: Text mit KI-Stimmen in Sprache umwandeln
---
import { BlockInfoCard } from "@/components/ui/block-info-card"
<BlockInfoCard
type="tts"
color="#181C1E"
/>
{/* MANUAL-CONTENT-START:intro */}
Wandeln Sie Text in natürlich klingende Sprache mit den neuesten KI-Stimmen um. Die Text-zu-Sprache (TTS)-Tools von Sim ermöglichen es Ihnen, Audio aus geschriebenem Text in Dutzenden von Sprachen zu generieren, mit einer Auswahl an ausdrucksstarken Stimmen, Formaten und erweiterten Steuerungsmöglichkeiten wie Geschwindigkeit, Stil, Emotion und mehr.
**Unterstützte Anbieter & Modelle:**
- **[OpenAI Text-to-Speech](https://platform.openai.com/docs/guides/text-to-speech/voice-options)** (OpenAI):
OpenAIs TTS-API bietet ultra-realistische Stimmen mit fortschrittlichen KI-Modellen wie `tts-1`, `tts-1-hd` und `gpt-4o-mini-tts`. Die Stimmen umfassen sowohl männliche als auch weibliche Optionen wie alloy, echo, fable, onyx, nova, shimmer, ash, ballad, coral, sage und verse. Unterstützt werden verschiedene Audioformate (mp3, opus, aac, flac, wav, pcm), einstellbare Geschwindigkeit und Streaming-Synthese.
- **[Deepgram Aura](https://deepgram.com/products/text-to-speech)** (Deepgram Inc.):
Deepgrams Aura bietet ausdrucksstarke englische und mehrsprachige KI-Stimmen, optimiert für Gesprächsklarheit, geringe Latenz und Anpassungsfähigkeit. Modelle wie `aura-asteria-en`, `aura-luna-en` und andere stehen zur Verfügung. Unterstützt werden verschiedene Kodierungsformate (linear16, mp3, opus, aac, flac) und Feinabstimmung bei Geschwindigkeit, Abtastrate und Stil.
- **[ElevenLabs Text-to-Speech](https://elevenlabs.io/text-to-speech)** (ElevenLabs):
ElevenLabs führt im Bereich lebensechter, emotional reicher TTS und bietet Dutzende von Stimmen in über 29 Sprachen sowie die Möglichkeit, benutzerdefinierte Stimmen zu klonen. Die Modelle unterstützen Stimmdesign, Sprachsynthese und direkten API-Zugriff mit erweiterten Steuerungsmöglichkeiten für Stil, Emotion, Stabilität und Ähnlichkeit. Geeignet für Hörbücher, Content-Erstellung, Barrierefreiheit und mehr.
- **[Cartesia TTS](https://docs.cartesia.ai/)** (Cartesia):
Cartesia bietet hochwertige, schnelle und sichere Text-zu-Sprache-Umwandlung mit Fokus auf Datenschutz und flexibler Bereitstellung. Es ermöglicht sofortiges Streaming, Echtzeit-Synthese und unterstützt mehrere internationale Stimmen und Akzente, zugänglich über eine einfache API.
- **[Google Cloud Text-to-Speech](https://cloud.google.com/text-to-speech)** (Google Cloud):
Google nutzt DeepMind WaveNet und Neural2-Modelle für hochwertige Stimmen in über 50 Sprachen und Varianten. Zu den Funktionen gehören Stimmauswahl, Tonhöhe, Sprechgeschwindigkeit, Lautstärkeregelung, SSML-Tags und Zugriff auf Standard- und Premium-Stimmen in Studioqualität. Wird häufig für Barrierefreiheit, IVR und Medien verwendet.
- **[Microsoft Azure Speech](https://azure.microsoft.com/en-us/products/ai-services/text-to-speech)** (Microsoft Azure):
Azure bietet über 400 neuronale Stimmen in mehr als 140 Sprachen und Regionen mit einzigartiger Stimmanpassung, Stil, Emotion, Rolle und Echtzeit-Steuerung. Unterstützt SSML für Aussprache, Intonation und mehr. Ideal für globale, Unternehmens- oder kreative TTS-Anforderungen.
- **[PlayHT](https://play.ht/)** (PlayHT):
PlayHT spezialisiert sich auf realistische Sprachsynthese, Stimmklonen und sofortige Streaming-Wiedergabe mit über 800 Stimmen in mehr als 100 Sprachen. Zu den Funktionen gehören Emotions-, Tonhöhen- und Geschwindigkeitssteuerung, Mehrfachstimmen-Audio und benutzerdefinierte Stimmerstellung über die API oder das Online-Studio.
**Auswahlkriterien:**
Wählen Sie Ihren Anbieter und das Modell, indem Sie Sprachen, unterstützte Stimmtypen, gewünschte Formate (mp3, wav usw.), Steuerungsgranularität (Geschwindigkeit, Emotion usw.) und spezielle Funktionen (Stimmklonen, Akzent, Streaming) priorisieren. Stellen Sie für kreative, Barrierefreiheits- oder Entwickleranwendungsfälle die Kompatibilität mit den Anforderungen Ihrer Anwendung sicher und vergleichen Sie die Kosten.
Besuchen Sie die offizielle Website jedes Anbieters für aktuelle Informationen zu Funktionen, Preisen und Dokumentation!
{/* MANUAL-CONTENT-END */}
## Nutzungsanleitung
Erzeugen Sie natürlich klingende Sprache aus Text mit modernsten KI-Stimmen von OpenAI, Deepgram, ElevenLabs, Cartesia, Google Cloud, Azure und PlayHT. Unterstützt mehrere Stimmen, Sprachen und Audioformate.
## Tools
### `tts_openai`
Text in Sprache umwandeln mit OpenAI TTS-Modellen
#### Eingabe
| Parameter | Typ | Erforderlich | Beschreibung |
| --------- | ---- | -------- | ----------- |
| `text` | string | Ja | Der in Sprache umzuwandelnde Text |
| `apiKey` | string | Ja | OpenAI API-Schlüssel |
| `model` | string | Nein | Zu verwendendes TTS-Modell \(tts-1, tts-1-hd oder gpt-4o-mini-tts\) |
| `voice` | string | Nein | Zu verwendende Stimme \(alloy, ash, ballad, cedar, coral, echo, marin, sage, shimmer, verse\) |
| `responseFormat` | string | Nein | Audioformat \(mp3, opus, aac, flac, wav, pcm\) |
| `speed` | number | Nein | Sprechgeschwindigkeit \(0,25 bis 4,0, Standard: 1,0\) |
#### Output
| Parameter | Typ | Beschreibung |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL zur generierten Audiodatei |
| `audioFile` | file | Generiertes Audiodateiobjekt |
| `duration` | number | Audiodauer in Sekunden |
| `characterCount` | number | Anzahl der verarbeiteten Zeichen |
| `format` | string | Audioformat |
| `provider` | string | Verwendeter TTS-Anbieter |
### `tts_deepgram`
Text in Sprache umwandeln mit Deepgram Aura
#### Input
| Parameter | Typ | Erforderlich | Beschreibung |
| --------- | ---- | -------- | ----------- |
| `text` | string | Ja | Der in Sprache umzuwandelnde Text |
| `apiKey` | string | Ja | Deepgram API-Schlüssel |
| `model` | string | Nein | Deepgram Modell/Stimme \(z.B. aura-asteria-en, aura-luna-en\) |
| `voice` | string | Nein | Stimmenkennung \(Alternative zum Modellparameter\) |
| `encoding` | string | Nein | Audiokodierung \(linear16, mp3, opus, aac, flac\) |
| `sampleRate` | number | Nein | Abtastrate \(8000, 16000, 24000, 48000\) |
| `bitRate` | number | Nein | Bitrate für komprimierte Formate |
| `container` | string | Nein | Container-Format \(none, wav, ogg\) |
#### Output
| Parameter | Typ | Beschreibung |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL zur generierten Audiodatei |
| `audioFile` | file | Generiertes Audiodateiobjekt |
| `duration` | number | Audiodauer in Sekunden |
| `characterCount` | number | Anzahl der verarbeiteten Zeichen |
| `format` | string | Audioformat |
| `provider` | string | Verwendeter TTS-Anbieter |
### `tts_elevenlabs`
Text in Sprache umwandeln mit ElevenLabs-Stimmen
#### Eingabe
| Parameter | Typ | Erforderlich | Beschreibung |
| --------- | ---- | -------- | ----------- |
| `text` | string | Ja | Der in Sprache umzuwandelnde Text |
| `voiceId` | string | Ja | Die ID der zu verwendenden Stimme |
| `apiKey` | string | Ja | ElevenLabs API-Schlüssel |
| `modelId` | string | Nein | Zu verwendendes Modell \(z.B. eleven_monolingual_v1, eleven_turbo_v2_5, eleven_flash_v2_5\) |
| `stability` | number | Nein | Stimmstabilität \(0.0 bis 1.0, Standard: 0.5\) |
| `similarityBoost` | number | Nein | Ähnlichkeitsverstärkung \(0.0 bis 1.0, Standard: 0.8\) |
| `style` | number | Nein | Stilübertreibung \(0.0 bis 1.0\) |
| `useSpeakerBoost` | boolean | Nein | Sprecherverstärkung verwenden \(Standard: true\) |
#### Ausgabe
| Parameter | Typ | Beschreibung |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL zur generierten Audiodatei |
| `audioFile` | file | Generiertes Audiodateiobjekt |
| `duration` | number | Audiodauer in Sekunden |
| `characterCount` | number | Anzahl der verarbeiteten Zeichen |
| `format` | string | Audioformat |
| `provider` | string | Verwendeter TTS-Anbieter |
### `tts_cartesia`
Text in Sprache umwandeln mit Cartesia Sonic (extrem geringe Latenz)
#### Eingabe
| Parameter | Typ | Erforderlich | Beschreibung |
| --------- | ---- | -------- | ----------- |
| `text` | string | Ja | Der in Sprache umzuwandelnde Text |
| `apiKey` | string | Ja | Cartesia API-Schlüssel |
| `modelId` | string | Nein | Modell-ID \(sonic-english, sonic-multilingual\) |
| `voice` | string | Nein | Stimm-ID oder Embedding |
| `language` | string | Nein | Sprachcode \(en, es, fr, de, it, pt, usw.\) |
| `outputFormat` | json | Nein | Ausgabeformatkonfiguration \(Container, Kodierung, Abtastrate\) |
| `speed` | number | Nein | Geschwindigkeitsmultiplikator |
| `emotion` | array | Nein | Emotions-Tags für Sonic-3 \(z.B. \['positivity:high'\]\) |
#### Output
| Parameter | Type | Beschreibung |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL zur generierten Audiodatei |
| `audioFile` | file | Generiertes Audiodateiobjekt |
| `duration` | number | Audiodauer in Sekunden |
| `characterCount` | number | Anzahl der verarbeiteten Zeichen |
| `format` | string | Audioformat |
| `provider` | string | Verwendeter TTS-Anbieter |
### `tts_google`
Text in Sprache umwandeln mit Google Cloud Text-to-Speech
#### Input
| Parameter | Type | Erforderlich | Beschreibung |
| --------- | ---- | -------- | ----------- |
| `text` | string | Ja | Der in Sprache umzuwandelnde Text |
| `apiKey` | string | Ja | Google Cloud API-Schlüssel |
| `voiceId` | string | Nein | Stimm-ID (z.B. en-US-Neural2-A, en-US-Wavenet-D) |
| `languageCode` | string | Ja | Sprachcode (z.B. en-US, es-ES, fr-FR) |
| `gender` | string | Nein | Stimmgeschlecht (MALE, FEMALE, NEUTRAL) |
| `audioEncoding` | string | Nein | Audiokodierung (LINEAR16, MP3, OGG_OPUS, MULAW, ALAW) |
| `speakingRate` | number | Nein | Sprechgeschwindigkeit (0,25 bis 2,0, Standard: 1,0) |
| `pitch` | number | Nein | Stimmhöhe (-20,0 bis 20,0, Standard: 0,0) |
| `volumeGainDb` | number | Nein | Lautstärkeverstärkung in dB (-96,0 bis 16,0) |
| `sampleRateHertz` | number | Nein | Abtastrate in Hz |
| `effectsProfileId` | array | Nein | Effektprofil (z.B. ['headphone-class-device']) |
#### Ausgabe
| Parameter | Typ | Beschreibung |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL zur generierten Audiodatei |
| `audioFile` | file | Generiertes Audiodateiobjekt |
| `duration` | number | Audiodauer in Sekunden |
| `characterCount` | number | Anzahl der verarbeiteten Zeichen |
| `format` | string | Audioformat |
| `provider` | string | Verwendeter TTS-Anbieter |
### `tts_azure`
Text in Sprache umwandeln mit Azure Cognitive Services
#### Eingabe
| Parameter | Typ | Erforderlich | Beschreibung |
| --------- | ---- | -------- | ----------- |
| `text` | string | Ja | Der in Sprache umzuwandelnde Text |
| `apiKey` | string | Ja | Azure Speech Services API-Schlüssel |
| `voiceId` | string | Nein | Stimm-ID \(z.B. en-US-JennyNeural, en-US-GuyNeural\) |
| `region` | string | Nein | Azure-Region \(z.B. eastus, westus, westeurope\) |
| `outputFormat` | string | Nein | Ausgabe-Audioformat |
| `rate` | string | Nein | Sprechgeschwindigkeit \(z.B. +10%, -20%, 1.5\) |
| `pitch` | string | Nein | Stimmhöhe \(z.B. +5Hz, -2st, low\) |
| `style` | string | Nein | Sprechstil \(z.B. cheerful, sad, angry - nur für neurale Stimmen\) |
| `styleDegree` | number | Nein | Stilintensität \(0.01 bis 2.0\) |
| `role` | string | Nein | Rolle \(z.B. Girl, Boy, YoungAdultFemale\) |
#### Ausgabe
| Parameter | Typ | Beschreibung |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL zur generierten Audiodatei |
| `audioFile` | file | Generiertes Audiodateiobjekt |
| `duration` | number | Audiodauer in Sekunden |
| `characterCount` | number | Anzahl der verarbeiteten Zeichen |
| `format` | string | Audioformat |
| `provider` | string | Verwendeter TTS-Anbieter |
### `tts_playht`
Text in Sprache umwandeln mit PlayHT (Stimmklonen)
#### Eingabe
| Parameter | Typ | Erforderlich | Beschreibung |
| --------- | ---- | -------- | ----------- |
| `text` | string | Ja | Der in Sprache umzuwandelnde Text |
| `apiKey` | string | Ja | PlayHT API-Schlüssel \(AUTHORIZATION-Header\) |
| `userId` | string | Ja | PlayHT Benutzer-ID \(X-USER-ID-Header\) |
| `voice` | string | Nein | Stimm-ID oder Manifest-URL |
| `quality` | string | Nein | Qualitätsstufe \(draft, standard, premium\) |
| `outputFormat` | string | Nein | Ausgabeformat \(mp3, wav, ogg, flac, mulaw\) |
| `speed` | number | Nein | Geschwindigkeitsmultiplikator \(0,5 bis 2,0\) |
| `temperature` | number | Nein | Kreativität/Zufälligkeit \(0,0 bis 2,0\) |
| `voiceGuidance` | number | Nein | Stimmstabilität \(1,0 bis 6,0\) |
| `textGuidance` | number | Nein | Texttreue \(1,0 bis 6,0\) |
| `sampleRate` | number | Nein | Abtastrate \(8000, 16000, 22050, 24000, 44100, 48000\) |
#### Ausgabe
| Parameter | Typ | Beschreibung |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL zur generierten Audiodatei |
| `audioFile` | file | Generiertes Audiodateiobjekt |
| `duration` | number | Audiodauer in Sekunden |
| `characterCount` | number | Anzahl der verarbeiteten Zeichen |
| `format` | string | Audioformat |
| `provider` | string | Verwendeter TTS-Anbieter |
## Notizen
- Kategorie: `tools`
- Typ: `tts`

View File

@@ -0,0 +1,192 @@
---
title: Video-Generator
description: Generiere Videos aus Text mit KI
---
import { BlockInfoCard } from "@/components/ui/block-info-card"
<BlockInfoCard
type="video_generator"
color="#181C1E"
/>
{/* MANUAL-CONTENT-START:intro */}
Erstelle Videos aus Textaufforderungen mit modernsten KI-Modellen führender Anbieter. Sims Video-Generator bringt leistungsstarke, kreative Videosynthese-Funktionen in deinen Workflow mit Unterstützung für verschiedene Modelle, Seitenverhältnisse, Auflösungen, Kamerasteuerungen, nativen Ton und fortschrittliche Stil- und Konsistenzfunktionen.
**Unterstützte Anbieter & Modelle:**
- **[Runway Gen-4](https://research.runwayml.com/gen2/)** (Runway ML):
Runway ist ein Pionier in der Text-zu-Video-Generierung, bekannt für leistungsstarke Modelle wie Gen-2, Gen-3 und Gen-4. Das neueste [Gen-4](https://research.runwayml.com/gen2/) Modell (und Gen-4 Turbo für schnellere Ergebnisse) unterstützt realistischere Bewegungen, größere Weltkonsistenz und visuelle Referenzen für Charaktere, Objekte, Stil und Orte. Unterstützt 16:9, 9:16 und 1:1 Seitenverhältnisse, 5-10 Sekunden Dauer, bis zu 4K Auflösung, Stil-Voreinstellungen und direktes Hochladen von Referenzbildern für konsistente Generierungen. Runway bietet kreative Werkzeuge für Filmemacher, Studios und Content-Ersteller weltweit.
- **[Google Veo](https://deepmind.google/technologies/veo/)** (Google DeepMind):
[Veo](https://deepmind.google/technologies/veo/) ist Googles Video-Generationsmodell der nächsten Generation, das hochwertige Videos mit nativem Audio in bis zu 1080p und 16 Sekunden Länge bietet. Unterstützt fortschrittliche Bewegungen, filmische Effekte und nuanciertes Textverständnis. Veo kann Videos mit eingebautem Ton generieren sowohl mit nativem Audio als auch als stumme Clips. Optionen umfassen 16:9 Seitenverhältnis, variable Dauer, verschiedene Modelle (veo-3, veo-3.1) und promptbasierte Steuerungen. Ideal für Storytelling, Werbung, Forschung und Ideenfindung.
- **[Luma Dream Machine](https://lumalabs.ai/dream-machine)** (Luma AI):
[Dream Machine](https://lumalabs.ai/dream-machine) liefert atemberaubend realistische und flüssige Videos aus Text. Es integriert fortschrittliche Kamerasteuerung, Kinematografie-Prompts und unterstützt sowohl ray-1 als auch ray-2 Modelle. Dream Machine unterstützt präzise Seitenverhältnisse (16:9, 9:16, 1:1), variable Dauern und die Spezifikation von Kamerapfaden für komplexe visuelle Führung. Luma ist bekannt für bahnbrechende visuelle Wiedergabetreue und wird von führenden KI-Visions-Forschern unterstützt.
- **[MiniMax Hailuo-02](https://minimax.chat/)** (über [Fal.ai](https://fal.ai/)):
[MiniMax Hailuo-02](https://minimax.chat/) ist ein anspruchsvolles chinesisches generatives Videomodell, das weltweit über [Fal.ai](https://fal.ai/) verfügbar ist. Generiere Videos bis zu 16 Sekunden im Quer- oder Hochformat, mit Optionen zur Prompt-Optimierung für verbesserte Klarheit und Kreativität. Pro- und Standard-Endpunkte verfügbar, die hohe Auflösungen (bis zu 1920×1080) unterstützen. Gut geeignet für kreative Projekte, die Prompt-Übersetzung und -Optimierung benötigen, kommerzielle Storytelling und schnelle Prototypenerstellung visueller Ideen.
**Wie man wählt:**
Wähle deinen Anbieter und dein Modell basierend auf deinen Anforderungen an Qualität, Geschwindigkeit, Dauer, Audio, Kosten und einzigartigen Funktionen. Runway und Veo bieten weltweit führenden Realismus und filmische Fähigkeiten; Luma überzeugt durch flüssige Bewegungen und Kamerasteuerung; MiniMax ist ideal für chinesischsprachige Prompts und bietet schnellen, kostengünstigen Zugang. Berücksichtige Referenzunterstützung, Stilvoreinstellungen, Audioanforderungen und Preisgestaltung bei der Auswahl deines Tools.
Weitere Details zu Funktionen, Einschränkungen, Preisen und Modellfortschritten findest du in der offiziellen Dokumentation der jeweiligen Anbieter oben.
{/* MANUAL-CONTENT-END */}
## Nutzungsanleitung
Generiere hochwertige Videos aus Textprompts mit führenden KI-Anbietern. Unterstützt mehrere Modelle, Seitenverhältnisse, Auflösungen und anbieterspezifische Funktionen wie Weltkonsistenz, Kamerasteuerung und Audiogenerierung.
## Tools
### `video_runway`
Generiere Videos mit Runway Gen-4 mit Weltkonsistenz und visuellen Referenzen
#### Eingabe
| Parameter | Typ | Erforderlich | Beschreibung |
| --------- | ---- | -------- | ----------- |
| `provider` | string | Ja | Video-Anbieter \(runway\) |
| `apiKey` | string | Ja | Runway API-Schlüssel |
| `model` | string | Nein | Runway-Modell: gen-4 \(Standard, höhere Qualität\) oder gen-4-turbo \(schneller\) |
| `prompt` | string | Ja | Textprompt, der das zu generierende Video beschreibt |
| `duration` | number | Nein | Videodauer in Sekunden \(5 oder 10, Standard: 5\) |
| `aspectRatio` | string | Nein | Seitenverhältnis: 16:9 \(Querformat\), 9:16 \(Hochformat\) oder 1:1 \(quadratisch\) |
| `resolution` | string | Nein | Videoauflösung \(720p-Ausgabe\). Hinweis: Gen-4 Turbo gibt nativ in 720p aus |
| `visualReference` | json | Ja | Referenzbild ERFORDERLICH für Gen-4 \(UserFile-Objekt\). Gen-4 unterstützt nur Bild-zu-Video, keine reine Textgenerierung |
#### Output
| Parameter | Typ | Beschreibung |
| --------- | ---- | ----------- |
| `videoUrl` | string | Generierte Video-URL |
| `videoFile` | json | Video-Dateiobjekt mit Metadaten |
| `duration` | number | Videodauer in Sekunden |
| `width` | number | Videobreite in Pixeln |
| `height` | number | Videohöhe in Pixeln |
| `provider` | string | Verwendeter Anbieter \(runway\) |
| `model` | string | Verwendetes Modell |
| `jobId` | string | Runway-Job-ID |
### `video_veo`
Videos mit Google Veo 3/3.1 mit nativer Audiogenerierung erstellen
#### Input
| Parameter | Typ | Erforderlich | Beschreibung |
| --------- | ---- | -------- | ----------- |
| `provider` | string | Ja | Video-Anbieter \(veo\) |
| `apiKey` | string | Ja | Google Gemini API-Schlüssel |
| `model` | string | Nein | Veo-Modell: veo-3 \(Standard, höchste Qualität\), veo-3-fast \(schneller\) oder veo-3.1 \(neueste Version\) |
| `prompt` | string | Ja | Textaufforderung, die das zu generierende Video beschreibt |
| `duration` | number | Nein | Videodauer in Sekunden \(4, 6 oder 8, Standard: 8\) |
| `aspectRatio` | string | Nein | Seitenverhältnis: 16:9 \(Querformat\) oder 9:16 \(Hochformat\) |
| `resolution` | string | Nein | Videoauflösung: 720p oder 1080p \(Standard: 1080p\) |
#### Output
| Parameter | Typ | Beschreibung |
| --------- | ---- | ----------- |
| `videoUrl` | string | Generierte Video-URL |
| `videoFile` | json | Video-Dateiobjekt mit Metadaten |
| `duration` | number | Videodauer in Sekunden |
| `width` | number | Videobreite in Pixeln |
| `height` | number | Videohöhe in Pixeln |
| `provider` | string | Verwendeter Anbieter \(veo\) |
| `model` | string | Verwendetes Modell |
| `jobId` | string | Veo-Job-ID |
### `video_luma`
Generiere Videos mit Luma Dream Machine mit erweiterten Kamerasteuerungen
#### Eingabe
| Parameter | Typ | Erforderlich | Beschreibung |
| --------- | ---- | -------- | ----------- |
| `provider` | string | Ja | Video-Anbieter \(luma\) |
| `apiKey` | string | Ja | Luma AI API-Schlüssel |
| `model` | string | Nein | Luma-Modell: ray-2 \(Standard\) |
| `prompt` | string | Ja | Textaufforderung, die das zu generierende Video beschreibt |
| `duration` | number | Nein | Videodauer in Sekunden \(5 oder 9, Standard: 5\) |
| `aspectRatio` | string | Nein | Seitenverhältnis: 16:9 \(Querformat\), 9:16 \(Hochformat\) oder 1:1 \(quadratisch\) |
| `resolution` | string | Nein | Videoauflösung: 540p, 720p oder 1080p \(Standard: 1080p\) |
| `cameraControl` | json | Nein | Kamerasteuerungen als Array von Konzeptobjekten. Format: \[\{ "key": "concept_name" \}\]. Gültige Schlüssel: truck_left, truck_right, pan_left, pan_right, tilt_up, tilt_down, zoom_in, zoom_out, push_in, pull_out, orbit_left, orbit_right, crane_up, crane_down, static, handheld und mehr als 20 weitere vordefinierte Optionen |
#### Ausgabe
| Parameter | Typ | Beschreibung |
| --------- | ---- | ----------- |
| `videoUrl` | string | Generierte Video-URL |
| `videoFile` | json | Video-Dateiobjekt mit Metadaten |
| `duration` | number | Videodauer in Sekunden |
| `width` | number | Videobreite in Pixeln |
| `height` | number | Videohöhe in Pixeln |
| `provider` | string | Verwendeter Anbieter \(luma\) |
| `model` | string | Verwendetes Modell |
| `jobId` | string | Luma-Job-ID |
### `video_minimax`
Generiere Videos mit MiniMax Hailuo über die MiniMax Platform API mit fortschrittlichem Realismus und Prompt-Optimierung
#### Eingabe
| Parameter | Typ | Erforderlich | Beschreibung |
| --------- | ---- | -------- | ----------- |
| `provider` | string | Ja | Video-Anbieter \(minimax\) |
| `apiKey` | string | Ja | MiniMax API-Schlüssel von platform.minimax.io |
| `model` | string | Nein | MiniMax-Modell: hailuo-02 \(Standard\) |
| `prompt` | string | Ja | Textprompt, der das zu generierende Video beschreibt |
| `duration` | number | Nein | Videodauer in Sekunden \(6 oder 10, Standard: 6\) |
| `promptOptimizer` | boolean | Nein | Prompt-Optimierung für bessere Ergebnisse aktivieren \(Standard: true\) |
#### Ausgabe
| Parameter | Typ | Beschreibung |
| --------- | ---- | ----------- |
| `videoUrl` | string | URL des generierten Videos |
| `videoFile` | json | Video-Dateiobjekt mit Metadaten |
| `duration` | number | Videodauer in Sekunden |
| `width` | number | Videobreite in Pixeln |
| `height` | number | Videohöhe in Pixeln |
| `provider` | string | Verwendeter Anbieter \(minimax\) |
| `model` | string | Verwendetes Modell |
| `jobId` | string | MiniMax Job-ID |
### `video_falai`
Generiere Videos mit der Fal.ai-Plattform mit Zugriff auf mehrere Modelle, darunter Veo 3.1, Sora 2, Kling 2.5, MiniMax Hailuo und mehr
#### Eingabe
| Parameter | Typ | Erforderlich | Beschreibung |
| --------- | ---- | -------- | ----------- |
| `provider` | string | Ja | Video-Anbieter \(falai\) |
| `apiKey` | string | Ja | Fal.ai API-Schlüssel |
| `model` | string | Ja | Fal.ai-Modell: veo-3.1 \(Google Veo 3.1\), sora-2 \(OpenAI Sora 2\), kling-2.5-turbo-pro \(Kling 2.5 Turbo Pro\), kling-2.1-pro \(Kling 2.1 Master\), minimax-hailuo-2.3-pro \(MiniMax Hailuo Pro\), minimax-hailuo-2.3-standard \(MiniMax Hailuo Standard\), wan-2.1 \(WAN T2V\), ltxv-0.9.8 \(LTXV 13B\) |
| `prompt` | string | Ja | Textprompt, der das zu generierende Video beschreibt |
| `duration` | number | Nein | Videodauer in Sekunden \(variiert je nach Modell\) |
| `aspectRatio` | string | Nein | Seitenverhältnis \(variiert je nach Modell\): 16:9, 9:16, 1:1 |
| `resolution` | string | Nein | Videoauflösung \(variiert je nach Modell\): 540p, 720p, 1080p |
| `promptOptimizer` | boolean | Nein | Prompt-Optimierung für MiniMax-Modelle aktivieren \(Standard: true\) |
#### Ausgabe
| Parameter | Typ | Beschreibung |
| --------- | ---- | ----------- |
| `videoUrl` | string | Generierte Video-URL |
| `videoFile` | json | Video-Dateiobjekt mit Metadaten |
| `duration` | number | Videodauer in Sekunden |
| `width` | number | Videobreite in Pixeln |
| `height` | number | Videohöhe in Pixeln |
| `provider` | string | Verwendeter Anbieter \(falai\) |
| `model` | string | Verwendetes Modell |
| `jobId` | string | Job-ID |
## Hinweise
- Kategorie: `tools`
- Typ: `video_generator`

View File

@@ -4,10 +4,21 @@ description: Trigger sind die grundlegenden Möglichkeiten, um Sim-Workflows zu
---
import { Card, Cards } from 'fumadocs-ui/components/card'
import { Image } from '@/components/ui/image'
## Kern-Auslöser
<div className="flex justify-center">
<Image
src="/static/blocks/triggers.png"
alt="Triggers-Übersicht"
width={500}
height={350}
className="my-6"
/>
</div>
Verwende den Start-Block für alles, was vom Editor, von Deploy-to-API oder von Deploy-to-Chat-Erfahrungen ausgeht. Andere Trigger bleiben für ereignisgesteuerte Workflows verfügbar:
## Kern-Trigger
Verwende den Start-Block für alles, was aus dem Editor, deploy-to-API oder deploy-to-chat Erfahrungen stammt. Andere Trigger bleiben für ereignisgesteuerte Workflows verfügbar:
<Cards>
<Card title="Start" href="/triggers/start">
@@ -23,30 +34,30 @@ Verwende den Start-Block für alles, was vom Editor, von Deploy-to-API oder von
## Schneller Vergleich
| Auslöser | Startbedingung |
| Trigger | Startbedingung |
|---------|-----------------|
| **Start** | Editor läuft, Deploy-to-API-Anfragen oder Chat-Nachrichten |
| **Schedule** | Timer, der im Zeitplanblock verwaltet wird |
| **Start** | Editor-Ausführungen, deploy-to-API Anfragen oder Chat-Nachrichten |
| **Schedule** | Timer, der im Schedule-Block verwaltet wird |
| **Webhook** | Bei eingehender HTTP-Anfrage |
> Der Start-Block stellt immer `input`, `conversationId` und `files`Felder bereit. Füge benutzerdefinierte Felder zum Eingabeformat für zusätzliche strukturierte Daten hinzu.
> Der Start-Block stellt immer `input`, `conversationId` und `files` Felder bereit. Füge benutzerdefinierte Felder zum Eingabeformat für zusätzliche strukturierte Daten hinzu.
## Verwendung von Triggern
1. Platziere den Start-Block im Startslot (oder einen alternativen Trigger wie Webhook/Schedule).
2. Konfiguriere alle erforderlichen Schema- oder Authentifizierungseinstellungen.
1. Platziere den Start-Block im Start-Slot (oder einen alternativen Trigger wie Webhook/Schedule).
2. Konfiguriere alle erforderlichen Schema- oder Auth-Einstellungen.
3. Verbinde den Block mit dem Rest des Workflows.
> Bereitstellungen unterstützen jeden Trigger. Aktualisiere den Workflow, stelle ihn erneut bereit, und alle Trigger-Einstiegspunkte übernehmen den neuen Snapshot. Erfahre mehr unter [Ausführung → Bereitstellungs-Snapshots](/execution).
> Bereitstellungen steuern jeden Trigger. Aktualisiere den Workflow, stelle ihn erneut bereit, und alle Trigger-Einstiegspunkte übernehmen den neuen Snapshot. Erfahre mehr unter [Ausführung → Bereitstellungs-Snapshots](/execution).
## Manuelle Ausführungspriorität
## Priorität bei manueller Ausführung
Wenn Sie im Editor auf **Ausführen** klicken, wählt Sim automatisch aus, welcher Auslöser basierend auf der folgenden Prioritätsreihenfolge ausgeführt wird:
Wenn du im Editor auf **Run** klickst, wählt Sim automatisch aus, welcher Trigger basierend auf der folgenden Prioritätsreihenfolge ausgeführt wird:
1. **Start-Block** (höchste Priorität)
2. **Zeitplan-Auslöser**
3. **Externe Auslöser** (Webhooks, Integrationen wie Slack, Gmail, Airtable usw.)
2. **Schedule-Trigger**
3. **Externe Trigger** (Webhooks, Integrationen wie Slack, Gmail, Airtable usw.)
Wenn Ihr Workflow mehrere Auslöser hat, wird der Auslöser mit der höchsten Priorität ausgeführt. Wenn Sie beispielsweise sowohl einen Start-Block als auch einen Webhook-Auslöser haben, wird durch Klicken auf Ausführen der Start-Block ausgeführt.
Wenn dein Workflow mehrere Trigger hat, wird der Trigger mit der höchsten Priorität ausgeführt. Wenn du beispielsweise sowohl einen Start-Block als auch einen Webhook-Trigger hast, wird beim Klicken auf Run der Start-Block ausgeführt.
**Externe Auslöser mit Mock-Payloads**: Wenn externe Auslöser (Webhooks und Integrationen) manuell ausgeführt werden, generiert Sim automatisch Mock-Payloads basierend auf der erwarteten Datenstruktur des Auslösers. Dies stellt sicher, dass nachgelagerte Blöcke während des Tests Variablen korrekt auflösen können.
**Externe Auslöser mit Mock-Payloads**: Wenn externe Auslöser (Webhooks und Integrationen) manuell ausgeführt werden, generiert Sim automatisch Mock-Payloads basierend auf der erwarteten Datenstruktur des Auslösers. Dies stellt sicher, dass nachgelagerte Blöcke während des Testens Variablen korrekt auflösen können.

View File

@@ -5,6 +5,7 @@ title: Human in the Loop
import { Callout } from 'fumadocs-ui/components/callout'
import { Tab, Tabs } from 'fumadocs-ui/components/tabs'
import { Image } from '@/components/ui/image'
import { Video } from '@/components/ui/video'
The Human in the Loop block pauses workflow execution and waits for human intervention before continuing. Use it to add approval gates, collect feedback, or gather additional input at critical decision points.
@@ -76,7 +77,7 @@ Defines the fields approvers fill in when responding. This data becomes availabl
}
```
Access resume data in downstream blocks using `<blockId.resumeInput.fieldName>`.
Access resume data in downstream blocks using `<blockId.resumeInput.fieldName>`.
## Approval Methods
@@ -164,6 +165,11 @@ Access using `<blockId.resumeInput.fieldName>`.
// Condition block
<approval1.resumeInput.approved> === true
```
The example below shows an approval portal as seen by an approver after the workflow is paused. Approvers can review the data and provide inputs as a part of the workflow resumption. The approval portal can be accessed directly via the unique URL, `<blockId.url>`.
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="hitl-resume.mp4" width={700} height={450} />
</div>
## Related Blocks

View File

@@ -4,6 +4,7 @@ title: Basics
import { Callout } from 'fumadocs-ui/components/callout'
import { Step, Steps } from 'fumadocs-ui/components/steps'
import { Video } from '@/components/ui/video'
## How Connections Work
@@ -29,6 +30,10 @@ Connections are the pathways that allow data to flow between blocks in your work
</Step>
</Steps>
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="connections-build.mp4" width={700} height={450} />
</div>
### Connection Flow
The flow of data through connections follows these principles:

View File

@@ -71,6 +71,16 @@ This contextual information helps Copilot provide more accurate and relevant ass
</Card>
</Cards>
<div className="flex justify-center">
<Image
src="/static/copilot/copilot-mode.png"
alt="Copilot mode selection interface"
width={600}
height={400}
className="my-6"
/>
</div>
## Depth Levels
<Cards>

View File

@@ -5,6 +5,7 @@ title: Introduction
import { Card, Cards } from 'fumadocs-ui/components/card'
import { Callout } from 'fumadocs-ui/components/callout'
import { Image } from '@/components/ui/image'
import { Video } from '@/components/ui/video'
Sim is an open-source visual workflow builder for building and deploying AI agent workflows. Design intelligent automation systems using a no-code interface—connect AI models, databases, APIs, and business tools through an intuitive drag-and-drop canvas. Whether you're building chatbots, automating business processes, or orchestrating complex data pipelines, Sim provides the tools to bring your AI workflows to life.
@@ -32,6 +33,10 @@ Transform raw data into actionable insights. Extract information from documents,
**API Integration Workflows**
Orchestrate complex multi-service interactions. Create unified API endpoints, implement sophisticated business logic, and build event-driven automation systems.
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="introduction/chat-workflow.mp4" width={700} height={450} />
</div>
## How It Works
**Visual Workflow Editor**
@@ -46,6 +51,10 @@ Launch workflows through multiple channels including chat interfaces, REST APIs,
**Real-time Collaboration**
Enable your team to build together. Multiple users can edit workflows simultaneously with live updates and granular permission controls.
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="introduction/build-workflow.mp4" width={700} height={450} />
</div>
## Integrations
Sim provides native integrations with 80+ services across multiple categories:
@@ -59,6 +68,27 @@ Sim provides native integrations with 80+ services across multiple categories:
For custom integrations, leverage our [MCP (Model Context Protocol) support](/mcp) to connect any external service or tool.
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="introduction/integrations-sidebar.mp4" width={700} height={450} />
</div>
## AI-Powered Copilot
**Ask Questions & Get Guidance**
Copilot answers questions about Sim, explains your workflows, and provides suggestions for improvements. Use the `@` symbol to reference workflows, blocks, documentation, knowledge, and logs for contextual assistance.
**Build & Edit Workflows**
Switch to Agent mode to let Copilot propose and apply changes directly to your canvas. Add blocks, configure settings, wire variables, and restructure workflows with natural language commands.
**Adaptive Reasoning Levels**
Choose from Fast, Auto, Advanced, or Behemoth modes depending on task complexity. Start with Fast for simple questions, scale up to Behemoth for complex architectural changes and deep debugging.
Learn more about [Copilot capabilities](/copilot) and how to maximize productivity with AI assistance.
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="introduction/copilot-workflow.mp4" width={700} height={450} />
</div>
## Deployment Options
**Cloud-Hosted**

View File

@@ -44,12 +44,22 @@ Fetch and filter issues from Linear
| --------- | ---- | -------- | ----------- |
| `teamId` | string | No | Linear team ID to filter by |
| `projectId` | string | No | Linear project ID to filter by |
| `assigneeId` | string | No | User ID to filter by assignee |
| `stateId` | string | No | Workflow state ID to filter by status |
| `priority` | number | No | Priority to filter by \(0=No priority, 1=Urgent, 2=High, 3=Normal, 4=Low\) |
| `labelIds` | array | No | Array of label IDs to filter by |
| `createdAfter` | string | No | Filter issues created after this date \(ISO 8601 format\) |
| `updatedAfter` | string | No | Filter issues updated after this date \(ISO 8601 format\) |
| `includeArchived` | boolean | No | Include archived issues \(default: false\) |
| `first` | number | No | Number of issues to return \(default: 50, max: 250\) |
| `after` | string | No | Pagination cursor for next page |
| `orderBy` | string | No | Sort order: "createdAt" or "updatedAt" \(default: "updatedAt"\) |
#### Output
| Parameter | Type | Description |
| --------- | ---- | ----------- |
| `issues` | array | Array of issues from the specified Linear team and project, each containing id, title, description, state, teamId, and projectId |
| `issues` | array | Array of filtered issues from Linear |
### `linear_get_issue`
@@ -79,12 +89,22 @@ Create a new issue in Linear
| `projectId` | string | No | Linear project ID |
| `title` | string | Yes | Issue title |
| `description` | string | No | Issue description |
| `stateId` | string | No | Workflow state ID \(status\) |
| `assigneeId` | string | No | User ID to assign the issue to |
| `priority` | number | No | Priority \(0=No priority, 1=Urgent, 2=High, 3=Normal, 4=Low\) |
| `estimate` | number | No | Estimate in points |
| `labelIds` | array | No | Array of label IDs to set on the issue |
| `cycleId` | string | No | Cycle ID to assign the issue to |
| `parentId` | string | No | Parent issue ID \(for creating sub-issues\) |
| `dueDate` | string | No | Due date in ISO 8601 format \(date only: YYYY-MM-DD\) |
| `subscriberIds` | array | No | Array of user IDs to subscribe to the issue |
| `projectMilestoneId` | string | No | Project milestone ID to associate with the issue |
#### Output
| Parameter | Type | Description |
| --------- | ---- | ----------- |
| `issue` | object | The created issue containing id, title, description, state, teamId, and projectId |
| `issue` | object | The created issue with all its properties |
### `linear_update_issue`
@@ -101,7 +121,13 @@ Update an existing issue in Linear
| `assigneeId` | string | No | User ID to assign the issue to |
| `priority` | number | No | Priority \(0=No priority, 1=Urgent, 2=High, 3=Normal, 4=Low\) |
| `estimate` | number | No | Estimate in points |
| `labelIds` | array | No | Array of label IDs to set on the issue |
| `labelIds` | array | No | Array of label IDs to set on the issue \(replaces all existing labels\) |
| `projectId` | string | No | Project ID to move the issue to |
| `cycleId` | string | No | Cycle ID to assign the issue to |
| `parentId` | string | No | Parent issue ID \(for making this a sub-issue\) |
| `dueDate` | string | No | Due date in ISO 8601 format \(date only: YYYY-MM-DD\) |
| `addedLabelIds` | array | No | Array of label IDs to add to the issue \(without replacing existing labels\) |
| `removedLabelIds` | array | No | Array of label IDs to remove from the issue |
#### Output
@@ -352,9 +378,9 @@ Update an existing project in Linear
| `description` | string | No | New project description |
| `state` | string | No | Project state \(planned, started, completed, canceled\) |
| `leadId` | string | No | User ID of the project lead |
| `startDate` | string | No | Project start date \(ISO format\) |
| `targetDate` | string | No | Project target date \(ISO format\) |
| `priority` | number | No | Project priority \(0-4\) |
| `startDate` | string | No | Project start date \(ISO format: YYYY-MM-DD\) |
| `targetDate` | string | No | Project target date \(ISO format: YYYY-MM-DD\) |
| `priority` | number | No | Project priority \(0=No priority, 1=Urgent, 2=High, 3=Normal, 4=Low\) |
#### Output
@@ -530,7 +556,7 @@ Create a new workflow state (status) in Linear
| --------- | ---- | -------- | ----------- |
| `teamId` | string | Yes | Team ID to create the state in |
| `name` | string | Yes | State name \(e.g., "In Review"\) |
| `color` | string | Yes | State color \(hex format\) |
| `color` | string | No | State color \(hex format\) |
| `type` | string | Yes | State type: "backlog", "unstarted", "started", "completed", or "canceled" |
| `description` | string | No | State description |
| `position` | number | No | Position in the workflow |
@@ -711,7 +737,7 @@ Link two issues together in Linear (blocks, relates to, duplicates)
| --------- | ---- | -------- | ----------- |
| `issueId` | string | Yes | Source issue ID |
| `relatedIssueId` | string | Yes | Target issue ID to link to |
| `type` | string | Yes | Relation type: "blocks", "blocked", "duplicate", "related" |
| `type` | string | Yes | Relation type: "blocks", "duplicate", or "related". Note: When creating "blocks" from A to B, the inverse relation \(B blocked by A\) is automatically created. |
#### Output
@@ -1220,6 +1246,7 @@ Create a new project label in Linear
| Parameter | Type | Required | Description |
| --------- | ---- | -------- | ----------- |
| `projectId` | string | Yes | The project for this label |
| `name` | string | Yes | Project label name |
| `color` | string | No | Label color \(hex code\) |
| `description` | string | No | Label description |
@@ -1397,6 +1424,7 @@ Create a new project status in Linear
| Parameter | Type | Required | Description |
| --------- | ---- | -------- | ----------- |
| `projectId` | string | Yes | The project to create the status for |
| `name` | string | Yes | Project status name |
| `color` | string | Yes | Status color \(hex code\) |
| `description` | string | No | Status description |

View File

@@ -68,9 +68,11 @@
"thinking",
"translate",
"trello",
"tts",
"twilio_sms",
"twilio_voice",
"typeform",
"video_generator",
"vision",
"wealthbox",
"webflow",

View File

@@ -11,15 +11,32 @@ import { BlockInfoCard } from "@/components/ui/block-info-card"
/>
{/* MANUAL-CONTENT-START:intro */}
Transcribe speech to text using state-of-the-art AI models from leading providers. The Sim Speech-to-Text (STT) tools allow you to convert audio and video files into accurate transcripts, supporting multiple languages, timestamps, and optional translation.
Transcribe speech to text using the latest AI models from world-class providers. Sim's Speech-to-Text (STT) tools empower you to turn audio and video into accurate, timestamped, and optionally translated transcriptssupporting a diversity of languages and enhanced with advanced features such as diarization and speaker identification.
Supported providers:
**Supported Providers & Models:**
- **[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)**: Advanced open-source STT model from OpenAI. Supports models such as `whisper-1` and handles a wide variety of languages and audio formats.
- **[Deepgram](https://deepgram.com/)**: Real-time and batch STT API with deep learning models like `nova-3`, `nova-2`, and `whisper-large`. Offers features like diarization, intent recognition, and industry-specific tuning.
- **[ElevenLabs](https://elevenlabs.io/)**: Known for high-quality speech AI, ElevenLabs provides STT models focused on accuracy and natural language understanding for numerous languages and dialects.
- **[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)** (OpenAI):
OpenAIs Whisper is an open-source deep learning model renowned for its robustness across languages and audio conditions. It supports advanced models such as `whisper-1`, excelling in transcription, translation, and tasks demanding high model generalization. Backed by OpenAI—the company known for ChatGPT and leading AI research—Whisper is widely used in research and as a baseline for comparative evaluation.
Choose the provider and model best suited to your task—whether fast, production-grade transcription (Deepgram), highly accurate multi-language capability (Whisper), or advanced understanding and language coverage (ElevenLabs).
- **[Deepgram](https://deepgram.com/)** (Deepgram Inc.):
Based in San Francisco, Deepgram offers scalable, production-grade speech recognition APIs for developers and enterprises. Deepgrams models include `nova-3`, `nova-2`, and `whisper-large`, offering real-time and batch transcription with industry-leading accuracy, multi-language support, automatic punctuation, intelligent diarization, call analytics, and features for use cases ranging from telephony to media production.
- **[ElevenLabs](https://elevenlabs.io/)** (ElevenLabs):
A leader in voice AI, ElevenLabs is especially known for premium voice synthesis and recognition. Its STT product delivers high-accuracy, natural understanding of numerous languages, dialects, and accents. Recent ElevenLabs STT models are optimized for clarity, speaker distinction, and are suitable for both creative and accessibility scenarios. ElevenLabs is recognized for cutting-edge advancements in AI-powered speech technologies.
- **[AssemblyAI](https://www.assemblyai.com/)** (AssemblyAI Inc.):
AssemblyAI provides API-driven, highly accurate speech recognition, with features such as auto chaptering, topic detection, summarization, sentiment analysis, and content moderation alongside transcription. Its proprietary model, including the acclaimed `Conformer-2`, powers some of the largest media, call center, and compliance applications in the industry. AssemblyAI is trusted by Fortune 500s and leading AI startups globally.
- **[Google Cloud Speech-to-Text](https://cloud.google.com/speech-to-text)** (Google Cloud):
Googles enterprise-grade Speech-to-Text API supports over 125 languages and variants, offering high accuracy and features such as real-time streaming, word-level confidence, speaker diarization, automatic punctuation, custom vocabulary, and domain-specific tuning. Models such as `latest_long`, `video`, and domain-optimized models are available, powered by Googles years of research and deployed for global scalability.
- **[AWS Transcribe](https://aws.amazon.com/transcribe/)** (Amazon Web Services):
AWS Transcribe leverages Amazons cloud infrastructure to deliver robust speech recognition as an API. It supports multiple languages and features such as speaker identification, custom vocabulary, channel identification (for call center audio), and medical-specific transcription. Popular models include `standard` and domain-specific variations. AWS Transcribe is ideal for organizations already using Amazons cloud.
**How to Choose:**
Select the provider and model that fits your application—whether you need fast, enterprise-ready transcription with extra analytics (Deepgram, AssemblyAI, Google, AWS), high versatility and open-source access (OpenAI Whisper), or advanced speaker/contextual understanding (ElevenLabs). Consider the pricing, language coverage, accuracy, and any special features (like summarization, chaptering, or sentiment analysis) you might need.
For more details on capabilities, pricing, feature highlights, and fine-tuning options, refer to each providers official documentation via the links above.
{/* MANUAL-CONTENT-END */}
@@ -48,6 +65,8 @@ Transcribe audio to text using OpenAI Whisper
| `language` | string | No | Language code \(e.g., "en", "es", "fr"\) or "auto" for auto-detection |
| `timestamps` | string | No | Timestamp granularity: none, sentence, or word |
| `translateToEnglish` | boolean | No | Translate audio to English |
| `prompt` | string | No | Optional text to guide the model's style or continue a previous audio segment. Helps with proper nouns and context. |
| `temperature` | number | No | Sampling temperature between 0 and 1. Higher values make output more random, lower values more focused and deterministic. |
#### Output
@@ -57,7 +76,6 @@ Transcribe audio to text using OpenAI Whisper
| `segments` | array | Timestamped segments |
| `language` | string | Detected or specified language |
| `duration` | number | Audio duration in seconds |
| `confidence` | number | Overall confidence score |
### `stt_deepgram`
@@ -114,6 +132,68 @@ Transcribe audio to text using ElevenLabs
| `duration` | number | Audio duration in seconds |
| `confidence` | number | Overall confidence score |
### `stt_assemblyai`
Transcribe audio to text using AssemblyAI with advanced NLP features
#### Input
| Parameter | Type | Required | Description |
| --------- | ---- | -------- | ----------- |
| `provider` | string | Yes | STT provider \(assemblyai\) |
| `apiKey` | string | Yes | AssemblyAI API key |
| `model` | string | No | AssemblyAI model to use \(default: best\) |
| `audioFile` | file | No | Audio or video file to transcribe |
| `audioFileReference` | file | No | Reference to audio/video file from previous blocks |
| `audioUrl` | string | No | URL to audio or video file |
| `language` | string | No | Language code \(e.g., "en", "es", "fr"\) or "auto" for auto-detection |
| `timestamps` | string | No | Timestamp granularity: none, sentence, or word |
| `diarization` | boolean | No | Enable speaker diarization |
| `sentiment` | boolean | No | Enable sentiment analysis |
| `entityDetection` | boolean | No | Enable entity detection |
| `piiRedaction` | boolean | No | Enable PII redaction |
| `summarization` | boolean | No | Enable automatic summarization |
#### Output
| Parameter | Type | Description |
| --------- | ---- | ----------- |
| `transcript` | string | Full transcribed text |
| `segments` | array | Timestamped segments with speaker labels |
| `language` | string | Detected or specified language |
| `duration` | number | Audio duration in seconds |
| `confidence` | number | Overall confidence score |
| `sentiment` | array | Sentiment analysis results |
| `entities` | array | Detected entities |
| `summary` | string | Auto-generated summary |
### `stt_gemini`
Transcribe audio to text using Google Gemini with multimodal capabilities
#### Input
| Parameter | Type | Required | Description |
| --------- | ---- | -------- | ----------- |
| `provider` | string | Yes | STT provider \(gemini\) |
| `apiKey` | string | Yes | Google API key |
| `model` | string | No | Gemini model to use \(default: gemini-2.5-flash\) |
| `audioFile` | file | No | Audio or video file to transcribe |
| `audioFileReference` | file | No | Reference to audio/video file from previous blocks |
| `audioUrl` | string | No | URL to audio or video file |
| `language` | string | No | Language code \(e.g., "en", "es", "fr"\) or "auto" for auto-detection |
| `timestamps` | string | No | Timestamp granularity: none, sentence, or word |
#### Output
| Parameter | Type | Description |
| --------- | ---- | ----------- |
| `transcript` | string | Full transcribed text |
| `segments` | array | Timestamped segments |
| `language` | string | Detected or specified language |
| `duration` | number | Audio duration in seconds |
| `confidence` | number | Overall confidence score |
## Notes

View File

@@ -0,0 +1,261 @@
---
title: Text-to-Speech
description: Convert text to speech using AI voices
---
import { BlockInfoCard } from "@/components/ui/block-info-card"
<BlockInfoCard
type="tts"
color="#181C1E"
/>
{/* MANUAL-CONTENT-START:intro */}
Convert text to natural-sounding speech using the latest AI voices. Sim's Text-to-Speech (TTS) tools let you generate audio from written text in dozens of languages, with a choice of expressive voices, formats, and advanced controls like speed, style, emotion, and more.
**Supported Providers & Models:**
- **[OpenAI Text-to-Speech](https://platform.openai.com/docs/guides/text-to-speech/voice-options)** (OpenAI):
OpenAI's TTS API offers ultra-realistic voices using advanced AI models like `tts-1`, `tts-1-hd`, and `gpt-4o-mini-tts`. Voices include both male and female, with options such as alloy, echo, fable, onyx, nova, shimmer, ash, ballad, coral, sage, and verse. Supports multiple audio formats (mp3, opus, aac, flac, wav, pcm), adjustable speed and streaming synthesis.
- **[Deepgram Aura](https://deepgram.com/products/text-to-speech)** (Deepgram Inc.):
Deepgrams Aura provides expressive English and multilingual AI voices, optimized for conversational clarity, low latency, and customization. Models like `aura-asteria-en`, `aura-luna-en`, and others are available. Supports multiple encoding formats (linear16, mp3, opus, aac, flac) and fine tuning on speed, sample rate, and style.
- **[ElevenLabs Text-to-Speech](https://elevenlabs.io/text-to-speech)** (ElevenLabs):
ElevenLabs leads in lifelike, emotionally rich TTS, offering dozens of voices in 29+ languages and the ability to clone custom voices. Models support voice design, speech synthesis, and direct API access, with advanced controls for style, emotion, stability, and similarity. Suitable for audiobooks, content creation, accessibility, and more.
- **[Cartesia TTS](https://docs.cartesia.ai/)** (Cartesia):
Cartesia offers high-quality, fast, and secure text-to-speech with a focus on privacy and flexible deployment. It provides instant streaming, real-time synthesis, and supports multiple international voices and accents, accessible through a simple API.
- **[Google Cloud Text-to-Speech](https://cloud.google.com/text-to-speech)** (Google Cloud):
Google uses DeepMind WaveNet and Neural2 models to power high-fidelity voices in 50+ languages and variants. Features include voice selection, pitch, speaking rate, volume control, SSML tags, and access to both standard and studio-grade premium voices. Widely used for accessibility, IVR, and media.
- **[Microsoft Azure Speech](https://azure.microsoft.com/en-us/products/ai-services/text-to-speech)** (Microsoft Azure):
Azure provides over 400 neural voices across 140+ languages and locales, with unique voice customization, style, emotion, role, and real-time controls. Offers SSML support for pronunciation, intonation, and more. Ideal for global, enterprise, or creative TTS needs.
- **[PlayHT](https://play.ht/)** (PlayHT):
PlayHT specializes in realistic voice synthesis, voice cloning, and instant streaming playback with 800+ voices in over 100 languages. Features include emotion, pitch and speed controls, multi-voice audio, and custom voice creation via the API or online studio.
**How to Choose:**
Pick your provider and model by prioritizing languages, supported voice types, desired formats (mp3, wav, etc.), control granularity (speed, emotion, etc.), and specialized features (voice cloning, accent, streaming). For creative, accessibility, or developer use cases, ensure compatibility with your application's requirements and compare costs.
Visit each providers official site for up-to-date capabilities, pricing, and documentation details!
{/* MANUAL-CONTENT-END */}
## Usage Instructions
Generate natural-sounding speech from text using state-of-the-art AI voices from OpenAI, Deepgram, ElevenLabs, Cartesia, Google Cloud, Azure, and PlayHT. Supports multiple voices, languages, and audio formats.
## Tools
### `tts_openai`
Convert text to speech using OpenAI TTS models
#### Input
| Parameter | Type | Required | Description |
| --------- | ---- | -------- | ----------- |
| `text` | string | Yes | The text to convert to speech |
| `apiKey` | string | Yes | OpenAI API key |
| `model` | string | No | TTS model to use \(tts-1, tts-1-hd, or gpt-4o-mini-tts\) |
| `voice` | string | No | Voice to use \(alloy, ash, ballad, cedar, coral, echo, marin, sage, shimmer, verse\) |
| `responseFormat` | string | No | Audio format \(mp3, opus, aac, flac, wav, pcm\) |
| `speed` | number | No | Speech speed \(0.25 to 4.0, default: 1.0\) |
#### Output
| Parameter | Type | Description |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL to the generated audio file |
| `audioFile` | file | Generated audio file object |
| `duration` | number | Audio duration in seconds |
| `characterCount` | number | Number of characters processed |
| `format` | string | Audio format |
| `provider` | string | TTS provider used |
### `tts_deepgram`
Convert text to speech using Deepgram Aura
#### Input
| Parameter | Type | Required | Description |
| --------- | ---- | -------- | ----------- |
| `text` | string | Yes | The text to convert to speech |
| `apiKey` | string | Yes | Deepgram API key |
| `model` | string | No | Deepgram model/voice \(e.g., aura-asteria-en, aura-luna-en\) |
| `voice` | string | No | Voice identifier \(alternative to model param\) |
| `encoding` | string | No | Audio encoding \(linear16, mp3, opus, aac, flac\) |
| `sampleRate` | number | No | Sample rate \(8000, 16000, 24000, 48000\) |
| `bitRate` | number | No | Bit rate for compressed formats |
| `container` | string | No | Container format \(none, wav, ogg\) |
#### Output
| Parameter | Type | Description |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL to the generated audio file |
| `audioFile` | file | Generated audio file object |
| `duration` | number | Audio duration in seconds |
| `characterCount` | number | Number of characters processed |
| `format` | string | Audio format |
| `provider` | string | TTS provider used |
### `tts_elevenlabs`
Convert text to speech using ElevenLabs voices
#### Input
| Parameter | Type | Required | Description |
| --------- | ---- | -------- | ----------- |
| `text` | string | Yes | The text to convert to speech |
| `voiceId` | string | Yes | The ID of the voice to use |
| `apiKey` | string | Yes | ElevenLabs API key |
| `modelId` | string | No | Model to use \(e.g., eleven_monolingual_v1, eleven_turbo_v2_5, eleven_flash_v2_5\) |
| `stability` | number | No | Voice stability \(0.0 to 1.0, default: 0.5\) |
| `similarityBoost` | number | No | Similarity boost \(0.0 to 1.0, default: 0.8\) |
| `style` | number | No | Style exaggeration \(0.0 to 1.0\) |
| `useSpeakerBoost` | boolean | No | Use speaker boost \(default: true\) |
#### Output
| Parameter | Type | Description |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL to the generated audio file |
| `audioFile` | file | Generated audio file object |
| `duration` | number | Audio duration in seconds |
| `characterCount` | number | Number of characters processed |
| `format` | string | Audio format |
| `provider` | string | TTS provider used |
### `tts_cartesia`
Convert text to speech using Cartesia Sonic (ultra-low latency)
#### Input
| Parameter | Type | Required | Description |
| --------- | ---- | -------- | ----------- |
| `text` | string | Yes | The text to convert to speech |
| `apiKey` | string | Yes | Cartesia API key |
| `modelId` | string | No | Model ID \(sonic-english, sonic-multilingual\) |
| `voice` | string | No | Voice ID or embedding |
| `language` | string | No | Language code \(en, es, fr, de, it, pt, etc.\) |
| `outputFormat` | json | No | Output format configuration \(container, encoding, sampleRate\) |
| `speed` | number | No | Speed multiplier |
| `emotion` | array | No | Emotion tags for Sonic-3 \(e.g., \['positivity:high'\]\) |
#### Output
| Parameter | Type | Description |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL to the generated audio file |
| `audioFile` | file | Generated audio file object |
| `duration` | number | Audio duration in seconds |
| `characterCount` | number | Number of characters processed |
| `format` | string | Audio format |
| `provider` | string | TTS provider used |
### `tts_google`
Convert text to speech using Google Cloud Text-to-Speech
#### Input
| Parameter | Type | Required | Description |
| --------- | ---- | -------- | ----------- |
| `text` | string | Yes | The text to convert to speech |
| `apiKey` | string | Yes | Google Cloud API key |
| `voiceId` | string | No | Voice ID \(e.g., en-US-Neural2-A, en-US-Wavenet-D\) |
| `languageCode` | string | Yes | Language code \(e.g., en-US, es-ES, fr-FR\) |
| `gender` | string | No | Voice gender \(MALE, FEMALE, NEUTRAL\) |
| `audioEncoding` | string | No | Audio encoding \(LINEAR16, MP3, OGG_OPUS, MULAW, ALAW\) |
| `speakingRate` | number | No | Speaking rate \(0.25 to 2.0, default: 1.0\) |
| `pitch` | number | No | Voice pitch \(-20.0 to 20.0, default: 0.0\) |
| `volumeGainDb` | number | No | Volume gain in dB \(-96.0 to 16.0\) |
| `sampleRateHertz` | number | No | Sample rate in Hz |
| `effectsProfileId` | array | No | Effects profile \(e.g., \['headphone-class-device'\]\) |
#### Output
| Parameter | Type | Description |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL to the generated audio file |
| `audioFile` | file | Generated audio file object |
| `duration` | number | Audio duration in seconds |
| `characterCount` | number | Number of characters processed |
| `format` | string | Audio format |
| `provider` | string | TTS provider used |
### `tts_azure`
Convert text to speech using Azure Cognitive Services
#### Input
| Parameter | Type | Required | Description |
| --------- | ---- | -------- | ----------- |
| `text` | string | Yes | The text to convert to speech |
| `apiKey` | string | Yes | Azure Speech Services API key |
| `voiceId` | string | No | Voice ID \(e.g., en-US-JennyNeural, en-US-GuyNeural\) |
| `region` | string | No | Azure region \(e.g., eastus, westus, westeurope\) |
| `outputFormat` | string | No | Output audio format |
| `rate` | string | No | Speaking rate \(e.g., +10%, -20%, 1.5\) |
| `pitch` | string | No | Voice pitch \(e.g., +5Hz, -2st, low\) |
| `style` | string | No | Speaking style \(e.g., cheerful, sad, angry - neural voices only\) |
| `styleDegree` | number | No | Style intensity \(0.01 to 2.0\) |
| `role` | string | No | Role \(e.g., Girl, Boy, YoungAdultFemale\) |
#### Output
| Parameter | Type | Description |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL to the generated audio file |
| `audioFile` | file | Generated audio file object |
| `duration` | number | Audio duration in seconds |
| `characterCount` | number | Number of characters processed |
| `format` | string | Audio format |
| `provider` | string | TTS provider used |
### `tts_playht`
Convert text to speech using PlayHT (voice cloning)
#### Input
| Parameter | Type | Required | Description |
| --------- | ---- | -------- | ----------- |
| `text` | string | Yes | The text to convert to speech |
| `apiKey` | string | Yes | PlayHT API key \(AUTHORIZATION header\) |
| `userId` | string | Yes | PlayHT user ID \(X-USER-ID header\) |
| `voice` | string | No | Voice ID or manifest URL |
| `quality` | string | No | Quality level \(draft, standard, premium\) |
| `outputFormat` | string | No | Output format \(mp3, wav, ogg, flac, mulaw\) |
| `speed` | number | No | Speed multiplier \(0.5 to 2.0\) |
| `temperature` | number | No | Creativity/randomness \(0.0 to 2.0\) |
| `voiceGuidance` | number | No | Voice stability \(1.0 to 6.0\) |
| `textGuidance` | number | No | Text adherence \(1.0 to 6.0\) |
| `sampleRate` | number | No | Sample rate \(8000, 16000, 22050, 24000, 44100, 48000\) |
#### Output
| Parameter | Type | Description |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL to the generated audio file |
| `audioFile` | file | Generated audio file object |
| `duration` | number | Audio duration in seconds |
| `characterCount` | number | Number of characters processed |
| `format` | string | Audio format |
| `provider` | string | TTS provider used |
## Notes
- Category: `tools`
- Type: `tts`

View File

@@ -0,0 +1,197 @@
---
title: Video Generator
description: Generate videos from text using AI
---
import { BlockInfoCard } from "@/components/ui/block-info-card"
<BlockInfoCard
type="video_generator"
color="#181C1E"
/>
{/* MANUAL-CONTENT-START:intro */}
Create videos from text prompts using cutting-edge AI models from top providers. Sim's Video Generator brings powerful, creative video synthesis capabilities to your workflow—supporting diverse models, aspect ratios, resolutions, camera controls, native audio, and advanced style and consistency features.
**Supported Providers & Models:**
- **[Runway Gen-4](https://research.runwayml.com/gen2/)** (Runway ML):
Runway is a pioneer in text-to-video generation, known for powerful models like Gen-2, Gen-3, and Gen-4. The latest [Gen-4](https://research.runwayml.com/gen2/) model (and Gen-4 Turbo for faster results) supports more realistic motion, greater world consistency, and visual references for character, object, style, and location. Supports 16:9, 9:16, and 1:1 aspect ratios, 510 second durations, up to 4K resolution, style presets, and direct upload of reference images for consistent generations. Runway powers creative tools for filmmakers, studios, and content creators worldwide.
- **[Google Veo](https://deepmind.google/technologies/veo/)** (Google DeepMind):
[Veo](https://deepmind.google/technologies/veo/) is Googles next-generation video generation model, offering high-quality, native-audio videos up to 1080p and 16 seconds. Supports advanced motion, cinematic effects, and nuanced text understanding. Veo can generate videos with built-in sound—activating native audio as well as silent clips. Options include 16:9 aspect, variable duration, different models (veo-3, veo-3.1), and prompt-based controls. Ideal for storytelling, advertising, research, and ideation.
- **[Luma Dream Machine](https://lumalabs.ai/dream-machine)** (Luma AI):
[Dream Machine](https://lumalabs.ai/dream-machine) delivers jaw-droppingly realistic and fluid video from text. It incorporates advanced camera control, cinematography prompts, and supports both ray-1 and ray-2 models. Dream Machine supports precise aspect ratios (16:9, 9:16, 1:1), variable durations, and the specification of camera paths for intricate visual direction. Luma is renowned for breakthrough visual fidelity and is backed by leading AI vision researchers.
- **[MiniMax Hailuo-02](https://minimax.chat/)** (via [Fal.ai](https://fal.ai/)):
[MiniMax Hailuo-02](https://minimax.chat/) is a sophisticated Chinese generative video model, available globally through [Fal.ai](https://fal.ai/). Generate videos up to 16 seconds in landscape or portrait format, with options for prompt optimization to improve clarity and creativity. Pro and standard endpoints available, supporting high resolutions (up to 1920×1080). Well-suited for creative projects needing prompt translation and optimization, commercial storytelling, and rapid prototyping of visual ideas.
**How to Choose:**
Pick your provider and model based on your needs for quality, speed, duration, audio, cost, and unique features. Runway and Veo offer world-leading realism and cinematic capabilities; Luma excels in fluid motion and camera control; MiniMax is ideal for Chinese-language prompts and offers fast, affordable access. Consider reference support, style presets, audio requirements, and pricing when selecting your tool.
For more details on features, restrictions, pricing, and model advances, see each providers official documentation above.
{/* MANUAL-CONTENT-END */}
## Usage Instructions
Generate high-quality videos from text prompts using leading AI providers. Supports multiple models, aspect ratios, resolutions, and provider-specific features like world consistency, camera controls, and audio generation.
## Tools
### `video_runway`
Generate videos using Runway Gen-4 with world consistency and visual references
#### Input
| Parameter | Type | Required | Description |
| --------- | ---- | -------- | ----------- |
| `provider` | string | Yes | Video provider \(runway\) |
| `apiKey` | string | Yes | Runway API key |
| `model` | string | No | Runway model: gen-4 \(default, higher quality\) or gen-4-turbo \(faster\) |
| `prompt` | string | Yes | Text prompt describing the video to generate |
| `duration` | number | No | Video duration in seconds \(5 or 10, default: 5\) |
| `aspectRatio` | string | No | Aspect ratio: 16:9 \(landscape\), 9:16 \(portrait\), or 1:1 \(square\) |
| `resolution` | string | No | Video resolution \(720p output\). Note: Gen-4 Turbo outputs at 720p natively |
| `visualReference` | json | Yes | Reference image REQUIRED for Gen-4 \(UserFile object\). Gen-4 only supports image-to-video, not text-only generation |
#### Output
| Parameter | Type | Description |
| --------- | ---- | ----------- |
| `videoUrl` | string | Generated video URL |
| `videoFile` | json | Video file object with metadata |
| `duration` | number | Video duration in seconds |
| `width` | number | Video width in pixels |
| `height` | number | Video height in pixels |
| `provider` | string | Provider used \(runway\) |
| `model` | string | Model used |
| `jobId` | string | Runway job ID |
### `video_veo`
Generate videos using Google Veo 3/3.1 with native audio generation
#### Input
| Parameter | Type | Required | Description |
| --------- | ---- | -------- | ----------- |
| `provider` | string | Yes | Video provider \(veo\) |
| `apiKey` | string | Yes | Google Gemini API key |
| `model` | string | No | Veo model: veo-3 \(default, highest quality\), veo-3-fast \(faster\), or veo-3.1 \(latest\) |
| `prompt` | string | Yes | Text prompt describing the video to generate |
| `duration` | number | No | Video duration in seconds \(4, 6, or 8, default: 8\) |
| `aspectRatio` | string | No | Aspect ratio: 16:9 \(landscape\) or 9:16 \(portrait\) |
| `resolution` | string | No | Video resolution: 720p or 1080p \(default: 1080p\) |
#### Output
| Parameter | Type | Description |
| --------- | ---- | ----------- |
| `videoUrl` | string | Generated video URL |
| `videoFile` | json | Video file object with metadata |
| `duration` | number | Video duration in seconds |
| `width` | number | Video width in pixels |
| `height` | number | Video height in pixels |
| `provider` | string | Provider used \(veo\) |
| `model` | string | Model used |
| `jobId` | string | Veo job ID |
### `video_luma`
Generate videos using Luma Dream Machine with advanced camera controls
#### Input
| Parameter | Type | Required | Description |
| --------- | ---- | -------- | ----------- |
| `provider` | string | Yes | Video provider \(luma\) |
| `apiKey` | string | Yes | Luma AI API key |
| `model` | string | No | Luma model: ray-2 \(default\) |
| `prompt` | string | Yes | Text prompt describing the video to generate |
| `duration` | number | No | Video duration in seconds \(5 or 9, default: 5\) |
| `aspectRatio` | string | No | Aspect ratio: 16:9 \(landscape\), 9:16 \(portrait\), or 1:1 \(square\) |
| `resolution` | string | No | Video resolution: 540p, 720p, or 1080p \(default: 1080p\) |
| `cameraControl` | json | No | Camera controls as array of concept objects. Format: \[\{ "key": "concept_name" \}\]. Valid keys: truck_left, truck_right, pan_left, pan_right, tilt_up, tilt_down, zoom_in, zoom_out, push_in, pull_out, orbit_left, orbit_right, crane_up, crane_down, static, handheld, and 20+ more predefined options |
#### Output
| Parameter | Type | Description |
| --------- | ---- | ----------- |
| `videoUrl` | string | Generated video URL |
| `videoFile` | json | Video file object with metadata |
| `duration` | number | Video duration in seconds |
| `width` | number | Video width in pixels |
| `height` | number | Video height in pixels |
| `provider` | string | Provider used \(luma\) |
| `model` | string | Model used |
| `jobId` | string | Luma job ID |
### `video_minimax`
Generate videos using MiniMax Hailuo through MiniMax Platform API with advanced realism and prompt optimization
#### Input
| Parameter | Type | Required | Description |
| --------- | ---- | -------- | ----------- |
| `provider` | string | Yes | Video provider \(minimax\) |
| `apiKey` | string | Yes | MiniMax API key from platform.minimax.io |
| `model` | string | No | MiniMax model: hailuo-02 \(default\) |
| `prompt` | string | Yes | Text prompt describing the video to generate |
| `duration` | number | No | Video duration in seconds \(6 or 10, default: 6\) |
| `promptOptimizer` | boolean | No | Enable prompt optimization for better results \(default: true\) |
#### Output
| Parameter | Type | Description |
| --------- | ---- | ----------- |
| `videoUrl` | string | Generated video URL |
| `videoFile` | json | Video file object with metadata |
| `duration` | number | Video duration in seconds |
| `width` | number | Video width in pixels |
| `height` | number | Video height in pixels |
| `provider` | string | Provider used \(minimax\) |
| `model` | string | Model used |
| `jobId` | string | MiniMax job ID |
### `video_falai`
Generate videos using Fal.ai platform with access to multiple models including Veo 3.1, Sora 2, Kling 2.5, MiniMax Hailuo, and more
#### Input
| Parameter | Type | Required | Description |
| --------- | ---- | -------- | ----------- |
| `provider` | string | Yes | Video provider \(falai\) |
| `apiKey` | string | Yes | Fal.ai API key |
| `model` | string | Yes | Fal.ai model: veo-3.1 \(Google Veo 3.1\), sora-2 \(OpenAI Sora 2\), kling-2.5-turbo-pro \(Kling 2.5 Turbo Pro\), kling-2.1-pro \(Kling 2.1 Master\), minimax-hailuo-2.3-pro \(MiniMax Hailuo Pro\), minimax-hailuo-2.3-standard \(MiniMax Hailuo Standard\), wan-2.1 \(WAN T2V\), ltxv-0.9.8 \(LTXV 13B\) |
| `prompt` | string | Yes | Text prompt describing the video to generate |
| `duration` | number | No | Video duration in seconds \(varies by model\) |
| `aspectRatio` | string | No | Aspect ratio \(varies by model\): 16:9, 9:16, 1:1 |
| `resolution` | string | No | Video resolution \(varies by model\): 540p, 720p, 1080p |
| `promptOptimizer` | boolean | No | Enable prompt optimization for MiniMax models \(default: true\) |
#### Output
| Parameter | Type | Description |
| --------- | ---- | ----------- |
| `videoUrl` | string | Generated video URL |
| `videoFile` | json | Video file object with metadata |
| `duration` | number | Video duration in seconds |
| `width` | number | Video width in pixels |
| `height` | number | Video height in pixels |
| `provider` | string | Provider used \(falai\) |
| `model` | string | Model used |
| `jobId` | string | Job ID |
## Notes
- Category: `tools`
- Type: `video_generator`

View File

@@ -4,6 +4,17 @@ description: Triggers are the core ways to start Sim workflows
---
import { Card, Cards } from 'fumadocs-ui/components/card'
import { Image } from '@/components/ui/image'
<div className="flex justify-center">
<Image
src="/static/blocks/triggers.png"
alt="Triggers Overview"
width={500}
height={350}
className="my-6"
/>
</div>
## Core Triggers

View File

@@ -5,6 +5,7 @@ title: Human in the Loop
import { Callout } from 'fumadocs-ui/components/callout'
import { Tab, Tabs } from 'fumadocs-ui/components/tabs'
import { Image } from '@/components/ui/image'
import { Video } from '@/components/ui/video'
El bloque Human in the Loop pausa la ejecución del flujo de trabajo y espera la intervención humana antes de continuar. Úsalo para añadir puntos de aprobación, recopilar comentarios o reunir información adicional en puntos críticos de decisión.
@@ -76,7 +77,7 @@ Define los campos que los aprobadores completan al responder. Estos datos estar
}
```
Accede a los datos de reanudación en bloques posteriores usando `<blockId.resumeInput.fieldName>`.
Accede a los datos del resumen en bloques posteriores usando `<blockId.resumeInput.fieldName>`.
## Métodos de aprobación
@@ -174,8 +175,14 @@ Accede usando `<blockId.resumeInput.fieldName>`.
<approval1.resumeInput.approved> === true
```
El ejemplo a continuación muestra un portal de aprobación como lo ve un aprobador después de que el flujo de trabajo se pausa. Los aprobadores pueden revisar los datos y proporcionar entradas como parte de la reanudación del flujo de trabajo. Se puede acceder al portal de aprobación directamente a través de la URL única, `<blockId.url>`.
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="hitl-resume.mp4" width={700} height={450} />
</div>
## Bloques relacionados
- **[Condición](/blocks/condition)** - Ramifica basado en decisiones de aprobación
- **[Variables](/blocks/variables)** - Almacena historial de aprobaciones y metadatos
- **[Respuesta](/blocks/response)** - Devuelve resultados del flujo de trabajo a los llamantes de API
- **[Condición](/blocks/condition)** - Ramificación basada en decisiones de aprobación
- **[Variables](/blocks/variables)** - Almacenar historial de aprobación y metadatos
- **[Respuesta](/blocks/response)** - Devolver resultados del flujo de trabajo a los solicitantes de API

View File

@@ -4,6 +4,7 @@ title: Conceptos básicos
import { Callout } from 'fumadocs-ui/components/callout'
import { Step, Steps } from 'fumadocs-ui/components/steps'
import { Video } from '@/components/ui/video'
## Cómo funcionan las conexiones
@@ -28,11 +29,15 @@ Las conexiones son las vías que permiten que los datos fluyan entre bloques en
</Step>
</Steps>
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="connections-build.mp4" width={700} height={450} />
</div>
### Flujo de conexión
El flujo de datos a través de las conexiones sigue estos principios:
1. **Flujo direccional**: Los datos siempre fluyen de las salidas a las entradas
1. **Flujo direccional**: Los datos siempre fluyen desde las salidas hacia las entradas
2. **Orden de ejecución**: Los bloques se ejecutan en orden según sus conexiones
3. **Transformación de datos**: Los datos pueden transformarse al pasar entre bloques
4. **Rutas condicionales**: Algunos bloques (como Router y Condition) pueden dirigir el flujo a diferentes rutas

View File

@@ -71,6 +71,16 @@ Esta información contextual ayuda a Copilot a proporcionar asistencia más prec
</Card>
</Cards>
<div className="flex justify-center">
<Image
src="/static/copilot/copilot-mode.png"
alt="Interfaz de selección de modo de Copilot"
width={600}
height={400}
className="my-6"
/>
</div>
## Niveles de profundidad
<Cards>
@@ -102,7 +112,7 @@ Esta información contextual ayuda a Copilot a proporcionar asistencia más prec
</span>
}
>
<div className="m-0 text-sm">Mayor capacidad de razonamiento para flujos de trabajo más grandes y ediciones complejas sin perder rendimiento.</div>
<div className="m-0 text-sm">Mayor razonamiento para flujos de trabajo más grandes y ediciones complejas sin perder rendimiento.</div>
</Card>
<Card
title={
@@ -112,13 +122,13 @@ Esta información contextual ayuda a Copilot a proporcionar asistencia más prec
</span>
}
>
<div className="m-0 text-sm">Máxima capacidad de razonamiento para planificación profunda, depuración y cambios arquitectónicos complejos.</div>
<div className="m-0 text-sm">Máximo razonamiento para planificación profunda, depuración y cambios arquitectónicos complejos.</div>
</Card>
</Cards>
### Interfaz de selección de modo
Puedes cambiar fácilmente entre diferentes modos de razonamiento usando el selector de modo en la interfaz de Copilot:
Puedes cambiar fácilmente entre diferentes modos de razonamiento utilizando el selector de modo en la interfaz de Copilot:
<Image
src="/static/copilot/copilot-models.png"
@@ -150,12 +160,12 @@ copilotCost = (inputTokens × inputPrice + outputTokens × (outputPrice × 1.5))
| Componente | Tarifa aplicada |
|------------|----------------------|
| Entrada | inputPrice |
| Salida | outputPrice × 1.5 |
| Salida | outputPrice × 1,5 |
<Callout type="warning">
Los precios mostrados reflejan las tarifas a partir del 4 de septiembre de 2025. Consulte la documentación del proveedor para conocer los precios actuales.
Los precios mostrados reflejan las tarifas a partir del 4 de septiembre de 2025. Consulta la documentación del proveedor para conocer los precios actuales.
</Callout>
<Callout type="info">
Los precios de los modelos son por millón de tokens. El cálculo divide por 1.000.000 para obtener el costo real. Consulte <a href="/execution/costs">la página de Cálculo de Costos</a> para antecedentes y ejemplos.
Los precios de los modelos son por millón de tokens. El cálculo divide por 1.000.000 para obtener el costo real. Consulta <a href="/execution/costs">la página de Cálculo de Costos</a> para obtener información general y ejemplos.
</Callout>

View File

@@ -5,6 +5,7 @@ title: Introducción
import { Card, Cards } from 'fumadocs-ui/components/card'
import { Callout } from 'fumadocs-ui/components/callout'
import { Image } from '@/components/ui/image'
import { Video } from '@/components/ui/video'
Sim es un constructor de flujos de trabajo visuales de código abierto para crear e implementar flujos de trabajo de agentes de IA. Diseña sistemas de automatización inteligentes utilizando una interfaz sin código—conecta modelos de IA, bases de datos, APIs y herramientas empresariales a través de un lienzo intuitivo de arrastrar y soltar. Ya sea que estés creando chatbots, automatizando procesos empresariales u orquestando complejos flujos de datos, Sim proporciona las herramientas para dar vida a tus flujos de trabajo de IA.
@@ -32,13 +33,17 @@ Transforma datos brutos en información procesable. Extrae información de docum
**Flujos de trabajo de integración de API**
Orquesta interacciones complejas entre múltiples servicios. Crea puntos de conexión API unificados, implementa lógica empresarial sofisticada y construye sistemas de automatización basados en eventos.
## Cómo Funciona
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="introduction/chat-workflow.mp4" width={700} height={450} />
</div>
## Cómo funciona
**Editor visual de flujos de trabajo**
Diseña flujos de trabajo utilizando un lienzo intuitivo de arrastrar y soltar. Conecta modelos de IA, bases de datos, APIs y servicios de terceros a través de una interfaz visual sin código que hace que la lógica de automatización compleja sea fácil de entender y mantener.
**Sistema modular de bloques**
Construye con componentes especializados: bloques de procesamiento (agentes de IA, llamadas API, funciones personalizadas), bloques lógicos (ramificación condicional, bucles, enrutadores) y bloques de salida (respuestas, evaluadores). Cada bloque maneja una tarea específica en tu flujo de trabajo.
**Sistema de bloques modulares**
Construye con componentes especializados: bloques de procesamiento (agentes de IA, llamadas a API, funciones personalizadas), bloques lógicos (ramificación condicional, bucles, enrutadores) y bloques de salida (respuestas, evaluadores). Cada bloque maneja una tarea específica en tu flujo de trabajo.
**Activadores de ejecución flexibles**
Inicia flujos de trabajo a través de múltiples canales, incluyendo interfaces de chat, APIs REST, webhooks, trabajos cron programados o eventos externos de plataformas como Slack y GitHub.
@@ -46,6 +51,10 @@ Inicia flujos de trabajo a través de múltiples canales, incluyendo interfaces
**Colaboración en tiempo real**
Permite que tu equipo construya juntos. Múltiples usuarios pueden editar flujos de trabajo simultáneamente con actualizaciones en vivo y controles de permisos granulares.
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="introduction/build-workflow.mp4" width={700} height={450} />
</div>
## Integraciones
Sim proporciona integraciones nativas con más de 80 servicios en múltiples categorías:
@@ -59,17 +68,38 @@ Sim proporciona integraciones nativas con más de 80 servicios en múltiples cat
Para integraciones personalizadas, aprovecha nuestro [soporte MCP (Protocolo de Contexto de Modelo)](/mcp) para conectar cualquier servicio o herramienta externa.
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="introduction/integrations-sidebar.mp4" width={700} height={450} />
</div>
## Copiloto potenciado por IA
**Haz preguntas y recibe orientación**
Copiloto responde preguntas sobre Sim, explica tus flujos de trabajo y proporciona sugerencias para mejorarlos. Usa el símbolo `@` para hacer referencia a flujos de trabajo, bloques, documentación, conocimiento y registros para obtener asistencia contextual.
**Construye y edita flujos de trabajo**
Cambia al modo Agente para permitir que Copiloto proponga y aplique cambios directamente en tu lienzo. Añade bloques, configura ajustes, conecta variables y reestructura flujos de trabajo con comandos en lenguaje natural.
**Niveles de razonamiento adaptativo**
Elige entre los modos Rápido, Automático, Avanzado o Behemoth según la complejidad de la tarea. Comienza con Rápido para preguntas simples, y escala hasta Behemoth para cambios arquitectónicos complejos y depuración profunda.
Aprende más sobre las [capacidades de Copiloto](/copilot) y cómo maximizar la productividad con asistencia de IA.
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="introduction/copilot-workflow.mp4" width={700} height={450} />
</div>
## Opciones de implementación
**Alojado en la nube**
Inicia inmediatamente en [sim.ai](https://sim.ai) con infraestructura completamente gestionada, escalado automático y observabilidad integrada. Concéntrate en crear flujos de trabajo mientras nosotros nos encargamos de las operaciones.
Comienza inmediatamente en [sim.ai](https://sim.ai) con infraestructura totalmente gestionada, escalado automático y observabilidad integrada. Concéntrate en construir flujos de trabajo mientras nosotros nos encargamos de las operaciones.
**Autoalojado**
Implementa en tu propia infraestructura usando Docker Compose o Kubernetes. Mantén control completo sobre tus datos con soporte para modelos de IA locales a través de la integración con Ollama.
## Próximos pasos
¿Listo para construir tu primer flujo de trabajo de IA?
¿Listo para construir tu primer flujo de trabajo con IA?
<Cards>
<Card title="Primeros pasos" href="/getting-started">

View File

@@ -39,14 +39,24 @@ Obtener y filtrar incidencias de Linear
| Parámetro | Tipo | Obligatorio | Descripción |
| --------- | ---- | ----------- | ----------- |
| `teamId` | string | | ID del equipo de Linear |
| `projectId` | string | | ID del proyecto de Linear |
| `teamId` | string | No | ID del equipo de Linear para filtrar |
| `projectId` | string | No | ID del proyecto de Linear para filtrar |
| `assigneeId` | string | No | ID del usuario para filtrar por asignado |
| `stateId` | string | No | ID del estado del flujo de trabajo para filtrar por estado |
| `priority` | number | No | Prioridad para filtrar \(0=Sin prioridad, 1=Urgente, 2=Alta, 3=Normal, 4=Baja\) |
| `labelIds` | array | No | Array de IDs de etiquetas para filtrar |
| `createdAfter` | string | No | Filtrar incidencias creadas después de esta fecha \(formato ISO 8601\) |
| `updatedAfter` | string | No | Filtrar incidencias actualizadas después de esta fecha \(formato ISO 8601\) |
| `includeArchived` | boolean | No | Incluir incidencias archivadas \(predeterminado: false\) |
| `first` | number | No | Número de incidencias a devolver \(predeterminado: 50, máximo: 250\) |
| `after` | string | No | Cursor de paginación para la siguiente página |
| `orderBy` | string | No | Orden de clasificación: "createdAt" o "updatedAt" \(predeterminado: "updatedAt"\) |
#### Salida
| Parámetro | Tipo | Descripción |
| --------- | ---- | ----------- |
| `issues` | array | Array de incidencias del equipo y proyecto de Linear especificados, cada una contiene id, título, descripción, estado, teamId y projectId |
| `issues` | array | Array de incidencias filtradas de Linear |
### `linear_get_issue`
@@ -73,15 +83,25 @@ Crear una nueva incidencia en Linear
| Parámetro | Tipo | Obligatorio | Descripción |
| --------- | ---- | ----------- | ----------- |
| `teamId` | string | Sí | ID del equipo de Linear |
| `projectId` | string | | ID del proyecto de Linear |
| `projectId` | string | No | ID del proyecto de Linear |
| `title` | string | Sí | Título de la incidencia |
| `description` | string | No | Descripción de la incidencia |
| `stateId` | string | No | ID del estado del flujo de trabajo \(estado\) |
| `assigneeId` | string | No | ID del usuario al que asignar la incidencia |
| `priority` | number | No | Prioridad \(0=Sin prioridad, 1=Urgente, 2=Alta, 3=Normal, 4=Baja\) |
| `estimate` | number | No | Estimación en puntos |
| `labelIds` | array | No | Array de IDs de etiquetas para establecer en la incidencia |
| `cycleId` | string | No | ID del ciclo al que asignar la incidencia |
| `parentId` | string | No | ID de la incidencia padre \(para crear subincidencias\) |
| `dueDate` | string | No | Fecha de vencimiento en formato ISO 8601 \(solo fecha: AAAA-MM-DD\) |
| `subscriberIds` | array | No | Array de IDs de usuarios para suscribirse a la incidencia |
| `projectMilestoneId` | string | No | ID del hito del proyecto para asociar con la incidencia |
#### Salida
| Parámetro | Tipo | Descripción |
| --------- | ---- | ----------- |
| `issue` | object | La incidencia creada que contiene id, título, descripción, estado, teamId y projectId |
| `issue` | object | La incidencia creada con todas sus propiedades |
### `linear_update_issue`
@@ -91,14 +111,20 @@ Actualizar una incidencia existente en Linear
| Parámetro | Tipo | Obligatorio | Descripción |
| --------- | ---- | ----------- | ----------- |
| `issueId` | string | Sí | ID de la incidencia de Linear a actualizar |
| `issueId` | string | Sí | ID de la incidencia de Linear para actualizar |
| `title` | string | No | Nuevo título de la incidencia |
| `description` | string | No | Nueva descripción de la incidencia |
| `stateId` | string | No | ID del estado del flujo de trabajo \(estado\) |
| `assigneeId` | string | No | ID del usuario al que asignar la incidencia |
| `priority` | number | No | Prioridad \(0=Sin prioridad, 1=Urgente, 2=Alta, 3=Normal, 4=Baja\) |
| `estimate` | number | No | Estimación en puntos |
| `labelIds` | array | No | Array de IDs de etiquetas para establecer en la incidencia |
| `labelIds` | array | No | Array de IDs de etiquetas para establecer en la incidencia \(reemplaza todas las etiquetas existentes\) |
| `projectId` | string | No | ID del proyecto al que mover la incidencia |
| `cycleId` | string | No | ID del ciclo al que asignar la incidencia |
| `parentId` | string | No | ID de la incidencia padre \(para convertir esta en una subincidencia\) |
| `dueDate` | string | No | Fecha de vencimiento en formato ISO 8601 \(solo fecha: AAAA-MM-DD\) |
| `addedLabelIds` | array | No | Array de IDs de etiquetas para añadir a la incidencia \(sin reemplazar las etiquetas existentes\) |
| `removedLabelIds` | array | No | Array de IDs de etiquetas para eliminar de la incidencia |
#### Salida
@@ -237,7 +263,7 @@ Editar un comentario en Linear
| Parámetro | Tipo | Obligatorio | Descripción |
| --------- | ---- | ----------- | ----------- |
| `commentId` | string | Sí | ID del comentario a actualizar |
| `body` | string | | Nuevo texto del comentario \(admite Markdown\) |
| `body` | string | No | Nuevo texto del comentario \(admite Markdown\) |
#### Salida
@@ -347,11 +373,11 @@ Actualizar un proyecto existente en Linear
| `projectId` | string | Sí | ID del proyecto a actualizar |
| `name` | string | No | Nuevo nombre del proyecto |
| `description` | string | No | Nueva descripción del proyecto |
| `state` | string | No | Estado del proyecto (planned, started, completed, canceled) |
| `state` | string | No | Estado del proyecto \(planned, started, completed, canceled\) |
| `leadId` | string | No | ID del usuario líder del proyecto |
| `startDate` | string | No | Fecha de inicio del proyecto (formato ISO) |
| `targetDate` | string | No | Fecha objetivo del proyecto (formato ISO) |
| `priority` | number | No | Prioridad del proyecto (0-4) |
| `startDate` | string | No | Fecha de inicio del proyecto \(formato ISO: YYYY-MM-DD\) |
| `targetDate` | string | No | Fecha objetivo del proyecto \(formato ISO: YYYY-MM-DD\) |
| `priority` | number | No | Prioridad del proyecto \(0=Sin prioridad, 1=Urgente, 2=Alta, 3=Normal, 4=Baja\) |
#### Salida
@@ -526,8 +552,8 @@ Crear un nuevo estado de flujo de trabajo (estado) en Linear
| Parámetro | Tipo | Obligatorio | Descripción |
| --------- | ---- | ----------- | ----------- |
| `teamId` | string | Sí | ID del equipo donde crear el estado |
| `name` | string | Sí | Nombre del estado (p. ej., "En revisión") |
| `color` | string | | Color del estado (formato hex) |
| `name` | string | Sí | Nombre del estado \(p. ej., "En revisión"\) |
| `color` | string | No | Color del estado \(formato hex\) |
| `type` | string | Sí | Tipo de estado: "backlog", "unstarted", "started", "completed", o "canceled" |
| `description` | string | No | Descripción del estado |
| `position` | number | No | Posición en el flujo de trabajo |
@@ -637,7 +663,7 @@ Añadir un adjunto a una incidencia en Linear
| --------- | ---- | ----------- | ----------- |
| `issueId` | string | Sí | ID de la incidencia a la que adjuntar |
| `url` | string | Sí | URL del adjunto |
| `title` | string | No | Título del adjunto |
| `title` | string | | Título del adjunto |
| `subtitle` | string | No | Subtítulo/descripción del adjunto |
#### Salida
@@ -673,7 +699,7 @@ Actualizar los metadatos de un adjunto en Linear
| Parámetro | Tipo | Obligatorio | Descripción |
| --------- | ---- | ----------- | ----------- |
| `attachmentId` | string | Sí | ID del adjunto a actualizar |
| `title` | string | No | Nuevo título del adjunto |
| `title` | string | | Nuevo título del adjunto |
| `subtitle` | string | No | Nuevo subtítulo del adjunto |
#### Salida
@@ -707,8 +733,8 @@ Vincular dos incidencias en Linear (bloquea, se relaciona con, duplica)
| Parámetro | Tipo | Obligatorio | Descripción |
| --------- | ---- | ----------- | ----------- |
| `issueId` | string | Sí | ID de la incidencia de origen |
| `relatedIssueId` | string | Sí | ID de la incidencia de destino a vincular |
| `type` | string | Sí | Tipo de relación: "blocks", "blocked", "duplicate", "related" |
| `relatedIssueId` | string | Sí | ID de la incidencia de destino a la que vincular |
| `type` | string | Sí | Tipo de relación: "blocks", "duplicate", o "related". Nota: Al crear "blocks" de A a B, la relación inversa \(B bloqueada por A\) se crea automáticamente. |
#### Salida
@@ -1217,10 +1243,11 @@ Crear una nueva etiqueta de proyecto en Linear
| Parámetro | Tipo | Obligatorio | Descripción |
| --------- | ---- | ----------- | ----------- |
| `name` | string | Sí | Nombre de la etiqueta de proyecto |
| `color` | string | No | Color de la etiqueta (código hexadecimal) |
| `projectId` | string | Sí | El proyecto para esta etiqueta |
| `name` | string | | Nombre de la etiqueta del proyecto |
| `color` | string | No | Color de la etiqueta \(código hex\) |
| `description` | string | No | Descripción de la etiqueta |
| `isGroup` | boolean | No | Indica si es un grupo de etiquetas |
| `isGroup` | boolean | No | Indica si esta es un grupo de etiquetas |
| `parentId` | string | No | ID del grupo de etiquetas padre |
#### Salida
@@ -1394,10 +1421,11 @@ Crear un nuevo estado de proyecto en Linear
| Parámetro | Tipo | Obligatorio | Descripción |
| --------- | ---- | ----------- | ----------- |
| `projectId` | string | Sí | El proyecto para el que crear el estado |
| `name` | string | Sí | Nombre del estado del proyecto |
| `color` | string | Sí | Color del estado \(código hex\) |
| `color` | string | Sí | Color del estado (código hex) |
| `description` | string | No | Descripción del estado |
| `indefinite` | boolean | No | Indica si el estado es indefinido |
| `indefinite` | boolean | No | Si el estado es indefinido |
| `position` | number | No | Posición en la lista de estados |
#### Salida

View File

@@ -11,20 +11,37 @@ import { BlockInfoCard } from "@/components/ui/block-info-card"
/>
{/* MANUAL-CONTENT-START:intro */}
Transcribe voz a texto utilizando modelos de IA de vanguardia de proveedores líderes. Las herramientas de Sim de voz a texto (STT) te permiten convertir archivos de audio y video en transcripciones precisas, con soporte para múltiples idiomas, marcas de tiempo y traducción opcional.
Transcribe voz a texto utilizando los modelos de IA más avanzados de proveedores de clase mundial. Las herramientas de reconocimiento de voz (STT) de Sim te permiten convertir audio y video en transcripciones precisas, con marcas de tiempo y opcionalmente traducidas, compatibles con una diversidad de idiomas y mejoradas con características avanzadas como la diarización e identificación de hablantes.
Proveedores compatibles:
**Proveedores y modelos compatibles:**
- **[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)**: Modelo STT avanzado de código abierto de OpenAI. Compatible con modelos como `whisper-1` y maneja una amplia variedad de idiomas y formatos de audio.
- **[Deepgram](https://deepgram.com/)**: API de STT en tiempo real y por lotes con modelos de aprendizaje profundo como `nova-3`, `nova-2` y `whisper-large`. Ofrece características como diarización, reconocimiento de intención y ajuste específico para industrias.
- **[ElevenLabs](https://elevenlabs.io/)**: Conocido por su IA de voz de alta calidad, ElevenLabs proporciona modelos STT enfocados en precisión y comprensión del lenguaje natural para numerosos idiomas y dialectos.
- **[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)** (OpenAI):
Whisper de OpenAI es un modelo de aprendizaje profundo de código abierto reconocido por su robustez en diferentes idiomas y condiciones de audio. Admite modelos avanzados como `whisper-1`, destacándose en transcripción, traducción y tareas que exigen alta generalización del modelo. Respaldado por OpenAI—la empresa conocida por ChatGPT e investigación líder en IA—Whisper es ampliamente utilizado en investigación y como referencia para evaluación comparativa.
Elige el proveedor y modelo que mejor se adapte a tu tarea, ya sea transcripción rápida de nivel de producción (Deepgram), capacidad multilingüe altamente precisa (Whisper) o comprensión avanzada y cobertura de idiomas (ElevenLabs).
- **[Deepgram](https://deepgram.com/)** (Deepgram Inc.):
Con sede en San Francisco, Deepgram ofrece APIs de reconocimiento de voz escalables y de nivel de producción para desarrolladores y empresas. Los modelos de Deepgram incluyen `nova-3`, `nova-2` y `whisper-large`, ofreciendo transcripción en tiempo real y por lotes con precisión líder en la industria, soporte multilingüe, puntuación automática, diarización inteligente, análisis de llamadas y características para casos de uso que van desde telefonía hasta producción de medios.
- **[ElevenLabs](https://elevenlabs.io/)** (ElevenLabs):
Líder en IA de voz, ElevenLabs es especialmente conocido por su síntesis y reconocimiento de voz premium. Su producto STT ofrece alta precisión y comprensión natural de numerosos idiomas, dialectos y acentos. Los modelos recientes de STT de ElevenLabs están optimizados para claridad, distinción de hablantes y son adecuados tanto para escenarios creativos como de accesibilidad. ElevenLabs es reconocido por sus avances de vanguardia en tecnologías de voz impulsadas por IA.
- **[AssemblyAI](https://www.assemblyai.com/)** (AssemblyAI Inc.):
AssemblyAI proporciona reconocimiento de voz altamente preciso basado en API, con características como capítulos automáticos, detección de temas, resúmenes, análisis de sentimientos y moderación de contenido junto con la transcripción. Su modelo propietario, incluyendo el aclamado `Conformer-2`, impulsa algunas de las aplicaciones más grandes de medios, centros de llamadas y cumplimiento normativo en la industria. AssemblyAI cuenta con la confianza de empresas Fortune 500 y startups líderes en IA a nivel mundial.
- **[Google Cloud Speech-to-Text](https://cloud.google.com/speech-to-text)** (Google Cloud):
La API Speech-to-Text de nivel empresarial de Google admite más de 125 idiomas y variantes, ofreciendo alta precisión y características como transmisión en tiempo real, confianza a nivel de palabra, diarización de hablantes, puntuación automática, vocabulario personalizado y ajuste específico por dominio. Modelos como `latest_long`, `video`, y modelos optimizados por dominio están disponibles, impulsados por años de investigación de Google y desplegados para escalabilidad global.
- **[AWS Transcribe](https://aws.amazon.com/transcribe/)** (Amazon Web Services):
AWS Transcribe aprovecha la infraestructura en la nube de Amazon para ofrecer un robusto reconocimiento de voz como API. Admite múltiples idiomas y características como identificación de hablantes, vocabulario personalizado, identificación de canales (para audio de centros de llamadas) y transcripción específica para medicina. Los modelos populares incluyen `standard` y variaciones específicas por dominio. AWS Transcribe es ideal para organizaciones que ya utilizan la nube de Amazon.
**Cómo elegir:**
Selecciona el proveedor y modelo que se adapte a tu aplicación—ya sea que necesites transcripción rápida y lista para empresas con análisis adicionales (Deepgram, AssemblyAI, Google, AWS), alta versatilidad y acceso de código abierto (OpenAI Whisper), o comprensión avanzada de hablantes/contextual (ElevenLabs). Considera el precio, la cobertura de idiomas, la precisión y cualquier característica especial (como resúmenes, capítulos o análisis de sentimiento) que puedas necesitar.
Para más detalles sobre capacidades, precios, características destacadas y opciones de ajuste fino, consulta la documentación oficial de cada proveedor a través de los enlaces anteriores.
{/* MANUAL-CONTENT-END */}
## Instrucciones de uso
Transcribe archivos de audio y video a texto utilizando proveedores de IA líderes. Compatible con múltiples idiomas, marcas de tiempo y diarización de hablantes.
Transcribe archivos de audio y video a texto utilizando proveedores líderes de IA. Compatible con múltiples idiomas, marcas de tiempo y diarización de hablantes.
## Herramientas
@@ -38,13 +55,15 @@ Transcribe audio a texto usando OpenAI Whisper
| --------- | ---- | -------- | ----------- |
| `provider` | string | Sí | Proveedor STT \(whisper\) |
| `apiKey` | string | Sí | Clave API de OpenAI |
| `model` | string | No | Modelo Whisper a utilizar \(predeterminado: whisper-1\) |
| `model` | string | No | Modelo de Whisper a utilizar \(predeterminado: whisper-1\) |
| `audioFile` | file | No | Archivo de audio o video para transcribir |
| `audioFileReference` | file | No | Referencia a archivo de audio/video de bloques anteriores |
| `audioFileReference` | file | No | Referencia al archivo de audio/video de bloques anteriores |
| `audioUrl` | string | No | URL al archivo de audio o video |
| `language` | string | No | Código de idioma \(p.ej., "en", "es", "fr"\) o "auto" para detección automática |
| `timestamps` | string | No | Granularidad de marcas de tiempo: none, sentence, o word |
| `timestamps` | string | No | Granularidad de marca de tiempo: none, sentence, o word |
| `translateToEnglish` | boolean | No | Traducir audio a inglés |
| `prompt` | string | No | Texto opcional para guiar el estilo del modelo o continuar un segmento de audio anterior. Ayuda con nombres propios y contexto. |
| `temperature` | number | No | Temperatura de muestreo entre 0 y 1. Valores más altos hacen que la salida sea más aleatoria, valores más bajos más enfocada y determinista. |
#### Salida
@@ -54,11 +73,10 @@ Transcribe audio a texto usando OpenAI Whisper
| `segments` | array | Segmentos con marcas de tiempo |
| `language` | string | Idioma detectado o especificado |
| `duration` | number | Duración del audio en segundos |
| `confidence` | number | Puntuación de confianza general |
### `stt_deepgram`
Transcribe audio a texto usando Deepgram
Transcribir audio a texto usando Deepgram
#### Entrada
@@ -86,11 +104,11 @@ Transcribe audio a texto usando Deepgram
### `stt_elevenlabs`
Transcribe audio a texto usando ElevenLabs
Transcribir audio a texto usando ElevenLabs
#### Entrada
| Parámetro | Tipo | Requerido | Descripción |
| Parámetro | Tipo | Obligatorio | Descripción |
| --------- | ---- | -------- | ----------- |
| `provider` | string | Sí | Proveedor STT \(elevenlabs\) |
| `apiKey` | string | Sí | Clave API de ElevenLabs |
@@ -99,7 +117,69 @@ Transcribe audio a texto usando ElevenLabs
| `audioFileReference` | file | No | Referencia al archivo de audio/video de bloques anteriores |
| `audioUrl` | string | No | URL al archivo de audio o video |
| `language` | string | No | Código de idioma \(p.ej., "en", "es", "fr"\) o "auto" para detección automática |
| `timestamps` | string | No | Granularidad de marca de tiempo: none, sentence, o word |
| `timestamps` | string | No | Granularidad de marcas de tiempo: none, sentence, o word |
#### Salida
| Parámetro | Tipo | Descripción |
| --------- | ---- | ----------- |
| `transcript` | string | Texto transcrito completo |
| `segments` | array | Segmentos con marcas de tiempo |
| `language` | string | Idioma detectado o especificado |
| `duration` | number | Duración del audio en segundos |
| `confidence` | number | Puntuación de confianza general |
### `stt_assemblyai`
Transcribir audio a texto usando AssemblyAI con funciones avanzadas de PLN
#### Entrada
| Parámetro | Tipo | Obligatorio | Descripción |
| --------- | ---- | -------- | ----------- |
| `provider` | string | Sí | Proveedor STT \(assemblyai\) |
| `apiKey` | string | Sí | Clave API de AssemblyAI |
| `model` | string | No | Modelo de AssemblyAI a utilizar \(predeterminado: best\) |
| `audioFile` | file | No | Archivo de audio o video para transcribir |
| `audioFileReference` | file | No | Referencia al archivo de audio/video de bloques anteriores |
| `audioUrl` | string | No | URL al archivo de audio o video |
| `language` | string | No | Código de idioma \(p.ej., "en", "es", "fr"\) o "auto" para detección automática |
| `timestamps` | string | No | Granularidad de marcas de tiempo: none, sentence, o word |
| `diarization` | boolean | No | Habilitar diarización de hablantes |
| `sentiment` | boolean | No | Habilitar análisis de sentimiento |
| `entityDetection` | boolean | No | Habilitar detección de entidades |
| `piiRedaction` | boolean | No | Habilitar redacción de IIP |
| `summarization` | boolean | No | Habilitar resumen automático |
#### Salida
| Parámetro | Tipo | Descripción |
| --------- | ---- | ----------- |
| `transcript` | string | Texto transcrito completo |
| `segments` | array | Segmentos con marcas de tiempo y etiquetas de hablantes |
| `language` | string | Idioma detectado o especificado |
| `duration` | number | Duración del audio en segundos |
| `confidence` | number | Puntuación de confianza general |
| `sentiment` | array | Resultados del análisis de sentimiento |
| `entities` | array | Entidades detectadas |
| `summary` | string | Resumen generado automáticamente |
### `stt_gemini`
Transcribe audio a texto usando Google Gemini con capacidades multimodales
#### Entrada
| Parámetro | Tipo | Obligatorio | Descripción |
| --------- | ---- | -------- | ----------- |
| `provider` | string | Sí | Proveedor STT \(gemini\) |
| `apiKey` | string | Sí | Clave API de Google |
| `model` | string | No | Modelo de Gemini a utilizar \(predeterminado: gemini-2.5-flash\) |
| `audioFile` | file | No | Archivo de audio o video para transcribir |
| `audioFileReference` | file | No | Referencia al archivo de audio/video de bloques anteriores |
| `audioUrl` | string | No | URL al archivo de audio o video |
| `language` | string | No | Código de idioma \(p.ej., "en", "es", "fr"\) o "auto" para detección automática |
| `timestamps` | string | No | Granularidad de marcas de tiempo: none, sentence, o word |
#### Salida

View File

@@ -0,0 +1,256 @@
---
title: Texto a voz
description: Convierte texto a voz utilizando voces de IA
---
import { BlockInfoCard } from "@/components/ui/block-info-card"
<BlockInfoCard
type="tts"
color="#181C1E"
/>
{/* MANUAL-CONTENT-START:intro */}
Convierte texto en voz de sonido natural utilizando las últimas voces de IA. Las herramientas de texto a voz (TTS) de Sim te permiten generar audio a partir de texto escrito en docenas de idiomas, con una selección de voces expresivas, formatos y controles avanzados como velocidad, estilo, emoción y más.
**Proveedores y modelos compatibles:**
- **[OpenAI Text-to-Speech](https://platform.openai.com/docs/guides/text-to-speech/voice-options)** (OpenAI):
La API TTS de OpenAI ofrece voces ultra realistas utilizando modelos avanzados de IA como `tts-1`, `tts-1-hd` y `gpt-4o-mini-tts`. Las voces incluyen tanto masculinas como femeninas, con opciones como alloy, echo, fable, onyx, nova, shimmer, ash, ballad, coral, sage y verse. Compatible con múltiples formatos de audio (mp3, opus, aac, flac, wav, pcm), velocidad ajustable y síntesis en streaming.
- **[Deepgram Aura](https://deepgram.com/products/text-to-speech)** (Deepgram Inc.):
Aura de Deepgram proporciona voces de IA expresivas en inglés y multilingües, optimizadas para claridad conversacional, baja latencia y personalización. Están disponibles modelos como `aura-asteria-en`, `aura-luna-en` y otros. Compatible con múltiples formatos de codificación (linear16, mp3, opus, aac, flac) y ajuste fino de velocidad, frecuencia de muestreo y estilo.
- **[ElevenLabs Text-to-Speech](https://elevenlabs.io/text-to-speech)** (ElevenLabs):
ElevenLabs lidera en TTS realista y emocionalmente rico, ofreciendo docenas de voces en más de 29 idiomas y la capacidad de clonar voces personalizadas. Los modelos admiten diseño de voz, síntesis de habla y acceso directo a API, con controles avanzados para estilo, emoción, estabilidad y similitud. Adecuado para audiolibros, creación de contenido, accesibilidad y más.
- **[Cartesia TTS](https://docs.cartesia.ai/)** (Cartesia):
Cartesia ofrece texto a voz de alta calidad, rápido y seguro con un enfoque en la privacidad y la implementación flexible. Proporciona streaming instantáneo, síntesis en tiempo real y es compatible con múltiples voces y acentos internacionales, accesibles a través de una API sencilla.
- **[Google Cloud Text-to-Speech](https://cloud.google.com/text-to-speech)** (Google Cloud):
Google utiliza los modelos DeepMind WaveNet y Neural2 para potenciar voces de alta fidelidad en más de 50 idiomas y variantes. Las características incluyen selección de voz, tono, velocidad de habla, control de volumen, etiquetas SSML y acceso tanto a voces estándar como a voces premium de calidad de estudio. Ampliamente utilizado para accesibilidad, IVR y medios.
- **[Microsoft Azure Speech](https://azure.microsoft.com/en-us/products/ai-services/text-to-speech)** (Microsoft Azure):
Azure proporciona más de 400 voces neuronales en más de 140 idiomas y configuraciones regionales, con personalización única de voz, estilo, emoción, rol y controles en tiempo real. Ofrece soporte SSML para pronunciación, entonación y más. Ideal para necesidades globales, empresariales o creativas de TTS.
- **[PlayHT](https://play.ht/)** (PlayHT):
PlayHT se especializa en síntesis de voz realista, clonación de voz y reproducción instantánea con más de 800 voces en más de 100 idiomas. Las características incluyen controles de emoción, tono y velocidad, audio con múltiples voces y creación de voces personalizadas a través de la API o estudio en línea.
**Cómo elegir:**
Selecciona tu proveedor y modelo priorizando idiomas, tipos de voces compatibles, formatos deseados (mp3, wav, etc.), granularidad de control (velocidad, emoción, etc.) y características especializadas (clonación de voz, acento, streaming). Para casos de uso creativos, de accesibilidad o de desarrollo, asegúrate de la compatibilidad con los requisitos de tu aplicación y compara costos.
¡Visita el sitio oficial de cada proveedor para obtener información actualizada sobre capacidades, precios y documentación!
{/* MANUAL-CONTENT-END */}
## Instrucciones de uso
Genera voz de sonido natural a partir de texto utilizando voces de IA de última generación de OpenAI, Deepgram, ElevenLabs, Cartesia, Google Cloud, Azure y PlayHT. Compatible con múltiples voces, idiomas y formatos de audio.
## Herramientas
### `tts_openai`
Convierte texto a voz utilizando modelos TTS de OpenAI
#### Entrada
| Parámetro | Tipo | Obligatorio | Descripción |
| --------- | ---- | ----------- | ----------- |
| `text` | string | Sí | El texto a convertir en voz |
| `apiKey` | string | Sí | Clave API de OpenAI |
| `model` | string | No | Modelo TTS a utilizar \(tts-1, tts-1-hd, o gpt-4o-mini-tts\) |
| `voice` | string | No | Voz a utilizar \(alloy, ash, ballad, cedar, coral, echo, marin, sage, shimmer, verse\) |
| `responseFormat` | string | No | Formato de audio \(mp3, opus, aac, flac, wav, pcm\) |
| `speed` | number | No | Velocidad del habla \(0.25 a 4.0, predeterminado: 1.0\) |
#### Salida
| Parámetro | Tipo | Descripción |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL del archivo de audio generado |
| `audioFile` | file | Objeto de archivo de audio generado |
| `duration` | number | Duración del audio en segundos |
| `characterCount` | number | Número de caracteres procesados |
| `format` | string | Formato de audio |
| `provider` | string | Proveedor de TTS utilizado |
### `tts_deepgram`
Convertir texto a voz usando Deepgram Aura
#### Entrada
| Parámetro | Tipo | Obligatorio | Descripción |
| --------- | ---- | -------- | ----------- |
| `text` | string | Sí | El texto a convertir en voz |
| `apiKey` | string | Sí | Clave API de Deepgram |
| `model` | string | No | Modelo/voz de Deepgram (ej., aura-asteria-en, aura-luna-en) |
| `voice` | string | No | Identificador de voz (alternativa al parámetro model) |
| `encoding` | string | No | Codificación de audio (linear16, mp3, opus, aac, flac) |
| `sampleRate` | number | No | Frecuencia de muestreo (8000, 16000, 24000, 48000) |
| `bitRate` | number | No | Tasa de bits para formatos comprimidos |
| `container` | string | No | Formato de contenedor (none, wav, ogg) |
#### Salida
| Parámetro | Tipo | Descripción |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL del archivo de audio generado |
| `audioFile` | file | Objeto de archivo de audio generado |
| `duration` | number | Duración del audio en segundos |
| `characterCount` | number | Número de caracteres procesados |
| `format` | string | Formato de audio |
| `provider` | string | Proveedor de TTS utilizado |
### `tts_elevenlabs`
Convierte texto a voz usando voces de ElevenLabs
#### Entrada
| Parámetro | Tipo | Obligatorio | Descripción |
| --------- | ---- | -------- | ----------- |
| `text` | string | Sí | El texto a convertir en voz |
| `voiceId` | string | Sí | El ID de la voz a utilizar |
| `apiKey` | string | Sí | Clave API de ElevenLabs |
| `modelId` | string | No | Modelo a utilizar \(p. ej., eleven_monolingual_v1, eleven_turbo_v2_5, eleven_flash_v2_5\) |
| `stability` | number | No | Estabilidad de voz \(0.0 a 1.0, predeterminado: 0.5\) |
| `similarityBoost` | number | No | Aumento de similitud \(0.0 a 1.0, predeterminado: 0.8\) |
| `style` | number | No | Exageración de estilo \(0.0 a 1.0\) |
| `useSpeakerBoost` | boolean | No | Usar potenciador de altavoz \(predeterminado: true\) |
#### Salida
| Parámetro | Tipo | Descripción |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL al archivo de audio generado |
| `audioFile` | file | Objeto de archivo de audio generado |
| `duration` | number | Duración del audio en segundos |
| `characterCount` | number | Número de caracteres procesados |
| `format` | string | Formato de audio |
| `provider` | string | Proveedor de TTS utilizado |
### `tts_cartesia`
Convierte texto a voz usando Cartesia Sonic (latencia ultra baja)
#### Entrada
| Parámetro | Tipo | Obligatorio | Descripción |
| --------- | ---- | -------- | ----------- |
| `text` | string | Sí | El texto a convertir en voz |
| `apiKey` | string | Sí | Clave API de Cartesia |
| `modelId` | string | No | ID del modelo \(sonic-english, sonic-multilingual\) |
| `voice` | string | No | ID de voz o embedding |
| `language` | string | No | Código de idioma \(en, es, fr, de, it, pt, etc.\) |
| `outputFormat` | json | No | Configuración de formato de salida \(container, encoding, sampleRate\) |
| `speed` | number | No | Multiplicador de velocidad |
| `emotion` | array | No | Etiquetas de emoción para Sonic-3 \(p. ej., \['positivity:high'\]\) |
#### Salida
| Parámetro | Tipo | Descripción |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL al archivo de audio generado |
| `audioFile` | file | Objeto de archivo de audio generado |
| `duration` | number | Duración del audio en segundos |
| `characterCount` | number | Número de caracteres procesados |
| `format` | string | Formato de audio |
| `provider` | string | Proveedor de TTS utilizado |
### `tts_google`
Convertir texto a voz utilizando Google Cloud Text-to-Speech
#### Entrada
| Parámetro | Tipo | Obligatorio | Descripción |
| --------- | ---- | ----------- | ----------- |
| `text` | string | Sí | El texto a convertir en voz |
| `apiKey` | string | Sí | Clave API de Google Cloud |
| `voiceId` | string | No | ID de voz (p. ej., en-US-Neural2-A, en-US-Wavenet-D) |
| `languageCode` | string | Sí | Código de idioma (p. ej., en-US, es-ES, fr-FR) |
| `gender` | string | No | Género de voz (MALE, FEMALE, NEUTRAL) |
| `audioEncoding` | string | No | Codificación de audio (LINEAR16, MP3, OGG_OPUS, MULAW, ALAW) |
| `speakingRate` | number | No | Velocidad de habla (0.25 a 2.0, predeterminado: 1.0) |
| `pitch` | number | No | Tono de voz (-20.0 a 20.0, predeterminado: 0.0) |
| `volumeGainDb` | number | No | Ganancia de volumen en dB (-96.0 a 16.0) |
| `sampleRateHertz` | number | No | Frecuencia de muestreo en Hz |
| `effectsProfileId` | array | No | Perfil de efectos (p. ej., ['headphone-class-device']) |
#### Salida
| Parámetro | Tipo | Descripción |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL al archivo de audio generado |
| `audioFile` | file | Objeto de archivo de audio generado |
| `duration` | number | Duración del audio en segundos |
| `characterCount` | number | Número de caracteres procesados |
| `format` | string | Formato de audio |
| `provider` | string | Proveedor de TTS utilizado |
### `tts_azure`
Convertir texto a voz usando Azure Cognitive Services
#### Entrada
| Parámetro | Tipo | Requerido | Descripción |
| --------- | ---- | -------- | ----------- |
| `text` | string | Sí | El texto a convertir en voz |
| `apiKey` | string | Sí | Clave de API de Azure Speech Services |
| `voiceId` | string | No | ID de voz (p. ej., en-US-JennyNeural, en-US-GuyNeural) |
| `region` | string | No | Región de Azure (p. ej., eastus, westus, westeurope) |
| `outputFormat` | string | No | Formato de audio de salida |
| `rate` | string | No | Velocidad de habla (p. ej., +10%, -20%, 1.5) |
| `pitch` | string | No | Tono de voz (p. ej., +5Hz, -2st, bajo) |
| `style` | string | No | Estilo de habla (p. ej., alegre, triste, enojado - solo voces neurales) |
| `styleDegree` | number | No | Intensidad del estilo (0.01 a 2.0) |
| `role` | string | No | Rol (p. ej., Niña, Niño, MujerJovenAdulta) |
#### Salida
| Parámetro | Tipo | Descripción |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL al archivo de audio generado |
| `audioFile` | file | Objeto de archivo de audio generado |
| `duration` | number | Duración del audio en segundos |
| `characterCount` | number | Número de caracteres procesados |
| `format` | string | Formato de audio |
| `provider` | string | Proveedor de TTS utilizado |
### `tts_playht`
Convertir texto a voz usando PlayHT (clonación de voz)
#### Entrada
| Parámetro | Tipo | Obligatorio | Descripción |
| --------- | ---- | -------- | ----------- |
| `text` | string | Sí | El texto a convertir en voz |
| `apiKey` | string | Sí | Clave API de PlayHT \(encabezado AUTHORIZATION\) |
| `userId` | string | Sí | ID de usuario de PlayHT \(encabezado X-USER-ID\) |
| `voice` | string | No | ID de voz o URL del manifiesto |
| `quality` | string | No | Nivel de calidad \(draft, standard, premium\) |
| `outputFormat` | string | No | Formato de salida \(mp3, wav, ogg, flac, mulaw\) |
| `speed` | number | No | Multiplicador de velocidad \(0.5 a 2.0\) |
| `temperature` | number | No | Creatividad/aleatoriedad \(0.0 a 2.0\) |
| `voiceGuidance` | number | No | Estabilidad de voz \(1.0 a 6.0\) |
| `textGuidance` | number | No | Adherencia al texto \(1.0 a 6.0\) |
| `sampleRate` | number | No | Frecuencia de muestreo \(8000, 16000, 22050, 24000, 44100, 48000\) |
#### Salida
| Parámetro | Tipo | Descripción |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL del archivo de audio generado |
| `audioFile` | file | Objeto de archivo de audio generado |
| `duration` | number | Duración del audio en segundos |
| `characterCount` | number | Número de caracteres procesados |
| `format` | string | Formato de audio |
| `provider` | string | Proveedor de TTS utilizado |
## Notas
- Categoría: `tools`
- Tipo: `tts`

View File

@@ -0,0 +1,192 @@
---
title: Generador de vídeos
description: Genera vídeos a partir de texto usando IA
---
import { BlockInfoCard } from "@/components/ui/block-info-card"
<BlockInfoCard
type="video_generator"
color="#181C1E"
/>
{/* MANUAL-CONTENT-START:intro */}
Crea vídeos a partir de indicaciones de texto utilizando modelos de IA de vanguardia de los principales proveedores. El Generador de Vídeos de Sim incorpora potentes capacidades de síntesis creativa de vídeo a tu flujo de trabajo, con soporte para diversos modelos, relaciones de aspecto, resoluciones, controles de cámara, audio nativo y funciones avanzadas de estilo y consistencia.
**Proveedores y modelos compatibles:**
- **[Runway Gen-4](https://research.runwayml.com/gen2/)** (Runway ML):
Runway es pionero en la generación de texto a vídeo, conocido por potentes modelos como Gen-2, Gen-3 y Gen-4. El último modelo [Gen-4](https://research.runwayml.com/gen2/) (y Gen-4 Turbo para resultados más rápidos) admite un movimiento más realista, mayor consistencia del entorno y referencias visuales para personajes, objetos, estilo y ubicación. Compatible con relaciones de aspecto 16:9, 9:16 y 1:1, duraciones de 5-10 segundos, resolución de hasta 4K, ajustes preestablecidos de estilo y carga directa de imágenes de referencia para generaciones consistentes. Runway potencia herramientas creativas para cineastas, estudios y creadores de contenido en todo el mundo.
- **[Google Veo](https://deepmind.google/technologies/veo/)** (Google DeepMind):
[Veo](https://deepmind.google/technologies/veo/) es el modelo de generación de vídeo de próxima generación de Google, que ofrece vídeos de alta calidad con audio nativo de hasta 1080p y 16 segundos. Compatible con movimiento avanzado, efectos cinematográficos y comprensión matizada del texto. Veo puede generar vídeos con sonido incorporado, activando tanto audio nativo como clips silenciosos. Las opciones incluyen relación de aspecto 16:9, duración variable, diferentes modelos (veo-3, veo-3.1) y controles basados en indicaciones. Ideal para narración, publicidad, investigación e ideación.
- **[Luma Dream Machine](https://lumalabs.ai/dream-machine)** (Luma AI):
[Dream Machine](https://lumalabs.ai/dream-machine) ofrece vídeos sorprendentemente realistas y fluidos a partir de texto. Incorpora control avanzado de cámara, indicaciones de cinematografía y es compatible con los modelos ray-1 y ray-2. Dream Machine admite relaciones de aspecto precisas (16:9, 9:16, 1:1), duraciones variables y la especificación de trayectorias de cámara para una dirección visual intrincada. Luma es reconocido por su revolucionaria fidelidad visual y cuenta con el respaldo de destacados investigadores en visión por IA.
- **[MiniMax Hailuo-02](https://minimax.chat/)** (a través de [Fal.ai](https://fal.ai/)):
[MiniMax Hailuo-02](https://minimax.chat/) es un sofisticado modelo generativo de video chino, disponible globalmente a través de [Fal.ai](https://fal.ai/). Genera videos de hasta 16 segundos en formato horizontal o vertical, con opciones para optimización de prompts para mejorar la claridad y creatividad. Endpoints pro y estándar disponibles, soportando altas resoluciones (hasta 1920×1080). Bien adaptado para proyectos creativos que necesitan traducción y optimización de prompts, narración comercial y prototipado rápido de ideas visuales.
**Cómo elegir:**
Selecciona tu proveedor y modelo según tus necesidades de calidad, velocidad, duración, audio, costo y características únicas. Runway y Veo ofrecen realismo y capacidades cinematográficas líderes en el mundo; Luma sobresale en movimiento fluido y control de cámara; MiniMax es ideal para prompts en idioma chino y ofrece acceso rápido y asequible. Considera el soporte de referencias, preajustes de estilo, requisitos de audio y precios al seleccionar tu herramienta.
Para más detalles sobre características, restricciones, precios y avances de modelos, consulta la documentación oficial de cada proveedor mencionada anteriormente.
{/* MANUAL-CONTENT-END */}
## Instrucciones de uso
Genera videos de alta calidad a partir de prompts de texto utilizando proveedores líderes de IA. Compatible con múltiples modelos, relaciones de aspecto, resoluciones y características específicas de proveedores como consistencia del mundo, controles de cámara y generación de audio.
## Herramientas
### `video_runway`
Genera videos usando Runway Gen-4 con consistencia del mundo y referencias visuales
#### Entrada
| Parámetro | Tipo | Requerido | Descripción |
| --------- | ---- | -------- | ----------- |
| `provider` | string | Sí | Proveedor de video \(runway\) |
| `apiKey` | string | Sí | Clave API de Runway |
| `model` | string | No | Modelo de Runway: gen-4 \(predeterminado, mayor calidad\) o gen-4-turbo \(más rápido\) |
| `prompt` | string | Sí | Prompt de texto que describe el video a generar |
| `duration` | number | No | Duración del video en segundos \(5 o 10, predeterminado: 5\) |
| `aspectRatio` | string | No | Relación de aspecto: 16:9 \(horizontal\), 9:16 \(vertical\), o 1:1 \(cuadrado\) |
| `resolution` | string | No | Resolución de video \(salida 720p\). Nota: Gen-4 Turbo produce nativamente a 720p |
| `visualReference` | json | Sí | Imagen de referencia REQUERIDA para Gen-4 \(objeto UserFile\). Gen-4 solo admite generación de imagen a video, no generación solo de texto |
#### Salida
| Parámetro | Tipo | Descripción |
| --------- | ---- | ----------- |
| `videoUrl` | string | URL del video generado |
| `videoFile` | json | Objeto de archivo de video con metadatos |
| `duration` | number | Duración del video en segundos |
| `width` | number | Ancho del video en píxeles |
| `height` | number | Alto del video en píxeles |
| `provider` | string | Proveedor utilizado \(runway\) |
| `model` | string | Modelo utilizado |
| `jobId` | string | ID de trabajo de Runway |
### `video_veo`
Generar videos usando Google Veo 3/3.1 con generación de audio nativa
#### Entrada
| Parámetro | Tipo | Obligatorio | Descripción |
| --------- | ---- | -------- | ----------- |
| `provider` | string | Sí | Proveedor de video \(veo\) |
| `apiKey` | string | Sí | Clave API de Google Gemini |
| `model` | string | No | Modelo Veo: veo-3 \(predeterminado, mayor calidad\), veo-3-fast \(más rápido\), o veo-3.1 \(más reciente\) |
| `prompt` | string | Sí | Texto descriptivo del video a generar |
| `duration` | number | No | Duración del video en segundos \(4, 6, u 8, predeterminado: 8\) |
| `aspectRatio` | string | No | Relación de aspecto: 16:9 \(horizontal\) o 9:16 \(vertical\) |
| `resolution` | string | No | Resolución de video: 720p o 1080p \(predeterminado: 1080p\) |
#### Salida
| Parámetro | Tipo | Descripción |
| --------- | ---- | ----------- |
| `videoUrl` | string | URL del video generado |
| `videoFile` | json | Objeto de archivo de video con metadatos |
| `duration` | number | Duración del video en segundos |
| `width` | number | Ancho del video en píxeles |
| `height` | number | Alto del video en píxeles |
| `provider` | string | Proveedor utilizado \(veo\) |
| `model` | string | Modelo utilizado |
| `jobId` | string | ID de trabajo de Veo |
### `video_luma`
Genera videos usando Luma Dream Machine con controles avanzados de cámara
#### Entrada
| Parámetro | Tipo | Obligatorio | Descripción |
| --------- | ---- | -------- | ----------- |
| `provider` | string | Sí | Proveedor de video \(luma\) |
| `apiKey` | string | Sí | Clave API de Luma AI |
| `model` | string | No | Modelo de Luma: ray-2 \(predeterminado\) |
| `prompt` | string | Sí | Texto descriptivo del video a generar |
| `duration` | number | No | Duración del video en segundos \(5 o 9, predeterminado: 5\) |
| `aspectRatio` | string | No | Relación de aspecto: 16:9 \(horizontal\), 9:16 \(vertical\), o 1:1 \(cuadrado\) |
| `resolution` | string | No | Resolución de video: 540p, 720p, o 1080p \(predeterminado: 1080p\) |
| `cameraControl` | json | No | Controles de cámara como array de objetos de concepto. Formato: \[\{ "key": "concept_name" \}\]. Claves válidas: truck_left, truck_right, pan_left, pan_right, tilt_up, tilt_down, zoom_in, zoom_out, push_in, pull_out, orbit_left, orbit_right, crane_up, crane_down, static, handheld, y más de 20 opciones predefinidas adicionales |
#### Salida
| Parámetro | Tipo | Descripción |
| --------- | ---- | ----------- |
| `videoUrl` | string | URL del video generado |
| `videoFile` | json | Objeto de archivo de video con metadatos |
| `duration` | number | Duración del video en segundos |
| `width` | number | Ancho del video en píxeles |
| `height` | number | Alto del video en píxeles |
| `provider` | string | Proveedor utilizado \(luma\) |
| `model` | string | Modelo utilizado |
| `jobId` | string | ID de trabajo de Luma |
### `video_minimax`
Genera videos usando MiniMax Hailuo a través de la API de la plataforma MiniMax con realismo avanzado y optimización de instrucciones
#### Entrada
| Parámetro | Tipo | Obligatorio | Descripción |
| --------- | ---- | -------- | ----------- |
| `provider` | string | Sí | Proveedor de video \(minimax\) |
| `apiKey` | string | Sí | Clave API de MiniMax desde platform.minimax.io |
| `model` | string | No | Modelo de MiniMax: hailuo-02 \(predeterminado\) |
| `prompt` | string | Sí | Instrucción de texto que describe el video a generar |
| `duration` | number | No | Duración del video en segundos \(6 o 10, predeterminado: 6\) |
| `promptOptimizer` | boolean | No | Habilitar optimización de instrucciones para mejores resultados \(predeterminado: true\) |
#### Salida
| Parámetro | Tipo | Descripción |
| --------- | ---- | ----------- |
| `videoUrl` | string | URL del video generado |
| `videoFile` | json | Objeto de archivo de video con metadatos |
| `duration` | number | Duración del video en segundos |
| `width` | number | Ancho del video en píxeles |
| `height` | number | Alto del video en píxeles |
| `provider` | string | Proveedor utilizado \(minimax\) |
| `model` | string | Modelo utilizado |
| `jobId` | string | ID de trabajo de MiniMax |
### `video_falai`
Genera videos usando la plataforma Fal.ai con acceso a múltiples modelos incluyendo Veo 3.1, Sora 2, Kling 2.5, MiniMax Hailuo y más
#### Entrada
| Parámetro | Tipo | Obligatorio | Descripción |
| --------- | ---- | -------- | ----------- |
| `provider` | string | Sí | Proveedor de video \(falai\) |
| `apiKey` | string | Sí | Clave API de Fal.ai |
| `model` | string | Sí | Modelo de Fal.ai: veo-3.1 \(Google Veo 3.1\), sora-2 \(OpenAI Sora 2\), kling-2.5-turbo-pro \(Kling 2.5 Turbo Pro\), kling-2.1-pro \(Kling 2.1 Master\), minimax-hailuo-2.3-pro \(MiniMax Hailuo Pro\), minimax-hailuo-2.3-standard \(MiniMax Hailuo Standard\), wan-2.1 \(WAN T2V\), ltxv-0.9.8 \(LTXV 13B\) |
| `prompt` | string | Sí | Instrucción de texto que describe el video a generar |
| `duration` | number | No | Duración del video en segundos \(varía según el modelo\) |
| `aspectRatio` | string | No | Relación de aspecto \(varía según el modelo\): 16:9, 9:16, 1:1 |
| `resolution` | string | No | Resolución de video \(varía según el modelo\): 540p, 720p, 1080p |
| `promptOptimizer` | boolean | No | Habilitar optimización de instrucciones para modelos MiniMax \(predeterminado: true\) |
#### Salida
| Parámetro | Tipo | Descripción |
| --------- | ---- | ----------- |
| `videoUrl` | string | URL del video generado |
| `videoFile` | json | Objeto de archivo de video con metadatos |
| `duration` | number | Duración del video en segundos |
| `width` | number | Ancho del video en píxeles |
| `height` | number | Alto del video en píxeles |
| `provider` | string | Proveedor utilizado \(falai\) |
| `model` | string | Modelo utilizado |
| `jobId` | string | ID del trabajo |
## Notas
- Categoría: `tools`
- Tipo: `video_generator`

View File

@@ -4,10 +4,21 @@ description: Los disparadores son las formas principales de iniciar flujos de tr
---
import { Card, Cards } from 'fumadocs-ui/components/card'
import { Image } from '@/components/ui/image'
<div className="flex justify-center">
<Image
src="/static/blocks/triggers.png"
alt="Resumen de disparadores"
width={500}
height={350}
className="my-6"
/>
</div>
## Disparadores principales
Usa el bloque Start para todo lo que se origina desde el editor, deploy-to-API o experiencias deploy-to-chat. Otros disparadores siguen disponibles para flujos de trabajo basados en eventos:
Utiliza el bloque Start para todo lo que se origina desde el editor, despliegue a API o experiencias de despliegue a chat. Otros disparadores siguen disponibles para flujos de trabajo basados en eventos:
<Cards>
<Card title="Start" href="/triggers/start">
@@ -25,9 +36,9 @@ Usa el bloque Start para todo lo que se origina desde el editor, deploy-to-API o
| Disparador | Condición de inicio |
|---------|-----------------|
| **Inicio** | El editor se ejecuta, solicitudes de implementación a API o mensajes de chat |
| **Programación** | Temporizador gestionado en el bloque de programación |
| **Webhook** | En solicitud HTTP entrante |
| **Start** | Ejecuciones del editor, solicitudes de despliegue a API o mensajes de chat |
| **Schedule** | Temporizador gestionado en el bloque de programación |
| **Webhook** | Al recibir una solicitud HTTP entrante |
> El bloque Start siempre expone los campos `input`, `conversationId` y `files`. Añade campos personalizados al formato de entrada para datos estructurados adicionales.
@@ -37,16 +48,16 @@ Usa el bloque Start para todo lo que se origina desde el editor, deploy-to-API o
2. Configura cualquier esquema o autenticación requerida.
3. Conecta el bloque al resto del flujo de trabajo.
> Los despliegues alimentan cada disparador. Actualiza el flujo de trabajo, vuelve a desplegar, y todos los puntos de entrada de disparadores recogen la nueva instantánea. Aprende más en [Ejecución → Instantáneas de despliegue](/execution).
> Los despliegues alimentan cada disparador. Actualiza el flujo de trabajo, vuelve a desplegarlo, y todos los puntos de entrada de los disparadores recogen la nueva instantánea. Aprende más en [Ejecución → Instantáneas de despliegue](/execution).
## Prioridad de ejecución manual
Cuando haces clic en **Ejecutar** en el editor, Sim selecciona automáticamente qué disparador ejecutar según el siguiente orden de prioridad:
1. **Bloque de inicio** (prioridad más alta)
2. **Disparadores programados**
1. **Bloque Start** (prioridad más alta)
2. **Disparadores de programación**
3. **Disparadores externos** (webhooks, integraciones como Slack, Gmail, Airtable, etc.)
Si tu flujo de trabajo tiene múltiples disparadores, se ejecutará el disparador de mayor prioridad. Por ejemplo, si tienes tanto un bloque de inicio como un disparador de webhook, al hacer clic en Ejecutar se ejecutará el bloque de inicio.
Si tu flujo de trabajo tiene múltiples disparadores, se ejecutará el disparador de mayor prioridad. Por ejemplo, si tienes tanto un bloque Start como un disparador Webhook, al hacer clic en Ejecutar se ejecutará el bloque Start.
**Disparadores externos con cargas útiles simuladas**: Cuando los disparadores externos (webhooks e integraciones) se ejecutan manualmente, Sim genera automáticamente cargas útiles simuladas basadas en la estructura de datos esperada del disparador. Esto asegura que los bloques posteriores puedan resolver las variables correctamente durante las pruebas.

View File

@@ -5,6 +5,7 @@ title: Intervention humaine
import { Callout } from 'fumadocs-ui/components/callout'
import { Tab, Tabs } from 'fumadocs-ui/components/tabs'
import { Image } from '@/components/ui/image'
import { Video } from '@/components/ui/video'
Le bloc Intervention humaine met en pause l'exécution du workflow et attend l'intervention humaine avant de continuer. Utilisez-le pour ajouter des points d'approbation, recueillir des commentaires ou obtenir des informations supplémentaires à des points de décision critiques.
@@ -76,7 +77,7 @@ Définit les champs que les approbateurs remplissent lors de leur réponse. Ces
}
```
Accédez aux données de reprise dans les blocs en aval en utilisant `<blockId.resumeInput.fieldName>`.
Accédez aux données de reprise dans les blocs en aval en utilisant `<blockId.resumeInput.fieldName>`.
## Méthodes d'approbation
@@ -174,8 +175,14 @@ Accédez-y en utilisant `<blockId.resumeInput.fieldName>`.
<approval1.resumeInput.approved> === true
```
L'exemple ci-dessous montre un portail d'approbation tel que vu par un approbateur après la mise en pause du workflow. Les approbateurs peuvent examiner les données et fournir des entrées dans le cadre de la reprise du workflow. Le portail d'approbation peut être accédé directement via l'URL unique, `<blockId.url>`.
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="hitl-resume.mp4" width={700} height={450} />
</div>
## Blocs associés
- **[Condition](/blocks/condition)** - Créez des branches basées sur les décisions d'approbation
- **[Variables](/blocks/variables)** - Stockez l'historique d'approbation et les métadonnées
- **[Réponse](/blocks/response)** - Renvoyez les résultats du workflow aux appelants API
- **[Condition](/blocks/condition)** - Branchement basé sur les décisions d'approbation
- **[Variables](/blocks/variables)** - Stockage de l'historique d'approbation et des métadonnées
- **[Response](/blocks/response)** - Retour des résultats du workflow aux appelants API

View File

@@ -4,6 +4,7 @@ title: Principes de base
import { Callout } from 'fumadocs-ui/components/callout'
import { Step, Steps } from 'fumadocs-ui/components/steps'
import { Video } from '@/components/ui/video'
## Comment fonctionnent les connexions
@@ -28,16 +29,20 @@ Les connexions sont les voies qui permettent aux données de circuler entre les
</Step>
</Steps>
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="connections-build.mp4" width={700} height={450} />
</div>
### Flux de connexion
Le flux de données à travers les connexions suit ces principes :
1. **Flux directionnel** : Les données circulent toujours des sorties vers les entrées
2. **Ordre d'exécution** : Les blocs s'exécutent dans l'ordre en fonction de leurs connexions
3. **Transformation des données** : Les données peuvent être transformées lors de leur passage entre les blocs
4. **Chemins conditionnels** : Certains blocs (comme Routeur et Condition) peuvent diriger le flux vers différents chemins
1. **Flux directionnel** : les données circulent toujours des sorties vers les entrées
2. **Ordre d'exécution** : les blocs s'exécutent dans l'ordre en fonction de leurs connexions
3. **Transformation des données** : les données peuvent être transformées lors de leur passage entre les blocs
4. **Chemins conditionnels** : certains blocs (comme Routeur et Condition) peuvent diriger le flux vers différents chemins
<Callout type="warning">
La suppression d'une connexion arrêtera immédiatement le flux de données entre les blocs. Assurez-vous que c'est
bien ce que vous souhaitez avant de supprimer des connexions.
bien votre intention avant de supprimer des connexions.
</Callout>

View File

@@ -71,6 +71,16 @@ Ces informations contextuelles aident Copilot à fournir une assistance plus pr
</Card>
</Cards>
<div className="flex justify-center">
<Image
src="/static/copilot/copilot-mode.png"
alt="Interface de sélection du mode Copilot"
width={600}
height={400}
className="my-6"
/>
</div>
## Niveaux de profondeur
<Cards>
@@ -92,7 +102,7 @@ Ces informations contextuelles aident Copilot à fournir une assistance plus pr
</span>
}
>
<div className="m-0 text-sm">Équilibre entre vitesse et raisonnement. Recommandé par défaut pour la plupart des tâches.</div>
<div className="m-0 text-sm">Équilibre entre vitesse et raisonnement. Option par défaut recommandée pour la plupart des tâches.</div>
</Card>
<Card
title={
@@ -102,13 +112,13 @@ Ces informations contextuelles aident Copilot à fournir une assistance plus pr
</span>
}
>
<div className="m-0 text-sm">Plus de raisonnement pour les flux de travail plus importants et les modifications complexes tout en restant performant.</div>
<div className="m-0 text-sm">Raisonnement plus poussé pour les flux de travail plus importants et les modifications complexes tout en restant performant.</div>
</Card>
<Card
title={
<span className="inline-flex items-center gap-2">
<BrainCircuit className="h-4 w-4 text-muted-foreground" />
Mastodonte
Behemoth
</span>
}
>
@@ -122,23 +132,23 @@ Vous pouvez facilement basculer entre différents modes de raisonnement à l'aid
<Image
src="/static/copilot/copilot-models.png"
alt="Sélection du mode Copilot montrant le mode Avancé avec l'option MAX activée"
alt="Sélection du mode Copilot montrant le mode Avancé avec l'option MAX"
width={600}
height={300}
/>
L'interface vous permet de :
- **Sélectionner le niveau de raisonnement** : choisissez entre Rapide, Auto, Avancé ou Mastodonte
- **Sélectionner le niveau de raisonnement** : choisissez entre Rapide, Auto, Avancé ou Behemoth
- **Activer le mode MAX** : basculez pour des capacités de raisonnement maximales lorsque vous avez besoin de l'analyse la plus approfondie
- **Voir les descriptions des modes** : comprendre pour quoi chaque mode est optimisé
Choisissez votre mode en fonction de la complexité de votre tâche - utilisez Rapide pour des questions simples et Mastodonte pour des changements architecturaux complexes.
Choisissez votre mode en fonction de la complexité de votre tâche - utilisez Rapide pour des questions simples et Behemoth pour des changements architecturaux complexes.
## Facturation et calcul des coûts
### Comment les coûts sont calculés
L'utilisation de Copilot est facturée par token depuis le LLM sous-jacent :
L'utilisation de Copilot est facturée par token à partir du LLM sous-jacent :
- **Tokens d'entrée** : facturés au tarif de base du fournisseur (**au prix coûtant**)
- **Tokens de sortie** : facturés à **1,5×** le tarif de base de sortie du fournisseur
@@ -153,9 +163,9 @@ copilotCost = (inputTokens × inputPrice + outputTokens × (outputPrice × 1.5))
| Sortie | outputPrice × 1,5 |
<Callout type="warning">
Les tarifs affichés reflètent les taux en vigueur au 4 septembre 2025. Consultez la documentation du fournisseur pour connaître les tarifs actuels.
Les prix indiqués reflètent les tarifs en date du 4 septembre 2025. Consultez la documentation du fournisseur pour les tarifs actuels.
</Callout>
<Callout type="info">
Les prix des modèles sont indiqués par million de tokens. Le calcul divise par 1 000 000 pour obtenir le coût réel. Consultez <a href="/execution/costs">la page de calcul des coûts</a> pour plus d'informations et des exemples.
Les prix des modèles sont par million de tokens. Le calcul divise par 1 000 000 pour obtenir le coût réel. Consultez <a href="/execution/costs">la page de calcul des coûts</a> pour plus d'informations et des exemples.
</Callout>

View File

@@ -5,6 +5,7 @@ title: Introduction
import { Card, Cards } from 'fumadocs-ui/components/card'
import { Callout } from 'fumadocs-ui/components/callout'
import { Image } from '@/components/ui/image'
import { Video } from '@/components/ui/video'
Sim est un constructeur de flux de travail visuel open-source pour créer et déployer des flux de travail d'agents IA. Concevez des systèmes d'automatisation intelligents à l'aide d'une interface sans code—connectez des modèles d'IA, des bases de données, des API et des outils professionnels via un canevas intuitif par glisser-déposer. Que vous construisiez des chatbots, automatisiez des processus métier ou orchestriez des pipelines de données complexes, Sim fournit les outils nécessaires pour donner vie à vos flux de travail IA.
@@ -32,20 +33,28 @@ Transformez les données brutes en informations exploitables. Extrayez des infor
**Flux de travail d'intégration API**
Orchestrez des interactions complexes entre plusieurs services. Créez des points de terminaison API unifiés, implémentez une logique métier sophistiquée et construisez des systèmes d'automatisation pilotés par événements.
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="introduction/chat-workflow.mp4" width={700} height={450} />
</div>
## Comment ça fonctionne
**Éditeur de flux de travail visuel**
Concevez des flux de travail à l'aide d'un canevas intuitif par glisser-déposer. Connectez des modèles d'IA, des bases de données, des API et des services tiers via une interface visuelle sans code qui rend la logique d'automatisation complexe facile à comprendre et à maintenir.
**Éditeur visuel de flux de travail**
Concevez des flux de travail à l'aide d'un canevas intuitif de glisser-déposer. Connectez des modèles d'IA, des bases de données, des API et des services tiers via une interface visuelle sans code qui rend la logique d'automatisation complexe facile à comprendre et à maintenir.
**Système de blocs modulaires**
Construisez avec des composants spécialisés : blocs de traitement (agents IA, appels API, fonctions personnalisées), blocs logiques (branchements conditionnels, boucles, routeurs) et blocs de sortie (réponses, évaluateurs). Chaque bloc gère une tâche spécifique dans votre flux de travail.
**Déclencheurs d'exécution flexibles**
Lancez des flux de travail via plusieurs canaux, notamment des interfaces de chat, des API REST, des webhooks, des tâches cron planifiées ou des événements externes provenant de plateformes comme Slack et GitHub.
Lancez des flux de travail via plusieurs canaux, notamment des interfaces de chat, des API REST, des webhooks, des tâches cron programmées ou des événements externes provenant de plateformes comme Slack et GitHub.
**Collaboration en temps réel**
Permettez à votre équipe de construire ensemble. Plusieurs utilisateurs peuvent modifier les flux de travail simultanément avec des mises à jour en direct et des contrôles d'autorisation granulaires.
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="introduction/build-workflow.mp4" width={700} height={450} />
</div>
## Intégrations
Sim fournit des intégrations natives avec plus de 80 services dans plusieurs catégories :
@@ -57,25 +66,46 @@ Sim fournit des intégrations natives avec plus de 80 services dans plusieurs ca
- **Recherche et données** : Google Search, Perplexity, Firecrawl, Exa AI
- **Bases de données** : PostgreSQL, MySQL, Supabase, Pinecone, Qdrant
Pour des intégrations personnalisées, utilisez notre [support MCP (Model Context Protocol)](/mcp) pour connecter n'importe quel service ou outil externe.
Pour les intégrations personnalisées, utilisez notre [support MCP (Model Context Protocol)](/mcp) pour connecter n'importe quel service ou outil externe.
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="introduction/integrations-sidebar.mp4" width={700} height={450} />
</div>
## Copilote propulsé par l'IA
**Posez des questions et obtenez des conseils**
Le copilote répond aux questions sur Sim, explique vos flux de travail et propose des suggestions d'amélioration. Utilisez le symbole `@` pour référencer les flux de travail, les blocs, la documentation, les connaissances et les journaux pour une assistance contextuelle.
**Créez et modifiez des flux de travail**
Passez en mode Agent pour permettre au copilote de proposer et d'appliquer des modifications directement sur votre canevas. Ajoutez des blocs, configurez des paramètres, connectez des variables et restructurez les flux de travail avec des commandes en langage naturel.
**Niveaux de raisonnement adaptatifs**
Choisissez parmi les modes Rapide, Auto, Avancé ou Mastodonte selon la complexité de la tâche. Commencez par Rapide pour des questions simples, passez à Mastodonte pour des changements architecturaux complexes et un débogage approfondi.
En savoir plus sur les [capacités du copilote](/copilot) et comment maximiser la productivité avec l'assistance IA.
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="introduction/copilot-workflow.mp4" width={700} height={450} />
</div>
## Options de déploiement
**Hébergé dans le cloud**
Lancez immédiatement sur [sim.ai](https://sim.ai) avec une infrastructure entièrement gérée, une mise à l'échelle automatique et une observabilité intégrée. Concentrez-vous sur la création de workflows pendant que nous gérons les opérations.
Lancez immédiatement sur [sim.ai](https://sim.ai) avec une infrastructure entièrement gérée, une mise à l'échelle automatique et une observabilité intégrée. Concentrez-vous sur la création de flux de travail pendant que nous gérons les opérations.
**Auto-hébergé**
Déployez sur votre propre infrastructure en utilisant Docker Compose ou Kubernetes. Gardez un contrôle total sur vos données avec la prise en charge des modèles d'IA locaux grâce à l'intégration d'Ollama.
## Prochaines étapes
Prêt à construire votre premier flux de travail IA ?
Prêt à créer votre premier flux de travail IA ?
<Cards>
<Card title="Premiers pas" href="/getting-started">
Créez votre premier workflow en 10 minutes
Créez votre premier flux de travail en 10 minutes
</Card>
<Card title="Blocs de workflow" href="/blocks">
<Card title="Blocs de flux de travail" href="/blocks">
Découvrez les éléments constitutifs
</Card>
<Card title="Outils et intégrations" href="/tools">

View File

@@ -39,14 +39,24 @@ Récupérer et filtrer les tickets depuis Linear
| Paramètre | Type | Obligatoire | Description |
| --------- | ---- | ----------- | ----------- |
| `teamId` | chaîne | Oui | ID de l'équipe Linear |
| `projectId` | chaîne | Oui | ID du projet Linear |
| `teamId` | chaîne | Non | ID de l'équipe Linear pour filtrer |
| `projectId` | chaîne | Non | ID du projet Linear pour filtrer |
| `assigneeId` | chaîne | Non | ID de l'utilisateur pour filtrer par assigné |
| `stateId` | chaîne | Non | ID de l'état du flux de travail pour filtrer par statut |
| `priority` | nombre | Non | Priorité pour filtrer \(0=Pas de priorité, 1=Urgent, 2=Élevée, 3=Normale, 4=Faible\) |
| `labelIds` | tableau | Non | Tableau des IDs d'étiquettes pour filtrer |
| `createdAfter` | chaîne | Non | Filtrer les tickets créés après cette date \(format ISO 8601\) |
| `updatedAfter` | chaîne | Non | Filtrer les tickets mis à jour après cette date \(format ISO 8601\) |
| `includeArchived` | booléen | Non | Inclure les tickets archivés \(par défaut : false\) |
| `first` | nombre | Non | Nombre de tickets à retourner \(par défaut : 50, max : 250\) |
| `after` | chaîne | Non | Curseur de pagination pour la page suivante |
| `orderBy` | chaîne | Non | Ordre de tri : "createdAt" ou "updatedAt" \(par défaut : "updatedAt"\) |
#### Sortie
| Paramètre | Type | Description |
| --------- | ---- | ----------- |
| `issues` | tableau | Tableau des tickets du projet et de l'équipe Linear spécifiés, chacun contenant id, titre, description, état, teamId et projectId |
| `issues` | tableau | Tableau des tickets filtrés de Linear |
### `linear_get_issue`
@@ -73,15 +83,25 @@ Créer un nouveau ticket dans Linear
| Paramètre | Type | Obligatoire | Description |
| --------- | ---- | ----------- | ----------- |
| `teamId` | chaîne | Oui | ID de l'équipe Linear |
| `projectId` | chaîne | Oui | ID du projet Linear |
| `projectId` | chaîne | Non | ID du projet Linear |
| `title` | chaîne | Oui | Titre du ticket |
| `description` | chaîne | Non | Description du ticket |
| `stateId` | chaîne | Non | ID de l'état du flux de travail \(statut\) |
| `assigneeId` | chaîne | Non | ID de l'utilisateur à qui assigner le ticket |
| `priority` | nombre | Non | Priorité \(0=Pas de priorité, 1=Urgent, 2=Élevée, 3=Normale, 4=Faible\) |
| `estimate` | nombre | Non | Estimation en points |
| `labelIds` | tableau | Non | Tableau des IDs d'étiquettes à définir sur le ticket |
| `cycleId` | chaîne | Non | ID du cycle auquel assigner le ticket |
| `parentId` | chaîne | Non | ID du ticket parent \(pour créer des sous-tickets\) |
| `dueDate` | chaîne | Non | Date d'échéance au format ISO 8601 \(date uniquement : AAAA-MM-JJ\) |
| `subscriberIds` | tableau | Non | Tableau des IDs d'utilisateurs à abonner au ticket |
| `projectMilestoneId` | chaîne | Non | ID de l'étape clé du projet à associer au ticket |
#### Sortie
| Paramètre | Type | Description |
| --------- | ---- | ----------- |
| `issue` | objet | Le ticket créé contenant id, titre, description, état, teamId et projectId |
| `issue` | objet | Le ticket créé avec toutes ses propriétés |
### `linear_update_issue`
@@ -94,11 +114,17 @@ Mettre à jour un ticket existant dans Linear
| `issueId` | chaîne | Oui | ID du ticket Linear à mettre à jour |
| `title` | chaîne | Non | Nouveau titre du ticket |
| `description` | chaîne | Non | Nouvelle description du ticket |
| `stateId` | chaîne | Non | ID de l'état du flux de travail \(statut\) |
| `stateId` | chaîne | Non | ID de l'état du workflow \(statut\) |
| `assigneeId` | chaîne | Non | ID de l'utilisateur à qui assigner le ticket |
| `priority` | nombre | Non | Priorité \(0=Pas de priorité, 1=Urgent, 2=Élevée, 3=Normale, 4=Faible\) |
| `priority` | nombre | Non | Priorité \(0=Aucune priorité, 1=Urgent, 2=Élevée, 3=Normale, 4=Faible\) |
| `estimate` | nombre | Non | Estimation en points |
| `labelIds` | tableau | Non | Tableau des IDs d'étiquettes à définir sur le ticket |
| `labelIds` | tableau | Non | Tableau des ID d'étiquettes à définir sur le ticket \(remplace toutes les étiquettes existantes\) |
| `projectId` | chaîne | Non | ID du projet vers lequel déplacer le ticket |
| `cycleId` | chaîne | Non | ID du cycle auquel assigner le ticket |
| `parentId` | chaîne | Non | ID du ticket parent \(pour en faire un sous-ticket\) |
| `dueDate` | chaîne | Non | Date d'échéance au format ISO 8601 \(date uniquement : AAAA-MM-JJ\) |
| `addedLabelIds` | tableau | Non | Tableau des ID d'étiquettes à ajouter au ticket \(sans remplacer les étiquettes existantes\) |
| `removedLabelIds` | tableau | Non | Tableau des ID d'étiquettes à supprimer du ticket |
#### Sortie
@@ -237,7 +263,7 @@ Modifier un commentaire dans Linear
| Paramètre | Type | Obligatoire | Description |
| --------- | ---- | ----------- | ----------- |
| `commentId` | chaîne | Oui | ID du commentaire à mettre à jour |
| `body` | chaîne | Oui | Nouveau texte du commentaire \(supporte le Markdown\) |
| `body` | chaîne | Non | Nouveau texte du commentaire \(supporte le Markdown\) |
#### Sortie
@@ -349,9 +375,9 @@ Mettre à jour un projet existant dans Linear
| `description` | chaîne | Non | Nouvelle description du projet |
| `state` | chaîne | Non | État du projet \(planned, started, completed, canceled\) |
| `leadId` | chaîne | Non | ID de l'utilisateur responsable du projet |
| `startDate` | chaîne | Non | Date de début du projet \(format ISO\) |
| `targetDate` | chaîne | Non | Date cible du projet \(format ISO\) |
| `priority` | nombre | Non | Priorité du projet \(0-4\) |
| `startDate` | chaîne | Non | Date de début du projet \(format ISO : YYYY-MM-DD\) |
| `targetDate` | chaîne | Non | Date cible du projet \(format ISO : YYYY-MM-DD\) |
| `priority` | nombre | Non | Priorité du projet \(0=Pas de priorité, 1=Urgent, 2=Élevée, 3=Normale, 4=Faible\) |
#### Sortie
@@ -526,11 +552,11 @@ Créer un nouvel état de workflow (statut) dans Linear
| Paramètre | Type | Obligatoire | Description |
| --------- | ---- | ----------- | ----------- |
| `teamId` | chaîne | Oui | ID de l'équipe dans laquelle créer l'état |
| `name` | chaîne | Oui | Nom de l'état \(ex., "En révision"\) |
| `color` | chaîne | Oui | Couleur de l'état \(format hexadécimal\) |
| `name` | chaîne | Oui | Nom de l'état \(ex. : "En révision"\) |
| `color` | chaîne | Non | Couleur de l'état \(format hexadécimal\) |
| `type` | chaîne | Oui | Type d'état : "backlog", "unstarted", "started", "completed", ou "canceled" |
| `description` | chaîne | Non | Description de l'état |
| `position` | nombre | Non | Position dans le workflow |
| `position` | nombre | Non | Position dans le flux de travail |
#### Sortie
@@ -635,9 +661,9 @@ Ajouter une pièce jointe à un ticket dans Linear
| Paramètre | Type | Obligatoire | Description |
| --------- | ---- | ----------- | ----------- |
| `issueId` | chaîne | Oui | ID du ticket auquel joindre la pièce |
| `issueId` | chaîne | Oui | ID du ticket auquel joindre |
| `url` | chaîne | Oui | URL de la pièce jointe |
| `title` | chaîne | Non | Titre de la pièce jointe |
| `title` | chaîne | Oui | Titre de la pièce jointe |
| `subtitle` | chaîne | Non | Sous-titre/description de la pièce jointe |
#### Sortie
@@ -673,7 +699,7 @@ Mettre à jour les métadonnées d'une pièce jointe dans Linear
| Paramètre | Type | Obligatoire | Description |
| --------- | ---- | ----------- | ----------- |
| `attachmentId` | chaîne | Oui | ID de la pièce jointe à mettre à jour |
| `title` | chaîne | Non | Nouveau titre de la pièce jointe |
| `title` | chaîne | Oui | Nouveau titre de la pièce jointe |
| `subtitle` | chaîne | Non | Nouveau sous-titre de la pièce jointe |
#### Sortie
@@ -708,7 +734,7 @@ Lier deux tickets ensemble dans Linear (bloque, est lié à, duplique)
| --------- | ---- | ----------- | ----------- |
| `issueId` | chaîne | Oui | ID du ticket source |
| `relatedIssueId` | chaîne | Oui | ID du ticket cible à lier |
| `type` | chaîne | Oui | Type de relation : "blocks", "blocked", "duplicate", "related" |
| `type` | chaîne | Oui | Type de relation : "blocks", "duplicate", ou "related". Remarque : Lors de la création d'une relation "blocks" de A vers B, la relation inverse \(B bloqué par A\) est automatiquement créée. |
#### Sortie
@@ -1217,6 +1243,7 @@ Créer une nouvelle étiquette de projet dans Linear
| Paramètre | Type | Obligatoire | Description |
| --------- | ---- | ----------- | ----------- |
| `projectId` | chaîne | Oui | Le projet pour cette étiquette |
| `name` | chaîne | Oui | Nom de l'étiquette de projet |
| `color` | chaîne | Non | Couleur de l'étiquette \(code hexadécimal\) |
| `description` | chaîne | Non | Description de l'étiquette |
@@ -1394,7 +1421,8 @@ Créer un nouveau statut de projet dans Linear
| Paramètre | Type | Obligatoire | Description |
| --------- | ---- | ----------- | ----------- |
| `name` | chaîne | Oui | Nom du statut du projet |
| `projectId` | chaîne | Oui | Le projet pour lequel créer le statut |
| `name` | chaîne | Oui | Nom du statut de projet |
| `color` | chaîne | Oui | Couleur du statut \(code hexadécimal\) |
| `description` | chaîne | Non | Description du statut |
| `indefinite` | booléen | Non | Indique si le statut est indéfini |

View File

@@ -11,15 +11,32 @@ import { BlockInfoCard } from "@/components/ui/block-info-card"
/>
{/* MANUAL-CONTENT-START:intro */}
Transcrivez la parole en texte en utilisant des modèles d'IA de pointe des principaux fournisseurs. Les outils Sim de reconnaissance vocale (STT) vous permettent de convertir des fichiers audio et vidéo en transcriptions précises, prenant en charge plusieurs langues, horodatages et traduction optionnelle.
Transcrivez la parole en texte en utilisant les derniers modèles d'IA des fournisseurs de classe mondiale. Les outils de reconnaissance vocale (STT) de Sim vous permettent de transformer l'audio et la vidéo en transcriptions précises, horodatées et optionnellement traduites, prenant en charge une diversité de langues et enrichies de fonctionnalités avancées telles que la diarisation et l'identification des locuteurs.
Fournisseurs pris en charge :
**Fournisseurs et modèles pris en charge :**
- **[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)** : Modèle STT open-source avancé d'OpenAI. Prend en charge des modèles tels que `whisper-1` et gère une grande variété de langues et de formats audio.
- **[Deepgram](https://deepgram.com/)** : API STT en temps réel et par lots avec des modèles d'apprentissage profond comme `nova-3`, `nova-2` et `whisper-large`. Offre des fonctionnalités comme la diarisation, la reconnaissance d'intention et le réglage spécifique à l'industrie.
- **[ElevenLabs](https://elevenlabs.io/)** : Connu pour l'IA vocale de haute qualité, ElevenLabs fournit des modèles STT axés sur la précision et la compréhension du langage naturel pour de nombreuses langues et dialectes.
- **[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)** (OpenAI) :
Whisper d'OpenAI est un modèle d'apprentissage profond open-source reconnu pour sa robustesse à travers les langues et les conditions audio. Il prend en charge des modèles avancés tels que `whisper-1`, excellant dans la transcription, la traduction et les tâches exigeant une généralisation élevée du modèle. Soutenu par OpenAI—l'entreprise connue pour ChatGPT et la recherche de pointe en IA—Whisper est largement utilisé dans la recherche et comme référence pour l'évaluation comparative.
Choisissez le fournisseur et le modèle les mieux adaptés à votre tâche — que ce soit pour une transcription rapide de qualité production (Deepgram), une capacité multilingue hautement précise (Whisper), ou une compréhension avancée et une couverture linguistique étendue (ElevenLabs).
- **[Deepgram](https://deepgram.com/)** (Deepgram Inc.) :
Basée à San Francisco, Deepgram propose des API de reconnaissance vocale évolutives et de qualité production pour les développeurs et les entreprises. Les modèles de Deepgram incluent `nova-3`, `nova-2`, et `whisper-large`, offrant une transcription en temps réel et par lots avec une précision de premier plan, un support multilingue, une ponctuation automatique, une diarisation intelligente, des analyses d'appels et des fonctionnalités pour des cas d'utilisation allant de la téléphonie à la production médiatique.
- **[ElevenLabs](https://elevenlabs.io/)** (ElevenLabs) :
Leader dans l'IA vocale, ElevenLabs est particulièrement connu pour la synthèse et la reconnaissance vocale de qualité supérieure. Son produit STT offre une compréhension naturelle et de haute précision de nombreuses langues, dialectes et accents. Les modèles STT récents d'ElevenLabs sont optimisés pour la clarté, la distinction des locuteurs, et conviennent aussi bien aux scénarios créatifs qu'à l'accessibilité. ElevenLabs est reconnu pour ses avancées de pointe dans les technologies vocales alimentées par l'IA.
- **[AssemblyAI](https://www.assemblyai.com/)** (AssemblyAI Inc.) :
AssemblyAI fournit une reconnaissance vocale pilotée par API, hautement précise, avec des fonctionnalités telles que le chapitrage automatique, la détection de sujets, la synthèse, l'analyse de sentiment et la modération de contenu en plus de la transcription. Son modèle propriétaire, incluant le célèbre `Conformer-2`, alimente certaines des plus grandes applications de médias, de centres d'appels et de conformité dans l'industrie. AssemblyAI est utilisé par des entreprises du Fortune 500 et des startups d'IA de premier plan dans le monde entier.
- **[Google Cloud Speech-to-Text](https://cloud.google.com/speech-to-text)** (Google Cloud) :
L'API Speech-to-Text de niveau entreprise de Google prend en charge plus de 125 langues et variantes, offrant une haute précision et des fonctionnalités telles que la diffusion en temps réel, la confiance au niveau des mots, la diarisation des locuteurs, la ponctuation automatique, le vocabulaire personnalisé et l'optimisation pour des domaines spécifiques. Des modèles tels que `latest_long`, `video`, et des modèles optimisés par domaine sont disponibles, alimentés par des années de recherche de Google et déployés pour une évolutivité mondiale.
- **[AWS Transcribe](https://aws.amazon.com/transcribe/)** (Amazon Web Services) :
AWS Transcribe s'appuie sur l'infrastructure cloud d'Amazon pour fournir une reconnaissance vocale robuste sous forme d'API. Il prend en charge plusieurs langues et des fonctionnalités telles que l'identification des locuteurs, le vocabulaire personnalisé, l'identification des canaux (pour l'audio des centres d'appels) et la transcription spécifique au domaine médical. Les modèles populaires incluent `standard` et des variations spécifiques à certains domaines. AWS Transcribe est idéal pour les organisations utilisant déjà le cloud d'Amazon.
**Comment choisir :**
Sélectionnez le fournisseur et le modèle qui correspondent à votre application — que vous ayez besoin d'une transcription rapide et prête pour l'entreprise avec des analyses supplémentaires (Deepgram, AssemblyAI, Google, AWS), d'une grande polyvalence et d'un accès open-source (OpenAI Whisper), ou d'une compréhension avancée des locuteurs et du contexte (ElevenLabs). Tenez compte des tarifs, de la couverture linguistique, de la précision et de toutes les fonctionnalités spéciales (comme la synthèse, le chapitrage ou l'analyse des sentiments) dont vous pourriez avoir besoin.
Pour plus de détails sur les capacités, les tarifs, les principales fonctionnalités et les options de réglage fin, consultez la documentation officielle de chaque fournisseur via les liens ci-dessus.
{/* MANUAL-CONTENT-END */}
## Instructions d'utilisation
@@ -35,16 +52,18 @@ Transcrire l'audio en texte avec OpenAI Whisper
#### Entrée
| Paramètre | Type | Obligatoire | Description |
| --------- | ---- | -------- | ----------- |
| `provider` | string | Oui | Fournisseur STT \(whisper\) |
| `apiKey` | string | Oui | Clé API OpenAI |
| `model` | string | Non | Modèle Whisper à utiliser \(par défaut : whisper-1\) |
| `audioFile` | file | Non | Fichier audio ou vidéo à transcrire |
| `audioFileReference` | file | Non | Référence au fichier audio/vidéo des blocs précédents |
| `audioUrl` | string | Non | URL vers un fichier audio ou vidéo |
| `language` | string | Non | Code de langue \(ex. "en", "es", "fr"\) ou "auto" pour la détection automatique |
| `timestamps` | string | Non | Granularité des horodatages : none, sentence, ou word |
| `translateToEnglish` | boolean | Non | Traduire l'audio en anglais |
| --------- | ---- | ---------- | ----------- |
| `provider` | chaîne | Oui | Fournisseur STT \(whisper\) |
| `apiKey` | chaîne | Oui | Clé API OpenAI |
| `model` | chaîne | Non | Modèle Whisper à utiliser \(par défaut : whisper-1\) |
| `audioFile` | fichier | Non | Fichier audio ou vidéo à transcrire |
| `audioFileReference` | fichier | Non | Référence au fichier audio/vidéo des blocs précédents |
| `audioUrl` | chaîne | Non | URL vers un fichier audio ou vidéo |
| `language` | chaîne | Non | Code de langue \(ex. "en", "es", "fr"\) ou "auto" pour la détection automatique |
| `timestamps` | chaîne | Non | Granularité des horodatages : none, sentence, ou word |
| `translateToEnglish` | booléen | Non | Traduire l'audio en anglais |
| `prompt` | chaîne | Non | Texte facultatif pour guider le style du modèle ou continuer un segment audio précédent. Aide avec les noms propres et le contexte. |
| `temperature` | nombre | Non | Température d'échantillonnage entre 0 et 1. Des valeurs plus élevées rendent la sortie plus aléatoire, des valeurs plus basses la rendent plus ciblée et déterministe. |
#### Sortie
@@ -54,11 +73,10 @@ Transcrire l'audio en texte avec OpenAI Whisper
| `segments` | array | Segments horodatés |
| `language` | string | Langue détectée ou spécifiée |
| `duration` | number | Durée audio en secondes |
| `confidence` | number | Score de confiance global |
### `stt_deepgram`
Transcrire l'audio en texte en utilisant Deepgram
Transcrire l'audio en texte avec Deepgram
#### Entrée
@@ -79,14 +97,14 @@ Transcrire l'audio en texte en utilisant Deepgram
| Paramètre | Type | Description |
| --------- | ---- | ----------- |
| `transcript` | string | Texte transcrit complet |
| `segments` | array | Segments horodatés avec étiquettes de locuteurs |
| `segments` | array | Segments horodatés avec identification des locuteurs |
| `language` | string | Langue détectée ou spécifiée |
| `duration` | number | Durée audio en secondes |
| `confidence` | number | Score de confiance global |
### `stt_elevenlabs`
Transcrire l'audio en texte avec ElevenLabs
Transcrire l'audio en texte en utilisant ElevenLabs
#### Entrée
@@ -111,6 +129,68 @@ Transcrire l'audio en texte avec ElevenLabs
| `duration` | nombre | Durée audio en secondes |
| `confidence` | nombre | Score de confiance global |
### `stt_assemblyai`
Transcrire l'audio en texte en utilisant AssemblyAI avec des fonctionnalités avancées de NLP
#### Entrée
| Paramètre | Type | Obligatoire | Description |
| --------- | ---- | ---------- | ----------- |
| `provider` | chaîne | Oui | Fournisseur STT \(assemblyai\) |
| `apiKey` | chaîne | Oui | Clé API AssemblyAI |
| `model` | chaîne | Non | Modèle AssemblyAI à utiliser \(par défaut : best\) |
| `audioFile` | fichier | Non | Fichier audio ou vidéo à transcrire |
| `audioFileReference` | fichier | Non | Référence au fichier audio/vidéo des blocs précédents |
| `audioUrl` | chaîne | Non | URL vers un fichier audio ou vidéo |
| `language` | chaîne | Non | Code de langue \(ex. "en", "es", "fr"\) ou "auto" pour la détection automatique |
| `timestamps` | chaîne | Non | Granularité des horodatages : none, sentence, ou word |
| `diarization` | booléen | Non | Activer la diarisation des locuteurs |
| `sentiment` | booléen | Non | Activer l'analyse des sentiments |
| `entityDetection` | booléen | Non | Activer la détection d'entités |
| `piiRedaction` | booléen | Non | Activer la rédaction des PII |
| `summarization` | booléen | Non | Activer la génération automatique de résumés |
#### Sortie
| Paramètre | Type | Description |
| --------- | ---- | ----------- |
| `transcript` | chaîne | Texte transcrit complet |
| `segments` | tableau | Segments horodatés avec étiquettes de locuteurs |
| `language` | chaîne | Langue détectée ou spécifiée |
| `duration` | nombre | Durée audio en secondes |
| `confidence` | nombre | Score de confiance global |
| `sentiment` | tableau | Résultats d'analyse de sentiment |
| `entities` | tableau | Entités détectées |
| `summary` | chaîne | Résumé généré automatiquement |
### `stt_gemini`
Transcrire l'audio en texte en utilisant Google Gemini avec des capacités multimodales
#### Entrée
| Paramètre | Type | Obligatoire | Description |
| --------- | ---- | ---------- | ----------- |
| `provider` | chaîne | Oui | Fournisseur STT \(gemini\) |
| `apiKey` | chaîne | Oui | Clé API Google |
| `model` | chaîne | Non | Modèle Gemini à utiliser \(par défaut : gemini-2.5-flash\) |
| `audioFile` | fichier | Non | Fichier audio ou vidéo à transcrire |
| `audioFileReference` | fichier | Non | Référence au fichier audio/vidéo des blocs précédents |
| `audioUrl` | chaîne | Non | URL vers un fichier audio ou vidéo |
| `language` | chaîne | Non | Code de langue \(ex. "en", "es", "fr"\) ou "auto" pour la détection automatique |
| `timestamps` | chaîne | Non | Granularité des horodatages : none, sentence, ou word |
#### Sortie
| Paramètre | Type | Description |
| --------- | ---- | ----------- |
| `transcript` | chaîne | Texte transcrit complet |
| `segments` | tableau | Segments horodatés |
| `language` | chaîne | Langue détectée ou spécifiée |
| `duration` | nombre | Durée audio en secondes |
| `confidence` | nombre | Score de confiance global |
## Remarques
- Catégorie : `tools`

View File

@@ -0,0 +1,256 @@
---
title: Synthèse vocale
description: Convertir du texte en parole en utilisant des voix IA
---
import { BlockInfoCard } from "@/components/ui/block-info-card"
<BlockInfoCard
type="tts"
color="#181C1E"
/>
{/* MANUAL-CONTENT-START:intro */}
Convertissez du texte en parole naturelle en utilisant les dernières voix d'IA. Les outils de synthèse vocale (TTS) de Sim vous permettent de générer de l'audio à partir de texte écrit dans des dizaines de langues, avec un choix de voix expressives, de formats et de contrôles avancés comme la vitesse, le style, l'émotion, et plus encore.
**Fournisseurs et modèles pris en charge :**
- **[OpenAI Text-to-Speech](https://platform.openai.com/docs/guides/text-to-speech/voice-options)** (OpenAI) :
L'API TTS d'OpenAI offre des voix ultra-réalistes utilisant des modèles d'IA avancés comme `tts-1`, `tts-1-hd`, et `gpt-4o-mini-tts`. Les voix incluent des options masculines et féminines, comme alloy, echo, fable, onyx, nova, shimmer, ash, ballad, coral, sage et verse. Prend en charge plusieurs formats audio (mp3, opus, aac, flac, wav, pcm), vitesse ajustable et synthèse en streaming.
- **[Deepgram Aura](https://deepgram.com/products/text-to-speech)** (Deepgram Inc.) :
Aura de Deepgram fournit des voix IA expressives en anglais et multilingues, optimisées pour la clarté conversationnelle, la faible latence et la personnalisation. Des modèles comme `aura-asteria-en`, `aura-luna-en`, et d'autres sont disponibles. Prend en charge plusieurs formats d'encodage (linear16, mp3, opus, aac, flac) et permet d'ajuster la vitesse, la fréquence d'échantillonnage et le style.
- **[ElevenLabs Text-to-Speech](https://elevenlabs.io/text-to-speech)** (ElevenLabs) :
ElevenLabs est leader dans la synthèse vocale réaliste et émotionnellement riche, offrant des dizaines de voix dans plus de 29 langues et la possibilité de cloner des voix personnalisées. Les modèles prennent en charge la conception vocale, la synthèse de parole et l'accès direct à l'API, avec des contrôles avancés pour le style, l'émotion, la stabilité et la similarité. Convient aux livres audio, à la création de contenu, à l'accessibilité et plus encore.
- **[Cartesia TTS](https://docs.cartesia.ai/)** (Cartesia) :
Cartesia offre une synthèse vocale de haute qualité, rapide et sécurisée avec un accent sur la confidentialité et le déploiement flexible. Il fournit un streaming instantané, une synthèse en temps réel et prend en charge plusieurs voix et accents internationaux, accessibles via une API simple.
- **[Google Cloud Text-to-Speech](https://cloud.google.com/text-to-speech)** (Google Cloud) :
Google utilise les modèles DeepMind WaveNet et Neural2 pour alimenter des voix haute-fidélité dans plus de 50 langues et variantes. Les fonctionnalités comprennent la sélection de voix, la hauteur, la vitesse d'élocution, le contrôle du volume, les balises SSML et l'accès aux voix standard et premium de qualité studio. Largement utilisé pour l'accessibilité, l'IVR et les médias.
- **[Microsoft Azure Speech](https://azure.microsoft.com/en-us/products/ai-services/text-to-speech)** (Microsoft Azure) :
Azure propose plus de 400 voix neurales dans plus de 140 langues et régions, avec des personnalisations uniques de voix, de style, d'émotion, de rôle et des contrôles en temps réel. Offre la prise en charge SSML pour la prononciation, l'intonation et plus encore. Idéal pour les besoins TTS mondiaux, d'entreprise ou créatifs.
- **[PlayHT](https://play.ht/)** (PlayHT) :
PlayHT se spécialise dans la synthèse vocale réaliste, le clonage de voix et la lecture en streaming instantanée avec plus de 800 voix dans plus de 100 langues. Les fonctionnalités incluent le contrôle des émotions, de la hauteur et de la vitesse, l'audio multi-voix et la création de voix personnalisées via l'API ou le studio en ligne.
**Comment choisir :**
Sélectionnez votre fournisseur et votre modèle en priorisant les langues, les types de voix pris en charge, les formats souhaités (mp3, wav, etc.), la granularité du contrôle (vitesse, émotion, etc.) et les fonctionnalités spécialisées (clonage de voix, accent, streaming). Pour les cas d'utilisation créatifs, d'accessibilité ou de développement, assurez-vous de la compatibilité avec les exigences de votre application et comparez les coûts.
Visitez le site officiel de chaque fournisseur pour obtenir des informations à jour sur les capacités, les tarifs et la documentation !
{/* MANUAL-CONTENT-END */}
## Instructions d'utilisation
Générez des discours naturels à partir de texte en utilisant des voix IA de pointe d'OpenAI, Deepgram, ElevenLabs, Cartesia, Google Cloud, Azure et PlayHT. Prend en charge plusieurs voix, langues et formats audio.
## Outils
### `tts_openai`
Convertir du texte en discours à l'aide des modèles TTS d'OpenAI
#### Entrée
| Paramètre | Type | Obligatoire | Description |
| --------- | ---- | -------- | ----------- |
| `text` | string | Oui | Le texte à convertir en discours |
| `apiKey` | string | Oui | Clé API OpenAI |
| `model` | string | Non | Modèle TTS à utiliser \(tts-1, tts-1-hd, ou gpt-4o-mini-tts\) |
| `voice` | string | Non | Voix à utiliser \(alloy, ash, ballad, cedar, coral, echo, marin, sage, shimmer, verse\) |
| `responseFormat` | string | Non | Format audio \(mp3, opus, aac, flac, wav, pcm\) |
| `speed` | number | Non | Vitesse d'élocution \(0,25 à 4,0, par défaut : 1,0\) |
#### Sortie
| Paramètre | Type | Description |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL vers le fichier audio généré |
| `audioFile` | file | Objet du fichier audio généré |
| `duration` | number | Durée de l'audio en secondes |
| `characterCount` | number | Nombre de caractères traités |
| `format` | string | Format audio |
| `provider` | string | Fournisseur TTS utilisé |
### `tts_deepgram`
Convertir du texte en parole en utilisant Deepgram Aura
#### Entrée
| Paramètre | Type | Obligatoire | Description |
| --------- | ---- | ---------- | ----------- |
| `text` | string | Oui | Le texte à convertir en parole |
| `apiKey` | string | Oui | Clé API Deepgram |
| `model` | string | Non | Modèle/voix Deepgram (ex. : aura-asteria-en, aura-luna-en) |
| `voice` | string | Non | Identifiant de voix (alternative au paramètre modèle) |
| `encoding` | string | Non | Encodage audio (linear16, mp3, opus, aac, flac) |
| `sampleRate` | number | Non | Taux d'échantillonnage (8000, 16000, 24000, 48000) |
| `bitRate` | number | Non | Débit binaire pour les formats compressés |
| `container` | string | Non | Format de conteneur (none, wav, ogg) |
#### Sortie
| Paramètre | Type | Description |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL vers le fichier audio généré |
| `audioFile` | file | Objet du fichier audio généré |
| `duration` | number | Durée de l'audio en secondes |
| `characterCount` | number | Nombre de caractères traités |
| `format` | string | Format audio |
| `provider` | string | Fournisseur TTS utilisé |
### `tts_elevenlabs`
Convertir du texte en parole en utilisant les voix ElevenLabs
#### Entrée
| Paramètre | Type | Obligatoire | Description |
| --------- | ---- | -------- | ----------- |
| `text` | chaîne | Oui | Le texte à convertir en parole |
| `voiceId` | chaîne | Oui | L'identifiant de la voix à utiliser |
| `apiKey` | chaîne | Oui | Clé API ElevenLabs |
| `modelId` | chaîne | Non | Modèle à utiliser \(ex. : eleven_monolingual_v1, eleven_turbo_v2_5, eleven_flash_v2_5\) |
| `stability` | nombre | Non | Stabilité de la voix \(0.0 à 1.0, par défaut : 0.5\) |
| `similarityBoost` | nombre | Non | Amplification de similarité \(0.0 à 1.0, par défaut : 0.8\) |
| `style` | nombre | Non | Exagération du style \(0.0 à 1.0\) |
| `useSpeakerBoost` | booléen | Non | Utiliser l'amplification du locuteur \(par défaut : true\) |
#### Sortie
| Paramètre | Type | Description |
| --------- | ---- | ----------- |
| `audioUrl` | chaîne | URL vers le fichier audio généré |
| `audioFile` | fichier | Objet du fichier audio généré |
| `duration` | nombre | Durée audio en secondes |
| `characterCount` | nombre | Nombre de caractères traités |
| `format` | chaîne | Format audio |
| `provider` | chaîne | Fournisseur TTS utilisé |
### `tts_cartesia`
Convertir du texte en parole en utilisant Cartesia Sonic (latence ultra-faible)
#### Entrée
| Paramètre | Type | Obligatoire | Description |
| --------- | ---- | -------- | ----------- |
| `text` | chaîne | Oui | Le texte à convertir en parole |
| `apiKey` | chaîne | Oui | Clé API Cartesia |
| `modelId` | chaîne | Non | ID du modèle \(sonic-english, sonic-multilingual\) |
| `voice` | chaîne | Non | ID de voix ou embedding |
| `language` | chaîne | Non | Code de langue \(en, es, fr, de, it, pt, etc.\) |
| `outputFormat` | json | Non | Configuration du format de sortie \(container, encoding, sampleRate\) |
| `speed` | nombre | Non | Multiplicateur de vitesse |
| `emotion` | tableau | Non | Tags d'émotion pour Sonic-3 \(ex. : \['positivity:high'\]\) |
#### Sortie
| Paramètre | Type | Description |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL vers le fichier audio généré |
| `audioFile` | file | Objet du fichier audio généré |
| `duration` | number | Durée de l'audio en secondes |
| `characterCount` | number | Nombre de caractères traités |
| `format` | string | Format audio |
| `provider` | string | Fournisseur TTS utilisé |
### `tts_google`
Convertir du texte en parole en utilisant Google Cloud Text-to-Speech
#### Entrée
| Paramètre | Type | Obligatoire | Description |
| --------- | ---- | ---------- | ----------- |
| `text` | string | Oui | Le texte à convertir en parole |
| `apiKey` | string | Oui | Clé API Google Cloud |
| `voiceId` | string | Non | ID de voix (ex. : en-US-Neural2-A, en-US-Wavenet-D) |
| `languageCode` | string | Oui | Code de langue (ex. : en-US, es-ES, fr-FR) |
| `gender` | string | Non | Genre de voix (MALE, FEMALE, NEUTRAL) |
| `audioEncoding` | string | Non | Encodage audio (LINEAR16, MP3, OGG_OPUS, MULAW, ALAW) |
| `speakingRate` | number | Non | Débit de parole (0,25 à 2,0, par défaut : 1,0) |
| `pitch` | number | Non | Hauteur de la voix (-20,0 à 20,0, par défaut : 0,0) |
| `volumeGainDb` | number | Non | Gain de volume en dB (-96,0 à 16,0) |
| `sampleRateHertz` | number | Non | Taux d'échantillonnage en Hz |
| `effectsProfileId` | array | Non | Profil d'effets (ex. : ['headphone-class-device']) |
#### Sortie
| Paramètre | Type | Description |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL vers le fichier audio généré |
| `audioFile` | file | Objet du fichier audio généré |
| `duration` | number | Durée de l'audio en secondes |
| `characterCount` | number | Nombre de caractères traités |
| `format` | string | Format audio |
| `provider` | string | Fournisseur TTS utilisé |
### `tts_azure`
Convertir du texte en parole en utilisant Azure Cognitive Services
#### Entrée
| Paramètre | Type | Obligatoire | Description |
| --------- | ---- | -------- | ----------- |
| `text` | string | Oui | Le texte à convertir en parole |
| `apiKey` | string | Oui | Clé API d'Azure Speech Services |
| `voiceId` | string | Non | ID de voix (ex. : en-US-JennyNeural, en-US-GuyNeural) |
| `region` | string | Non | Région Azure (ex. : eastus, westus, westeurope) |
| `outputFormat` | string | Non | Format audio de sortie |
| `rate` | string | Non | Débit de parole (ex. : +10%, -20%, 1.5) |
| `pitch` | string | Non | Hauteur de la voix (ex. : +5Hz, -2st, low) |
| `style` | string | Non | Style de parole (ex. : joyeux, triste, en colère - voix neurales uniquement) |
| `styleDegree` | number | Non | Intensité du style (0.01 à 2.0) |
| `role` | string | Non | Rôle (ex. : fille, garçon, jeune femme adulte) |
#### Sortie
| Paramètre | Type | Description |
| --------- | ---- | ----------- |
| `audioUrl` | string | URL vers le fichier audio généré |
| `audioFile` | file | Objet du fichier audio généré |
| `duration` | number | Durée de l'audio en secondes |
| `characterCount` | number | Nombre de caractères traités |
| `format` | string | Format audio |
| `provider` | string | Fournisseur TTS utilisé |
### `tts_playht`
Convertir du texte en parole avec PlayHT (clonage vocal)
#### Entrée
| Paramètre | Type | Obligatoire | Description |
| --------- | ---- | -------- | ----------- |
| `text` | chaîne | Oui | Le texte à convertir en parole |
| `apiKey` | chaîne | Oui | Clé API PlayHT \(en-tête AUTHORIZATION\) |
| `userId` | chaîne | Oui | ID utilisateur PlayHT \(en-tête X-USER-ID\) |
| `voice` | chaîne | Non | ID de voix ou URL du manifeste |
| `quality` | chaîne | Non | Niveau de qualité \(draft, standard, premium\) |
| `outputFormat` | chaîne | Non | Format de sortie \(mp3, wav, ogg, flac, mulaw\) |
| `speed` | nombre | Non | Multiplicateur de vitesse \(0,5 à 2,0\) |
| `temperature` | nombre | Non | Créativité/aléatoire \(0,0 à 2,0\) |
| `voiceGuidance` | nombre | Non | Stabilité de la voix \(1,0 à 6,0\) |
| `textGuidance` | nombre | Non | Adhérence au texte \(1,0 à 6,0\) |
| `sampleRate` | nombre | Non | Taux d'échantillonnage \(8000, 16000, 22050, 24000, 44100, 48000\) |
#### Sortie
| Paramètre | Type | Description |
| --------- | ---- | ----------- |
| `audioUrl` | chaîne | URL vers le fichier audio généré |
| `audioFile` | fichier | Objet du fichier audio généré |
| `duration` | nombre | Durée audio en secondes |
| `characterCount` | nombre | Nombre de caractères traités |
| `format` | chaîne | Format audio |
| `provider` | chaîne | Fournisseur TTS utilisé |
## Notes
- Catégorie : `tools`
- Type : `tts`

View File

@@ -0,0 +1,192 @@
---
title: Générateur de vidéos
description: Générer des vidéos à partir de texte en utilisant l'IA
---
import { BlockInfoCard } from "@/components/ui/block-info-card"
<BlockInfoCard
type="video_generator"
color="#181C1E"
/>
{/* MANUAL-CONTENT-START:intro */}
Créez des vidéos à partir de prompts textuels en utilisant des modèles d'IA de pointe des meilleurs fournisseurs. Le générateur de vidéos de Sim intègre des capacités puissantes et créatives de synthèse vidéo à votre flux de travail, prenant en charge divers modèles, formats d'image, résolutions, contrôles de caméra, audio natif, et des fonctionnalités avancées de style et de cohérence.
**Fournisseurs et modèles pris en charge :**
- **[Runway Gen-4](https://research.runwayml.com/gen2/)** (Runway ML) :
Runway est un pionnier dans la génération de texte en vidéo, connu pour ses modèles puissants comme Gen-2, Gen-3 et Gen-4. Le dernier modèle [Gen-4](https://research.runwayml.com/gen2/) (et Gen-4 Turbo pour des résultats plus rapides) prend en charge des mouvements plus réalistes, une meilleure cohérence du monde et des références visuelles pour les personnages, objets, styles et lieux. Supporte les formats 16:9, 9:16 et 1:1, des durées de 5 à 10 secondes, jusqu'à la résolution 4K, des préréglages de style et le téléchargement direct d'images de référence pour des générations cohérentes. Runway alimente des outils créatifs pour les cinéastes, studios et créateurs de contenu du monde entier.
- **[Google Veo](https://deepmind.google/technologies/veo/)** (Google DeepMind) :
[Veo](https://deepmind.google/technologies/veo/) est le modèle de génération vidéo de nouvelle génération de Google, offrant des vidéos de haute qualité avec audio natif jusqu'à 1080p et 16 secondes. Prend en charge les mouvements avancés, les effets cinématographiques et la compréhension nuancée du texte. Veo peut générer des vidéos avec son intégré—activant l'audio natif ainsi que des clips silencieux. Les options incluent le format 16:9, une durée variable, différents modèles (veo-3, veo-3.1) et des contrôles basés sur les prompts. Idéal pour la narration, la publicité, la recherche et l'idéation.
- **[Luma Dream Machine](https://lumalabs.ai/dream-machine)** (Luma AI) :
[Dream Machine](https://lumalabs.ai/dream-machine) produit des vidéos étonnamment réalistes et fluides à partir de texte. Il intègre un contrôle avancé de la caméra, des prompts de cinématographie et prend en charge les modèles ray-1 et ray-2. Dream Machine supporte des formats précis (16:9, 9:16, 1:1), des durées variables et la spécification de trajectoires de caméra pour une direction visuelle complexe. Luma est reconnu pour sa fidélité visuelle révolutionnaire et est soutenu par d'éminents chercheurs en vision par IA.
- **[MiniMax Hailuo-02](https://minimax.chat/)** (via [Fal.ai](https://fal.ai/)) :
[MiniMax Hailuo-02](https://minimax.chat/) est un modèle sophistiqué chinois de génération vidéo, disponible mondialement via [Fal.ai](https://fal.ai/). Générez des vidéos jusqu'à 16 secondes en format paysage ou portrait, avec des options d'optimisation de prompt pour améliorer la clarté et la créativité. Points d'accès pro et standard disponibles, prenant en charge des hautes résolutions (jusqu'à 1920×1080). Bien adapté pour les projets créatifs nécessitant une traduction et une optimisation de prompt, la narration commerciale et le prototypage rapide d'idées visuelles.
**Comment choisir :**
Sélectionnez votre fournisseur et modèle selon vos besoins en matière de qualité, vitesse, durée, audio, coût et fonctionnalités uniques. Runway et Veo offrent un réalisme et des capacités cinématographiques de premier ordre ; Luma excelle dans la fluidité du mouvement et le contrôle de la caméra ; MiniMax est idéal pour les prompts en langue chinoise et offre un accès rapide et abordable. Tenez compte de la prise en charge des références, des préréglages de style, des exigences audio et des tarifs lors de la sélection de votre outil.
Pour plus de détails sur les fonctionnalités, les restrictions, les tarifs et les avancées des modèles, consultez la documentation officielle de chaque fournisseur ci-dessus.
{/* MANUAL-CONTENT-END */}
## Instructions d'utilisation
Générez des vidéos de haute qualité à partir de prompts textuels en utilisant les principaux fournisseurs d'IA. Prend en charge plusieurs modèles, formats d'image, résolutions et fonctionnalités spécifiques aux fournisseurs comme la cohérence du monde, les contrôles de caméra et la génération audio.
## Outils
### `video_runway`
Générer des vidéos avec Runway Gen-4 avec cohérence du monde et références visuelles
#### Entrée
| Paramètre | Type | Obligatoire | Description |
| --------- | ---- | ----------- | ----------- |
| `provider` | string | Oui | Fournisseur vidéo \(runway\) |
| `apiKey` | string | Oui | Clé API Runway |
| `model` | string | Non | Modèle Runway : gen-4 \(par défaut, qualité supérieure\) ou gen-4-turbo \(plus rapide\) |
| `prompt` | string | Oui | Prompt textuel décrivant la vidéo à générer |
| `duration` | number | Non | Durée de la vidéo en secondes \(5 ou 10, par défaut : 5\) |
| `aspectRatio` | string | Non | Format d'image : 16:9 \(paysage\), 9:16 \(portrait\), ou 1:1 \(carré\) |
| `resolution` | string | Non | Résolution vidéo \(sortie 720p\). Remarque : Gen-4 Turbo produit nativement en 720p |
| `visualReference` | json | Oui | Image de référence OBLIGATOIRE pour Gen-4 \(objet UserFile\). Gen-4 prend uniquement en charge la conversion d'image en vidéo, pas la génération uniquement textuelle |
#### Sortie
| Paramètre | Type | Description |
| --------- | ---- | ----------- |
| `videoUrl` | string | URL de la vidéo générée |
| `videoFile` | json | Objet du fichier vidéo avec métadonnées |
| `duration` | number | Durée de la vidéo en secondes |
| `width` | number | Largeur de la vidéo en pixels |
| `height` | number | Hauteur de la vidéo en pixels |
| `provider` | string | Fournisseur utilisé \(runway\) |
| `model` | string | Modèle utilisé |
| `jobId` | string | ID de tâche Runway |
### `video_veo`
Générer des vidéos avec Google Veo 3/3.1 avec génération audio native
#### Entrée
| Paramètre | Type | Obligatoire | Description |
| --------- | ---- | -------- | ----------- |
| `provider` | string | Oui | Fournisseur de vidéo \(veo\) |
| `apiKey` | string | Oui | Clé API Google Gemini |
| `model` | string | Non | Modèle Veo : veo-3 \(par défaut, qualité maximale\), veo-3-fast \(plus rapide\), ou veo-3.1 \(le plus récent\) |
| `prompt` | string | Oui | Instruction textuelle décrivant la vidéo à générer |
| `duration` | number | Non | Durée de la vidéo en secondes \(4, 6, ou 8, par défaut : 8\) |
| `aspectRatio` | string | Non | Format d'image : 16:9 \(paysage\) ou 9:16 \(portrait\) |
| `resolution` | string | Non | Résolution vidéo : 720p ou 1080p \(par défaut : 1080p\) |
#### Sortie
| Paramètre | Type | Description |
| --------- | ---- | ----------- |
| `videoUrl` | string | URL de la vidéo générée |
| `videoFile` | json | Objet du fichier vidéo avec métadonnées |
| `duration` | number | Durée de la vidéo en secondes |
| `width` | number | Largeur de la vidéo en pixels |
| `height` | number | Hauteur de la vidéo en pixels |
| `provider` | string | Fournisseur utilisé \(veo\) |
| `model` | string | Modèle utilisé |
| `jobId` | string | ID de tâche Veo |
### `video_luma`
Générer des vidéos en utilisant Luma Dream Machine avec des contrôles de caméra avancés
#### Entrée
| Paramètre | Type | Obligatoire | Description |
| --------- | ---- | -------- | ----------- |
| `provider` | string | Oui | Fournisseur de vidéo \(luma\) |
| `apiKey` | string | Oui | Clé API Luma AI |
| `model` | string | Non | Modèle Luma : ray-2 \(par défaut\) |
| `prompt` | string | Oui | Texte décrivant la vidéo à générer |
| `duration` | number | Non | Durée de la vidéo en secondes \(5 ou 9, par défaut : 5\) |
| `aspectRatio` | string | Non | Format d'image : 16:9 \(paysage\), 9:16 \(portrait\), ou 1:1 \(carré\) |
| `resolution` | string | Non | Résolution vidéo : 540p, 720p, ou 1080p \(par défaut : 1080p\) |
| `cameraControl` | json | Non | Contrôles de caméra sous forme de tableau d'objets concept. Format : \[\{ "key": "concept_name" \}\]. Clés valides : truck_left, truck_right, pan_left, pan_right, tilt_up, tilt_down, zoom_in, zoom_out, push_in, pull_out, orbit_left, orbit_right, crane_up, crane_down, static, handheld, et plus de 20 autres options prédéfinies |
#### Sortie
| Paramètre | Type | Description |
| --------- | ---- | ----------- |
| `videoUrl` | string | URL de la vidéo générée |
| `videoFile` | json | Objet fichier vidéo avec métadonnées |
| `duration` | number | Durée de la vidéo en secondes |
| `width` | number | Largeur de la vidéo en pixels |
| `height` | number | Hauteur de la vidéo en pixels |
| `provider` | string | Fournisseur utilisé \(luma\) |
| `model` | string | Modèle utilisé |
| `jobId` | string | ID de tâche Luma |
### `video_minimax`
Générez des vidéos en utilisant MiniMax Hailuo via l'API de la plateforme MiniMax avec un réalisme avancé et une optimisation des instructions
#### Entrée
| Paramètre | Type | Obligatoire | Description |
| --------- | ---- | -------- | ----------- |
| `provider` | chaîne | Oui | Fournisseur de vidéo \(minimax\) |
| `apiKey` | chaîne | Oui | Clé API MiniMax de platform.minimax.io |
| `model` | chaîne | Non | Modèle MiniMax : hailuo-02 \(par défaut\) |
| `prompt` | chaîne | Oui | Instruction textuelle décrivant la vidéo à générer |
| `duration` | nombre | Non | Durée de la vidéo en secondes \(6 ou 10, par défaut : 6\) |
| `promptOptimizer` | booléen | Non | Activer l'optimisation des instructions pour de meilleurs résultats \(par défaut : true\) |
#### Sortie
| Paramètre | Type | Description |
| --------- | ---- | ----------- |
| `videoUrl` | chaîne | URL de la vidéo générée |
| `videoFile` | json | Objet fichier vidéo avec métadonnées |
| `duration` | nombre | Durée de la vidéo en secondes |
| `width` | nombre | Largeur de la vidéo en pixels |
| `height` | nombre | Hauteur de la vidéo en pixels |
| `provider` | chaîne | Fournisseur utilisé \(minimax\) |
| `model` | chaîne | Modèle utilisé |
| `jobId` | chaîne | ID de tâche MiniMax |
### `video_falai`
Générez des vidéos en utilisant la plateforme Fal.ai avec accès à plusieurs modèles dont Veo 3.1, Sora 2, Kling 2.5, MiniMax Hailuo, et plus encore
#### Entrée
| Paramètre | Type | Obligatoire | Description |
| --------- | ---- | -------- | ----------- |
| `provider` | chaîne | Oui | Fournisseur de vidéo \(falai\) |
| `apiKey` | chaîne | Oui | Clé API Fal.ai |
| `model` | chaîne | Oui | Modèle Fal.ai : veo-3.1 \(Google Veo 3.1\), sora-2 \(OpenAI Sora 2\), kling-2.5-turbo-pro \(Kling 2.5 Turbo Pro\), kling-2.1-pro \(Kling 2.1 Master\), minimax-hailuo-2.3-pro \(MiniMax Hailuo Pro\), minimax-hailuo-2.3-standard \(MiniMax Hailuo Standard\), wan-2.1 \(WAN T2V\), ltxv-0.9.8 \(LTXV 13B\) |
| `prompt` | chaîne | Oui | Instruction textuelle décrivant la vidéo à générer |
| `duration` | nombre | Non | Durée de la vidéo en secondes \(varie selon le modèle\) |
| `aspectRatio` | chaîne | Non | Format d'image \(varie selon le modèle\) : 16:9, 9:16, 1:1 |
| `resolution` | chaîne | Non | Résolution vidéo \(varie selon le modèle\) : 540p, 720p, 1080p |
| `promptOptimizer` | booléen | Non | Activer l'optimisation des instructions pour les modèles MiniMax \(par défaut : true\) |
#### Sortie
| Paramètre | Type | Description |
| --------- | ---- | ----------- |
| `videoUrl` | string | URL de la vidéo générée |
| `videoFile` | json | Objet du fichier vidéo avec métadonnées |
| `duration` | number | Durée de la vidéo en secondes |
| `width` | number | Largeur de la vidéo en pixels |
| `height` | number | Hauteur de la vidéo en pixels |
| `provider` | string | Fournisseur utilisé \(falai\) |
| `model` | string | Modèle utilisé |
| `jobId` | string | ID de tâche |
## Notes
- Catégorie : `tools`
- Type : `video_generator`

View File

@@ -4,19 +4,30 @@ description: Les déclencheurs sont les moyens essentiels pour lancer les flux d
---
import { Card, Cards } from 'fumadocs-ui/components/card'
import { Image } from '@/components/ui/image'
<div className="flex justify-center">
<Image
src="/static/blocks/triggers.png"
alt="Aperçu des déclencheurs"
width={500}
height={350}
className="my-6"
/>
</div>
## Déclencheurs principaux
Utilisez le bloc Start pour tout ce qui provient de l'éditeur, du déploiement vers l'API ou des expériences de déploiement vers le chat. D'autres déclencheurs restent disponibles pour les flux de travail pilotés par événements :
Utilisez le bloc Démarrer pour tout ce qui provient de l'éditeur, du déploiement vers l'API ou des expériences de déploiement vers le chat. D'autres déclencheurs restent disponibles pour les flux de travail basés sur des événements :
<Cards>
<Card title="Start" href="/triggers/start">
<Card title="Démarrer" href="/triggers/start">
Point d'entrée unifié qui prend en charge les exécutions de l'éditeur, les déploiements d'API et les déploiements de chat
</Card>
<Card title="Webhook" href="/triggers/webhook">
Recevoir des charges utiles de webhook externes
</Card>
<Card title="Schedule" href="/triggers/schedule">
<Card title="Planification" href="/triggers/schedule">
Exécution basée sur cron ou intervalle
</Card>
</Cards>
@@ -25,15 +36,15 @@ Utilisez le bloc Start pour tout ce qui provient de l'éditeur, du déploiement
| Déclencheur | Condition de démarrage |
|---------|-----------------|
| **Démarrage** | Exécution de l'éditeur, requêtes de déploiement vers l'API ou messages de chat |
| **Démarrer** | Exécutions de l'éditeur, requêtes de déploiement vers l'API ou messages de chat |
| **Planification** | Minuteur géré dans le bloc de planification |
| **Webhook** | Sur requête HTTP entrante |
> Le bloc Start expose toujours les champs `input`, `conversationId`, et `files`. Ajoutez des champs personnalisés au format d'entrée pour des données structurées supplémentaires.
> Le bloc Démarrer expose toujours les champs `input`, `conversationId` et `files`. Ajoutez des champs personnalisés au format d'entrée pour des données structurées supplémentaires.
## Utilisation des déclencheurs
1. Déposez le bloc Start dans l'emplacement de départ (ou un déclencheur alternatif comme Webhook/Schedule).
1. Déposez le bloc Démarrer dans l'emplacement de départ (ou un déclencheur alternatif comme Webhook/Planification).
2. Configurez tout schéma ou authentification requis.
3. Connectez le bloc au reste du flux de travail.
@@ -41,12 +52,12 @@ Utilisez le bloc Start pour tout ce qui provient de l'éditeur, du déploiement
## Priorité d'exécution manuelle
Lorsque vous cliquez sur **Exécuter** dans l'éditeur, Sim sélectionne automatiquement le déclencheur à exécuter selon l'ordre de priorité suivant :
Lorsque vous cliquez sur **Exécuter** dans l'éditeur, Sim sélectionne automatiquement quel déclencheur exécuter selon l'ordre de priorité suivant :
1. **Bloc de démarrage** (priorité la plus élevée)
2. **Déclencheurs planifiés**
1. **Bloc Démarrer** (priorité la plus élevée)
2. **Déclencheurs de planification**
3. **Déclencheurs externes** (webhooks, intégrations comme Slack, Gmail, Airtable, etc.)
Si votre flux de travail comporte plusieurs déclencheurs, celui ayant la priorité la plus élevée sera exécuté. Par exemple, si vous avez à la fois un bloc de démarrage et un déclencheur Webhook, cliquer sur Exécuter lancera le bloc de démarrage.
Si votre flux de travail comporte plusieurs déclencheurs, le déclencheur de priorité la plus élevée sera exécuté. Par exemple, si vous avez à la fois un bloc Démarrer et un déclencheur Webhook, cliquer sur Exécuter exécutera le bloc Démarrer.
**Déclencheurs externes avec charges utiles simulées** : lorsque des déclencheurs externes (webhooks et intégrations) sont exécutés manuellement, Sim génère automatiquement des charges utiles simulées basées sur la structure de données attendue par le déclencheur. Cela garantit que les blocs en aval peuvent résoudre correctement les variables pendant les tests.
**Déclencheurs externes avec charges utiles simulées** : lorsque des déclencheurs externes (webhooks et intégrations) sont exécutés manuellement, Sim génère automatiquement des charges utiles simulées basées sur la structure de données attendue du déclencheur. Cela garantit que les blocs en aval peuvent résoudre correctement les variables pendant les tests.

View File

@@ -5,6 +5,7 @@ title: ヒューマン・イン・ザ・ループ
import { Callout } from 'fumadocs-ui/components/callout'
import { Tab, Tabs } from 'fumadocs-ui/components/tabs'
import { Image } from '@/components/ui/image'
import { Video } from '@/components/ui/video'
ヒューマン・イン・ザ・ループブロックは、ワークフローの実行を一時停止し、続行する前に人間の介入を待ちます。承認ゲート、フィードバックの収集、または重要な決断ポイントでの追加入力の収集に使用します。
@@ -76,7 +77,7 @@ import { Image } from '@/components/ui/image'
}
```
下流のブロックで再開データにアクセスするには `<blockId.resumeInput.fieldName>` を使用します。
`<blockId.resumeInput.fieldName>`を使用して、下流のブロックで再開データにアクセスします。
## 承認方法
@@ -174,6 +175,12 @@ Agent (Generate) → Human in the Loop (QA) → Gmail (Send)
<approval1.resumeInput.approved> === true
```
以下の例は、ワークフローが一時停止された後に承認者が見る承認ポータルを示しています。承認者はデータを確認し、ワークフロー再開の一部として入力を提供できます。承認ポータルは、固有のURL、`<blockId.url>`から直接アクセスできます。
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="hitl-resume.mp4" width={700} height={450} />
</div>
## 関連ブロック
- **[条件](/blocks/condition)** - 承認決定に基づいて分岐

View File

@@ -4,6 +4,7 @@ title: 基本
import { Callout } from 'fumadocs-ui/components/callout'
import { Step, Steps } from 'fumadocs-ui/components/steps'
import { Video } from '@/components/ui/video'
## 接続の仕組み
@@ -27,14 +28,18 @@ import { Step, Steps } from 'fumadocs-ui/components/steps'
</Step>
</Steps>
### 接続のフロー
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="connections-build.mp4" width={700} height={450} />
</div>
接続を通じたデータの流れは以下の原則に従います:
### 接続フロー
1. **方向性のある流れ**: データは常に出力から入力へと流れます
2. **実行順序**: ブロックは接続に基づいて順番に実行されます
3. **データ変換**: データはブロック間を移動する際に変換される場合があります
4. **条件付きパス**: 一部のブロックRouterやConditionなどは異なるパスにフローを向けることができます
接続を通じたデータの流れは、以下の原則に従います
1. **方向性のある流れ**:データは常に出力から入力へと流れます
2. **実行順序**:ブロックは接続に基づいて順番に実行されます
3. **データ変換**:データはブロック間を移動する際に変換される場合があります
4. **条件付きパス**:一部のブロック(ルーターや条件など)は異なるパスにフローを誘導できます
<Callout type="warning">
接続を削除すると、ブロック間のデータフローが即座に停止します。接続を削除する前に、これが意図した操作であることを確認してください。

View File

@@ -71,6 +71,16 @@ Copilotはエディター内のアシスタントで、Sim Copilotを使用し
</Card>
</Cards>
<div className="flex justify-center">
<Image
src="/static/copilot/copilot-mode.png"
alt="Copilotモード選択インターフェース"
width={600}
height={400}
className="my-6"
/>
</div>
## 深度レベル
<Cards>
@@ -118,7 +128,7 @@ Copilotはエディター内のアシスタントで、Sim Copilotを使用し
### モード選択インターフェース
Copilotインターフェースのモードセレクターを使用して、異なる推論モードを簡単に切り替えることができます
Copilotインターフェースのモードセレクターを使用して、異なる推論モードを簡単に切り替えることができます:
<Image
src="/static/copilot/copilot-models.png"
@@ -129,7 +139,7 @@ Copilotインターフェースのモードセレクターを使用して、異
このインターフェースでは以下のことが可能です:
- **推論レベルの選択**:高速、自動、高度、またはビヘモスから選択
- **MAXモードの有効化**:最も徹底的な分析が必要な場合に最大推論能力を切り替え
- **MAXモードの有効化**:最も徹底的な分析が必要な場合に最大限の推論能力を切り替え
- **モードの説明を確認**:各モードが最適化されている用途を理解
タスクの複雑さに基づいてモードを選択してください - 簡単な質問には高速モードを、複雑なアーキテクチャ変更にはビヘモスモードを使用します。
@@ -138,24 +148,24 @@ Copilotインターフェースのモードセレクターを使用して、異
### コストの計算方法
Copilotの使用は、基盤となるLLMからのトークンごとに課金されます:
Copilotの使用料金は、基盤となるLLMからのトークンごとに請求されます:
- **入力トークン**:プロバイダーの基本料金で課金**原価**
- **出力トークン**:プロバイダーの基本出力料金の**1.5倍**で課金
- **入力トークン**:プロバイダーの基本料金で請求**原価**
- **出力トークン**:プロバイダーの基本出力料金の**1.5倍**で請求
```javascript
copilotCost = (inputTokens × inputPrice + outputTokens × (outputPrice × 1.5)) / 1,000,000
```
| コンポーネント | 適用レート |
| コンポーネント | 適用される料金 |
|----------|----------------------|
| 入力 | inputPrice |
| 出力 | outputPrice × 1.5 |
<Callout type="warning">
表示価格は2025年9月4日時点のレートを反映しています。最新の価格については、プロバイダーのドキュメントをご確認ください。
表示価格は2025年9月4日時点のものです。最新の価格については、プロバイダーのドキュメントをご確認ください。
</Callout>
<Callout type="info">
モデル価格は100万トークンあたりの金です。実際のコストを算出するには1,000,000で割ります。背景例については<a href="/execution/costs">コスト計算ページ</a>をご覧ください。
モデル価格は100万トークンあたりの金です。実際のコストを算出するには1,000,000で割ります。背景例については<a href="/execution/costs">コスト計算ページ</a>をご覧ください。
</Callout>

View File

@@ -5,6 +5,7 @@ title: はじめに
import { Card, Cards } from 'fumadocs-ui/components/card'
import { Callout } from 'fumadocs-ui/components/callout'
import { Image } from '@/components/ui/image'
import { Video } from '@/components/ui/video'
Simはオープンソースのビジュアルワークフロービルダーで、AIエージェントワークフローの構築とデプロイに使用できます。ーコードインターフェースを使用してインテリジェントな自動化システムを設計し、直感的なドラッグアンドドロップキャンバスを通じてAIモデル、データベース、API、ビジネスツールを接続できます。チャットボットの構築、ビジネスプロセスの自動化、複雑なデータパイプラインのオーケストレーションなど、SimはあなたのAIワークフローを実現するためのツールを提供します。
@@ -32,44 +33,73 @@ Simはオープンソースのビジュアルワークフロービルダーで
**API統合ワークフロー**
複雑なマルチサービス間の相互作用をオーケストレーションします。統一されたAPIエンドポイントを作成し、高度なビジネスロジックを実装し、イベント駆動型の自動化システムを構築します。
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="introduction/chat-workflow.mp4" width={700} height={450} />
</div>
## 仕組み
**ビジュアルワークフローエディタ**
直感的なドラッグアンドドロップキャンバスを使用してワークフローを設計します。複雑な自動化ロジックを理解しやすく維持しやすくするビジュアルなーコードインターフェースを通じて、AIモデル、データベース、API、サードパーティサービスを接続します。
直感的なドラッグドロップキャンバスを使用してワークフローを設計します。AIモデル、データベース、API、サードパーティサービスをビジュアルなーコードインターフェースで接続し、複雑な自動化ロジックを理解しやすく、保守しやすくします。
**モジュラーブロックシステム**
専門化されたコンポーネントで構築します処理ブロックAIエージェント、API呼び出し、カスタム関数、ロジックブロック条件分岐、ループ、ルーター、出力ブロックレスポンス、評価器。各ブロックはワークフロー内の特定のタスクを処理します。
専門化されたコンポーネントで構築処理ブロックAIエージェント、API呼び出し、カスタム関数、ロジックブロック条件分岐、ループ、ルーター、出力ブロックレスポンス、評価器。各ブロックはワークフロー内の特定のタスクを処理します。
**柔軟な実行トリガー**
チャットインターフェース、REST API、ウェブフック、スケジュールされたcronジョブ、SlackやGitHubなどのプラットフォームからの外部イベントなど、複数のチャネルを通じてワークフローを起動ます。
チャットインターフェース、REST API、ウェブフック、スケジュールされたcronジョブ、SlackやGitHubなどのプラットフォームからの外部イベントなど、複数のチャネルを通じてワークフローを起動できます。
**リアルタイムコラボレーション**
チームが一緒に構築できるようにします。複数のユーザーがリアルタイム更新と詳細な権限コントロール同時にワークフローを編集できます。
チームが一緒に構築できるようにします。複数のユーザーがリアルタイム更新と詳細な権限コントロールにより、同時にワークフローを編集できます。
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="introduction/build-workflow.mp4" width={700} height={450} />
</div>
## 連携機能
Simは複数のカテゴリにわたる80以上のサービスとネイティブ連携を提供しています:
Simは複数のカテゴリにわたる80以上のサービスとネイティブ連携を提供します
- **AIモデル**: OpenAI、Anthropic、Google Gemini、Groq、Cerebras、Ollamaを通じたローカルモデル
- **AIモデル**: OpenAI、Anthropic、Google Gemini、Groq、Cerebras、Ollamaを介したローカルモデル
- **コミュニケーション**: Gmail、Slack、Microsoft Teams、Telegram、WhatsApp
- **生産性向上**: Notion、Google Workspace、Airtable、Monday.com
- **生産性**: Notion、Google Workspace、Airtable、Monday.com
- **開発**: GitHub、Jira、Linear、自動ブラウザテスト
- **検索とデータ**: Google検索、Perplexity、Firecrawl、Exa AI
- **データベース**: PostgreSQL、MySQL、Supabase、Pinecone、Qdrant
カスタム連携については、[MCPModel Context Protocolサポート](/mcp)を活用して、あらゆる外部サービスやツール接続できます。
カスタム連携については、[MCPModel Context Protocolサポート](/mcp)を活用して、任意の外部サービスやツール接続できます。
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="introduction/integrations-sidebar.mp4" width={700} height={450} />
</div>
## AI搭載コパイロット
**質問と指導を受ける**
コパイロットはSimに関する質問に答え、ワークフローを説明し、改善のための提案を提供します。`@`記号を使用してワークフロー、ブロック、ドキュメント、ナレッジ、ログを参照し、文脈に応じたサポートを受けられます。
**ワークフローの構築と編集**
エージェントモードに切り替えると、コパイロットが変更を提案し、キャンバスに直接適用できます。自然言語コマンドでブロックの追加、設定の構成、変数の接続、ワークフローの再構築が可能です。
**適応型推論レベル**
タスクの複雑さに応じて、高速、自動、高度、または超大型モードから選択できます。簡単な質問には高速モードから始め、複雑なアーキテクチャの変更や深いデバッグには超大型モードにスケールアップします。
[コパイロット機能](/copilot)の詳細とAIアシスタンスで生産性を最大化する方法についてもっと学びましょう。
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="introduction/copilot-workflow.mp4" width={700} height={450} />
</div>
## デプロイメントオプション
**クラウドホスティング**
[sim.ai](https://sim.ai)ですぐに起動でき、完全に管理されたインフラストラクチャ、自動スケーリング、組み込みの可観測性を備えています。運用は私たちが処理するので、ワークフローの構築に集中できます。
[sim.ai](https://sim.ai)ですぐに開始できます。完全に管理されたインフラストラクチャ、自動スケーリング、組み込みの可観測性を備えています。運用は私たちが処理するので、ワークフローの構築に集中できます。
**セルフホスティング**
Docker ComposeまたはKubernetesを使用して独自のインフラストラクチャにデプロイできます。Ollama連携を通じてローカルAIモデルをサポートし、データを完全に制御できます。
## 次のステップ
最初のAIワークフローを構築する準備はできていますか?
最初のAIワークフローを構築する準備はできましたか?
<Cards>
<Card title="はじめに" href="/getting-started">
@@ -78,8 +108,8 @@ Docker ComposeまたはKubernetesを使用して独自のインフラストラ
<Card title="ワークフローブロック" href="/blocks">
構成要素について学ぶ
</Card>
<Card title="ツールと連携機能" href="/tools">
80以上の組み込み連携機能を探索
<Card title="ツールと連携" href="/tools">
80以上の組み込み連携を探索
</Card>
<Card title="チーム権限" href="/permissions/roles-and-permissions">
ワークスペースの役割と権限を設定

View File

@@ -39,14 +39,24 @@ Linearから課題を取得してフィルタリングする
| パラメータ | 型 | 必須 | 説明 |
| --------- | ---- | -------- | ----------- |
| `teamId` | string | はい | LinearチームID |
| `projectId` | string | はい | LinearプロジェクトID |
| `teamId` | string | いいえ | フィルタリングするLinearチームID |
| `projectId` | string | いいえ | フィルタリングするLinearプロジェクトID |
| `assigneeId` | string | いいえ | 担当者でフィルタリングするユーザーID |
| `stateId` | string | いいえ | ステータスでフィルタリングするワークフロー状態ID |
| `priority` | number | いいえ | フィルタリングする優先度0=優先度なし、1=緊急、2=高、3=普通、4=低) |
| `labelIds` | array | いいえ | フィルタリングするラベルIDの配列 |
| `createdAfter` | string | いいえ | この日付以降に作成された課題をフィルタリングISO 8601形式 |
| `updatedAfter` | string | いいえ | この日付以降に更新された課題をフィルタリングISO 8601形式 |
| `includeArchived` | boolean | いいえ | アーカイブされた課題を含めるデフォルトfalse |
| `first` | number | いいえ | 返す課題の数デフォルト50、最大250 |
| `after` | string | いいえ | 次のページのページネーションカーソル |
| `orderBy` | string | いいえ | ソート順:"createdAt"または"updatedAt"(デフォルト:"updatedAt" |
#### 出力
| パラメータ | 型 | 説明 |
| --------- | ---- | ----------- |
| `issues` | array | 指定されたLinearチームとプロジェクトからの課題の配列。各課題にはid、title、description、state、teamId、projectIdが含まれます |
| `issues` | array | Linearからフィルタリングされた課題の配列 |
### `linear_get_issue`
@@ -73,15 +83,25 @@ Linearに新しい課題を作成する
| パラメータ | 型 | 必須 | 説明 |
| --------- | ---- | -------- | ----------- |
| `teamId` | string | はい | LinearチームID |
| `projectId` | string | い | LinearプロジェクトID |
| `projectId` | string | いいえ | LinearプロジェクトID |
| `title` | string | はい | 課題のタイトル |
| `description` | string | いいえ | 課題の説明 |
| `stateId` | string | いいえ | ワークフロー状態IDステータス |
| `assigneeId` | string | いいえ | 課題を割り当てるユーザーID |
| `priority` | number | いいえ | 優先度0=優先度なし、1=緊急、2=高、3=普通、4=低) |
| `estimate` | number | いいえ | ポイント単位の見積もり |
| `labelIds` | array | いいえ | 課題に設定するラベルIDの配列 |
| `cycleId` | string | いいえ | 課題を割り当てるサイクルID |
| `parentId` | string | いいえ | 親課題IDサブ課題を作成する場合 |
| `dueDate` | string | いいえ | ISO 8601形式の期日日付のみYYYY-MM-DD |
| `subscriberIds` | array | いいえ | 課題をサブスクライブするユーザーIDの配列 |
| `projectMilestoneId` | string | いいえ | 課題に関連付けるプロジェクトマイルストーンID |
#### 出力
| パラメータ | 型 | 説明 |
| --------- | ---- | ----------- |
| `issue` | object | 作成された課題id、title、description、state、teamId、projectIdを含む |
| `issue` | object | すべてのプロパティを含む作成された課題 |
### `linear_update_issue`
@@ -97,8 +117,14 @@ Linearの既存の課題を更新する
| `stateId` | string | いいえ | ワークフロー状態IDステータス |
| `assigneeId` | string | いいえ | 課題を割り当てるユーザーID |
| `priority` | number | いいえ | 優先度0=優先度なし、1=緊急、2=高、3=普通、4=低) |
| `estimate` | number | いいえ | ポイント単位の見積もり |
| `labelIds` | array | いいえ | 課題に設定するラベルIDの配列 |
| `estimate` | number | いいえ | ポイントの見積もり |
| `labelIds` | array | いいえ | 課題に設定するラベルIDの配列(既存のすべてのラベルを置き換え) |
| `projectId` | string | いいえ | 課題を移動するプロジェクトID |
| `cycleId` | string | いいえ | 課題を割り当てるサイクルID |
| `parentId` | string | いいえ | 親課題IDこれをサブ課題にする場合 |
| `dueDate` | string | いいえ | ISO 8601形式の期日日付のみYYYY-MM-DD |
| `addedLabelIds` | array | いいえ | 課題に追加するラベルIDの配列既存のラベルを置き換えない |
| `removedLabelIds` | array | いいえ | 課題から削除するラベルIDの配列 |
#### 出力
@@ -237,7 +263,7 @@ Linearでコメントを編集する
| パラメータ | 型 | 必須 | 説明 |
| --------- | ---- | -------- | ----------- |
| `commentId` | string | はい | 更新するコメントID |
| `body` | string | い | 新しいコメントテキストMarkdownをサポート |
| `body` | string | いいえ | 新しいコメントテキストMarkdownをサポート |
#### 出力
@@ -349,9 +375,9 @@ Linearの既存プロジェクトを更新する
| `description` | string | いいえ | 新しいプロジェクトの説明 |
| `state` | string | いいえ | プロジェクトの状態(計画中、開始済み、完了、キャンセル) |
| `leadId` | string | いいえ | プロジェクトリーダーのユーザーID |
| `startDate` | string | いいえ | プロジェクト開始日ISO形式 |
| `targetDate` | string | いいえ | プロジェクト目標日ISO形式 |
| `priority` | number | いいえ | プロジェクト優先度0-4 |
| `startDate` | string | いいえ | プロジェクト開始日ISO形式YYYY-MM-DD |
| `targetDate` | string | いいえ | プロジェクト目標日ISO形式YYYY-MM-DD |
| `priority` | number | いいえ | プロジェクト優先度0=優先度なし、1=緊急、2=高、3=普通、4=低 |
#### 出力
@@ -527,7 +553,7 @@ Linearに新しいワークフローステータス状態を作成する
| --------- | ---- | -------- | ----------- |
| `teamId` | string | はい | ステータスを作成するチームID |
| `name` | string | はい | ステータス名(例:「レビュー中」) |
| `color` | string | い | ステータスの色16進形式 |
| `color` | string | いいえ | ステータスの色16進形式 |
| `type` | string | はい | ステータスタイプ「backlog」、「unstarted」、「started」、「completed」、または「canceled」 |
| `description` | string | いいえ | ステータスの説明 |
| `position` | number | いいえ | ワークフロー内の位置 |
@@ -635,9 +661,9 @@ Linearの課題に添付ファイルを追加する
| パラメータ | 型 | 必須 | 説明 |
| --------- | ---- | -------- | ----------- |
| `issueId` | string | はい | 添付先の課題ID |
| `issueId` | string | はい | 添付する課題ID |
| `url` | string | はい | 添付ファイルのURL |
| `title` | string | いいえ | 添付ファイルのタイトル |
| `title` | string | い | 添付ファイルのタイトル |
| `subtitle` | string | いいえ | 添付ファイルのサブタイトル/説明 |
#### 出力
@@ -673,7 +699,7 @@ Linearで添付ファイルのメタデータを更新する
| パラメータ | 型 | 必須 | 説明 |
| --------- | ---- | -------- | ----------- |
| `attachmentId` | string | はい | 更新する添付ファイルID |
| `title` | string | いいえ | 新しい添付ファイルのタイトル |
| `title` | string | い | 新しい添付ファイルのタイトル |
| `subtitle` | string | いいえ | 新しい添付ファイルのサブタイトル |
#### 出力
@@ -708,7 +734,7 @@ Linearで2つの課題を関連付けるブロック、関連、重複
| --------- | ---- | -------- | ----------- |
| `issueId` | string | はい | ソース課題ID |
| `relatedIssueId` | string | はい | リンク先のターゲット課題ID |
| `type` | string | はい | 関係タイプ:blocks」、「blocked」、「duplicate」、「related |
| `type` | string | はい | 関係タイプ:"blocks"、"duplicate"、または"related"。注意AからBへの"blocks"を作成すると、逆の関係BはAによってブロックされるが自動的に作成されます。 |
#### 出力
@@ -1217,6 +1243,7 @@ Linearで新しいプロジェクトラベルを作成する
| パラメータ | 型 | 必須 | 説明 |
| --------- | ---- | -------- | ----------- |
| `projectId` | string | はい | このラベルのプロジェクト |
| `name` | string | はい | プロジェクトラベル名 |
| `color` | string | いいえ | ラベルの色16進コード |
| `description` | string | いいえ | ラベルの説明 |
@@ -1394,6 +1421,7 @@ Linearで新しいプロジェクトステータスを作成する
| パラメータ | 型 | 必須 | 説明 |
| --------- | ---- | -------- | ----------- |
| `projectId` | string | はい | ステータスを作成するプロジェクト |
| `name` | string | はい | プロジェクトステータス名 |
| `color` | string | はい | ステータスの色16進コード |
| `description` | string | いいえ | ステータスの説明 |

View File

@@ -11,26 +11,43 @@ import { BlockInfoCard } from "@/components/ui/block-info-card"
/>
{/* MANUAL-CONTENT-START:intro */}
最先端のAIモデルを使用して音声をテキストに変換します。Sim音声テキスト変換STTツールを使用すると、音声ファイルや動画ファイルを正確な文字起こしに変換でき、複数の言語、タイムスタンプ、およびオプション翻訳をサポートしています。
世界クラスのプロバイダーによる最新のAIモデルを使用して音声をテキストに変換します。SimのSpeech-to-TextSTTツールは、音声や動画を正確でタイムスタンプ付き、オプション翻訳されたトランスクリプトに変換する機能を提供します。多様な言語をサポートし、話者分離や話者識別などの高度な機能で強化されています。
対応プロバイダー:
**サポートされているプロバイダーとモデル:**
- **[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)**: OpenAIによる先進的なオープンソースSTTモデル。`whisper-1`などのモデルをサポートし、様々な言語と音声フォーマットに対応しています。
- **[Deepgram](https://deepgram.com/)**: `nova-3`、`nova-2`、`whisper-large`などのディープラーニングモデルを使用したリアルタイムおよびバッチSTT API。話者分離、意図認識、業界特化型チューニングなどの機能を提供します。
- **[ElevenLabs](https://elevenlabs.io/)**: 高品質な音声AIで知られるElevenLabsは、多数の言語や方言に対応した精度と自然言語理解に焦点を当てたSTTモデルを提供しています。
- **[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)** (OpenAI):
OpenAIのWhisperは、言語や音声条件全体で堅牢性で知られるオープンソースの深層学習モデルです。`whisper-1`などの高度なモデルをサポートし、文字起こし、翻訳、高いモデル汎用性を要求するタスクで優れています。ChatGPTや先進的なAI研究で知られる企業OpenAIによって支えられており、Whisperは研究や比較評価のベースラインとして広く使用されています。
タスクに最適なプロバイダーとモデルを選択してください—高速で本番環境向けの文字起こしDeepgram、高精度の多言語対応Whisper、または高度な理解と言語カバレッジElevenLabsなど。
- **[Deepgram](https://deepgram.com/)** (Deepgram Inc.):
サンフランシスコを拠点とするDeepgramは、開発者や企業向けにスケーラブルな本番環境グレードの音声認識APIを提供しています。Deepgramのモデルには`nova-3`、`nova-2`、`whisper-large`が含まれ、業界をリードする精度、多言語サポート、自動句読点、インテリジェントな話者分離、通話分析、電話から媒体制作まで幅広いユースケース向けの機能を備えたリアルタイムおよびバッチ文字起こしを提供しています。
- **[ElevenLabs](https://elevenlabs.io/)** (ElevenLabs):
音声AIのリーダーであるElevenLabsは、特にプレミアム音声合成と認識で知られています。そのSTT製品は、多数の言語、方言、アクセントの高精度で自然な理解を提供します。最近のElevenLabs STTモデルは、明瞭さ、話者の区別に最適化されており、創造的なシナリオとアクセシビリティの両方に適しています。ElevenLabsはAI駆動の音声技術における最先端の進歩で認められています。
- **[AssemblyAI](https://www.assemblyai.com/)** (AssemblyAI Inc.):
AssemblyAIは、API駆動の高精度音声認識を提供し、文字起こしに加えて自動チャプタリング、トピック検出、要約、感情分析、コンテンツモデレーションなどの機能を備えています。著名な`Conformer-2`を含む独自のモデルは、業界最大のメディア、コールセンター、コンプライアンスアプリケーションの一部を支えています。AssemblyAIは世界中のフォーチュン500企業や主要AIスタートアップから信頼されています。
- **[Google Cloud Speech-to-Text](https://cloud.google.com/speech-to-text)** (Google Cloud):
Googleのエンタープライズグレードのスピーチ・トゥ・テキストAPIは、125以上の言語とバリアントをサポートし、高精度と、リアルタイムストリーミング、単語レベルの信頼度、話者ダイアライゼーション、自動句読点、カスタム語彙、ドメイン固有のチューニングなどの機能を提供しています。`latest_long`、`video`、およびドメイン最適化モデルなどが利用可能で、Googleの長年の研究に支えられ、グローバルな拡張性のために展開されています。
- **[AWS Transcribe](https://aws.amazon.com/transcribe/)** (Amazon Web Services):
AWS TranscribeはAmazonのクラウドインフラストラクチャを活用して、堅牢な音声認識をAPIとして提供します。複数の言語をサポートし、話者識別、カスタム語彙、チャネル識別コールセンターオーディオ用、医療特化型文字起こしなどの機能を備えています。人気のモデルには`standard`やドメイン固有のバリエーションがあります。AWS TranscribeはすでにAmazonのクラウドを使用している組織に最適です。
**選び方:**
あなたのアプリケーションに合ったプロバイダーとモデルを選択しましょう—高速でエンタープライズ対応の文字起こしと追加分析機能が必要な場合Deepgram、AssemblyAI、Google、AWS、高い汎用性とオープンソースアクセスが必要な場合OpenAI Whisper、または高度な話者/コンテキスト理解が必要な場合ElevenLabs。価格、言語カバレッジ、精度、および必要な特別機能要約、チャプタリング、感情分析などを考慮してください。
機能、価格、特徴のハイライト、および微調整オプションの詳細については、上記のリンクから各プロバイダーの公式ドキュメントを参照してください。
{/* MANUAL-CONTENT-END */}
## 使用方法
主要なAIプロバイダーを使用して音声ファイルや動画ファイルをテキストに変換します。複数の言語、タイムスタンプ、および話者分離をサポートしています。
主要なAIプロバイダーを使用して音声およびビデオファイルをテキストに文字起こしします。複数の言語、タイムスタンプ、および話者ダイアライゼーションをサポートしています。
## ツール
### `stt_whisper`
OpenAI Whisperを使用して音声をテキストに変換
OpenAI Whisperを使用して音声をテキストに文字起こし
#### 入力
@@ -39,22 +56,23 @@ OpenAI Whisperを使用して音声をテキストに変換
| `provider` | string | はい | STTプロバイダーwhisper |
| `apiKey` | string | はい | OpenAI APIキー |
| `model` | string | いいえ | 使用するWhisperモデルデフォルトwhisper-1 |
| `audioFile` | file | いいえ | 文字起こしする音声または動画ファイル |
| `audioFileReference` | file | いいえ | 前のブロックからの音声/動画ファイルの参照 |
| `audioUrl` | string | いいえ | 音声または動画ファイルのURL |
| `audioFile` | file | いいえ | 文字起こしする音声またはビデオファイル |
| `audioFileReference` | file | いいえ | 前のブロックからの音声/ビデオファイルの参照 |
| `audioUrl` | string | いいえ | 音声またはビデオファイルのURL |
| `language` | string | いいえ | 言語コード(例:"en"、"es"、"fr")または自動検出の場合は"auto" |
| `timestamps` | string | いいえ | タイムスタンプの粒度none、sentence、またはword |
| `translateToEnglish` | boolean | いいえ | 音声を英語に翻訳 |
| `prompt` | string | いいえ | モデルのスタイルを導いたり、前の音声セグメントを継続したりするためのオプションテキスト。固有名詞やコンテキストの理解に役立ちます。 |
| `temperature` | number | いいえ | 0から1の間のサンプリング温度。値が高いほど出力はよりランダムに、値が低いほどより集中的で決定論的になります。 |
#### 出力
| パラメータ | 型 | 説明 |
| --------- | ---- | ----------- |
| `transcript` | string | 完全な文字起こしテキスト |
| `transcript` | string | 文字起こしされた全テキスト |
| `segments` | array | タイムスタンプ付きセグメント |
| `language` | string | 検出または指定された言語 |
| `duration` | number | 音声の長さ(秒) |
| `confidence` | number | 全体的な信頼度スコア |
### `stt_deepgram`
@@ -78,7 +96,7 @@ Deepgramを使用して音声をテキストに文字起こし
| パラメータ | 型 | 説明 |
| --------- | ---- | ----------- |
| `transcript` | string | 完全な文字起こしテキスト |
| `transcript` | string | 文字起こしされた全テキスト |
| `segments` | array | 話者ラベル付きのタイムスタンプセグメント |
| `language` | string | 検出または指定された言語 |
| `duration` | number | 音声の長さ(秒) |
@@ -86,7 +104,7 @@ Deepgramを使用して音声をテキストに文字起こし
### `stt_elevenlabs`
ElevenLabsを使用して音声をテキストに変換する
ElevenLabsを使用して音声をテキストに文字起こし
#### 入力
@@ -111,6 +129,68 @@ ElevenLabsを使用して音声をテキストに変換する
| `duration` | number | 音声の長さ(秒) |
| `confidence` | number | 全体的な信頼度スコア |
### `stt_assemblyai`
高度なNLP機能を備えたAssemblyAIを使用して音声をテキストに文字起こし
#### 入力
| パラメータ | 型 | 必須 | 説明 |
| --------- | ---- | -------- | ----------- |
| `provider` | string | はい | STTプロバイダーassemblyai |
| `apiKey` | string | はい | AssemblyAI APIキー |
| `model` | string | いいえ | 使用するAssemblyAIモデルデフォルトbest |
| `audioFile` | file | いいえ | 文字起こしする音声またはビデオファイル |
| `audioFileReference` | file | いいえ | 前のブロックからの音声/ビデオファイルの参照 |
| `audioUrl` | string | いいえ | 音声またはビデオファイルのURL |
| `language` | string | いいえ | 言語コード(例:"en"、"es"、"fr")または自動検出の場合は"auto" |
| `timestamps` | string | いいえ | タイムスタンプの粒度none、sentence、またはword |
| `diarization` | boolean | いいえ | 話者分離を有効にする |
| `sentiment` | boolean | いいえ | 感情分析を有効にする |
| `entityDetection` | boolean | いいえ | エンティティ検出を有効にする |
| `piiRedaction` | boolean | いいえ | PII編集を有効にする |
| `summarization` | boolean | いいえ | 自動要約を有効にする |
#### 出力
| パラメータ | 型 | 説明 |
| --------- | ---- | ----------- |
| `transcript` | string | 完全な文字起こしテキスト |
| `segments` | array | 話者ラベル付きのタイムスタンプセグメント |
| `language` | string | 検出または指定された言語 |
| `duration` | number | 音声の長さ(秒) |
| `confidence` | number | 全体的な信頼度スコア |
| `sentiment` | array | 感情分析結果 |
| `entities` | array | 検出されたエンティティ |
| `summary` | string | 自動生成された要約 |
### `stt_gemini`
マルチモーダル機能を持つGoogle Geminiを使用して音声をテキストに変換する
#### 入力
| パラメータ | 型 | 必須 | 説明 |
| --------- | ---- | -------- | ----------- |
| `provider` | string | はい | STTプロバイダーgemini |
| `apiKey` | string | はい | Google APIキー |
| `model` | string | いいえ | 使用するGeminiモデルデフォルトgemini-2.5-flash |
| `audioFile` | file | いいえ | 文字起こしする音声またはビデオファイル |
| `audioFileReference` | file | いいえ | 前のブロックからの音声/ビデオファイルの参照 |
| `audioUrl` | string | いいえ | 音声またはビデオファイルのURL |
| `language` | string | いいえ | 言語コード(例:"en"、"es"、"fr")または自動検出の場合は"auto" |
| `timestamps` | string | いいえ | タイムスタンプの粒度none、sentence、またはword |
#### 出力
| パラメータ | 型 | 説明 |
| --------- | ---- | ----------- |
| `transcript` | string | 完全な文字起こしテキスト |
| `segments` | array | タイムスタンプ付きセグメント |
| `language` | string | 検出または指定された言語 |
| `duration` | number | 音声の長さ(秒) |
| `confidence` | number | 全体的な信頼度スコア |
## 注意事項
- カテゴリー: `tools`

View File

@@ -0,0 +1,256 @@
---
title: テキスト読み上げ
description: AIボイスを使用してテキストを音声に変換
---
import { BlockInfoCard } from "@/components/ui/block-info-card"
<BlockInfoCard
type="tts"
color="#181C1E"
/>
{/* MANUAL-CONTENT-START:intro */}
最新のAIボイスを使用してテキストを自然な音声に変換します。SimのText-to-SpeechTTSツールは、数十の言語で書かれたテキストから音声を生成でき、表現力豊かな声、フォーマット、速度、スタイル、感情などの高度なコントロールを選択できます。
**対応プロバイダーとモデル:**
- **[OpenAI Text-to-Speech](https://platform.openai.com/docs/guides/text-to-speech/voice-options)** (OpenAI):
OpenAIのTTS APIは、`tts-1`、`tts-1-hd`、`gpt-4o-mini-tts`などの高度なAIモデルを使用した超リアルな音声を提供します。男性と女性の両方の声があり、alloy、echo、fable、onyx、nova、shimmer、ash、ballad、coral、sage、verseなどのオプションがあります。複数の音声フォーマットmp3、opus、aac、flac、wav、pcm、調整可能な速度、ストリーミング合成をサポートしています。
- **[Deepgram Aura](https://deepgram.com/products/text-to-speech)** (Deepgram Inc.):
DeepgramのAuraは、会話の明瞭さ、低遅延、カスタマイズに最適化された、表現力豊かな英語と多言語AIボイスを提供します。`aura-asteria-en`、`aura-luna-en`などのモデルが利用可能です。複数のエンコーディング形式linear16、mp3、opus、aac、flacと速度、サンプルレート、スタイルの微調整をサポートしています。
- **[ElevenLabs Text-to-Speech](https://elevenlabs.io/text-to-speech)** (ElevenLabs):
ElevenLabsは、29以上の言語で数十の声を提供し、カスタム音声のクローンを作成する能力を持つ、リアルで感情豊かなTTSをリードしています。モデルは音声デザイン、音声合成、直接APIアクセスをサポートし、スタイル、感情、安定性、類似性の高度なコントロールを備えています。オーディオブック、コンテンツ作成、アクセシビリティなどに適しています。
- **[Cartesia TTS](https://docs.cartesia.ai/)** (Cartesia):
Cartesiaは、プライバシーと柔軟な展開に焦点を当てた、高品質で高速かつ安全なテキスト読み上げを提供します。即時ストリーミング、リアルタイム合成を提供し、シンプルなAPIを通じてアクセス可能な複数の国際的な声とアクセントをサポートしています。
- **[Google Cloud Text-to-Speech](https://cloud.google.com/text-to-speech)** (Google Cloud):
GoogleはDeepMind WaveNetとNeural2モデルを使用して、50以上の言語とバリアントで高忠実度の音声を提供しています。機能には、音声選択、ピッチ、発話速度、音量調整、SSMLタグ、標準音声とスタジオグレードのプレミアム音声へのアクセスが含まれます。アクセシビリティ、IVR、メディアで広く使用されています。
- **[Microsoft Azure Speech](https://azure.microsoft.com/en-us/products/ai-services/text-to-speech)** (Microsoft Azure):
Azureは140以上の言語とロケールにわたって400以上のニューラル音声を提供し、独自の音声カスタマイズ、スタイル、感情、役割、リアルタイム制御が可能です。発音、イントネーションなどのSSMLサポートを提供します。グローバル、エンタープライズ、またはクリエイティブなTTSニーズに最適です。
- **[PlayHT](https://play.ht/)** (PlayHT):
PlayHTは、100以上の言語で800以上の音声を使用したリアルな音声合成、音声クローニング、インスタントストリーミング再生を専門としています。機能には、感情、ピッチと速度の制御、マルチボイスオーディオ、APIまたはオンラインスタジオを通じたカスタム音声作成が含まれます。
**選び方:**
言語、サポートされている音声タイプ、希望するフォーマットmp3、wavなど、制御の粒度速度、感情など、特殊機能音声クローニング、アクセント、ストリーミングを優先して、プロバイダーとモデルを選択してください。クリエイティブ、アクセシビリティ、または開発者のユースケースでは、アプリケーションの要件との互換性を確保し、コストを比較してください。
最新の機能、価格、ドキュメントの詳細については、各プロバイダーの公式サイトをご覧ください!
{/* MANUAL-CONTENT-END */}
## 使用方法
OpenAI、Deepgram、ElevenLabs、Cartesia、Google Cloud、Azure、PlayHTの最先端AI音声を使用して、テキストから自然な音声を生成します。複数の音声、言語、オーディオフォーマットをサポートしています。
## ツール
### `tts_openai`
OpenAI TTSモデルを使用してテキストを音声に変換
#### 入力
| パラメータ | タイプ | 必須 | 説明 |
| --------- | ---- | -------- | ----------- |
| `text` | string | はい | 音声に変換するテキスト |
| `apiKey` | string | はい | OpenAI APIキー |
| `model` | string | いいえ | 使用するTTSモデルtts-1、tts-1-hd、またはgpt-4o-mini-tts |
| `voice` | string | いいえ | 使用する音声alloy、ash、ballad、cedar、coral、echo、marin、sage、shimmer、verse |
| `responseFormat` | string | いいえ | オーディオフォーマットmp3、opus、aac、flac、wav、pcm |
| `speed` | number | いいえ | 発話速度0.25から4.0、デフォルト1.0 |
#### 出力
| パラメータ | 型 | 説明 |
| --------- | ---- | ----------- |
| `audioUrl` | string | 生成された音声ファイルのURL |
| `audioFile` | file | 生成された音声ファイルオブジェクト |
| `duration` | number | 音声の長さ(秒) |
| `characterCount` | number | 処理された文字数 |
| `format` | string | 音声フォーマット |
| `provider` | string | 使用されたTTSプロバイダー |
### `tts_deepgram`
Deepgram Auraを使用してテキストを音声に変換する
#### 入力
| パラメータ | 型 | 必須 | 説明 |
| --------- | ---- | -------- | ----------- |
| `text` | string | はい | 音声に変換するテキスト |
| `apiKey` | string | はい | Deepgram APIキー |
| `model` | string | いいえ | Deepgramモデル/音声aura-asteria-en、aura-luna-en |
| `voice` | string | いいえ | 音声識別子modelパラメータの代替 |
| `encoding` | string | いいえ | 音声エンコーディングlinear16、mp3、opus、aac、flac |
| `sampleRate` | number | いいえ | サンプルレート8000、16000、24000、48000 |
| `bitRate` | number | いいえ | 圧縮フォーマットのビットレート |
| `container` | string | いいえ | コンテナフォーマットnone、wav、ogg |
#### 出力
| パラメータ | 型 | 説明 |
| --------- | ---- | ----------- |
| `audioUrl` | string | 生成された音声ファイルのURL |
| `audioFile` | file | 生成された音声ファイルオブジェクト |
| `duration` | number | 音声の長さ(秒) |
| `characterCount` | number | 処理された文字数 |
| `format` | string | 音声フォーマット |
| `provider` | string | 使用されたTTSプロバイダー |
### `tts_elevenlabs`
ElevenLabsの音声を使用してテキストを音声に変換する
#### 入力
| パラメータ | 型 | 必須 | 説明 |
| --------- | ---- | -------- | ----------- |
| `text` | string | はい | 音声に変換するテキスト |
| `voiceId` | string | はい | 使用する音声のID |
| `apiKey` | string | はい | ElevenLabs APIキー |
| `modelId` | string | いいえ | 使用するモデルeleven_monolingual_v1、eleven_turbo_v2_5、eleven_flash_v2_5 |
| `stability` | number | いいえ | 音声の安定性0.0から1.0、デフォルト0.5 |
| `similarityBoost` | number | いいえ | 類似性ブースト0.0から1.0、デフォルト0.8 |
| `style` | number | いいえ | スタイル誇張0.0から1.0 |
| `useSpeakerBoost` | boolean | いいえ | スピーカーブーストを使用デフォルトtrue |
#### 出力
| パラメータ | 型 | 説明 |
| --------- | ---- | ----------- |
| `audioUrl` | string | 生成された音声ファイルのURL |
| `audioFile` | file | 生成された音声ファイルオブジェクト |
| `duration` | number | 音声の長さ(秒) |
| `characterCount` | number | 処理された文字数 |
| `format` | string | 音声フォーマット |
| `provider` | string | 使用されたTTSプロバイダー |
### `tts_cartesia`
Cartesia Sonic超低遅延を使用してテキストを音声に変換する
#### 入力
| パラメータ | 型 | 必須 | 説明 |
| --------- | ---- | -------- | ----------- |
| `text` | string | はい | 音声に変換するテキスト |
| `apiKey` | string | はい | Cartesia APIキー |
| `modelId` | string | いいえ | モデルIDsonic-english、sonic-multilingual |
| `voice` | string | いいえ | 音声IDまたは埋め込み |
| `language` | string | いいえ | 言語コードen、es、fr、de、it、ptなど |
| `outputFormat` | json | いいえ | 出力フォーマット設定(コンテナ、エンコーディング、サンプルレート) |
| `speed` | number | いいえ | 速度乗数 |
| `emotion` | array | いいえ | Sonic-3用の感情タグ['positivity:high'] |
#### 出力
| パラメータ | 型 | 説明 |
| --------- | ---- | ----------- |
| `audioUrl` | string | 生成された音声ファイルのURL |
| `audioFile` | file | 生成された音声ファイルオブジェクト |
| `duration` | number | 音声の長さ(秒) |
| `characterCount` | number | 処理された文字数 |
| `format` | string | 音声フォーマット |
| `provider` | string | 使用されたTTSプロバイダー |
### `tts_google`
Google Cloud Text-to-Speechを使用してテキストを音声に変換
#### 入力
| パラメータ | 型 | 必須 | 説明 |
| --------- | ---- | -------- | ----------- |
| `text` | string | はい | 音声に変換するテキスト |
| `apiKey` | string | はい | Google Cloud APIキー |
| `voiceId` | string | いいえ | 音声IDen-US-Neural2-A、en-US-Wavenet-D |
| `languageCode` | string | はい | 言語コードen-US、es-ES、fr-FR |
| `gender` | string | いいえ | 音声の性別MALE、FEMALE、NEUTRAL |
| `audioEncoding` | string | いいえ | 音声エンコーディングLINEAR16、MP3、OGG_OPUS、MULAW、ALAW |
| `speakingRate` | number | いいえ | 発話速度0.252.0、デフォルト1.0 |
| `pitch` | number | いいえ | 音声のピッチ(-20.020.0、デフォルト0.0 |
| `volumeGainDb` | number | いいえ | 音量ゲインdB-96.016.0 |
| `sampleRateHertz` | number | いいえ | サンプルレートHz |
| `effectsProfileId` | array | いいえ | エフェクトプロファイル(例:\['headphone-class-device'\] |
#### 出力
| パラメータ | 型 | 説明 |
| --------- | ---- | ----------- |
| `audioUrl` | string | 生成された音声ファイルのURL |
| `audioFile` | file | 生成された音声ファイルオブジェクト |
| `duration` | number | 音声の長さ(秒) |
| `characterCount` | number | 処理された文字数 |
| `format` | string | 音声フォーマット |
| `provider` | string | 使用されたTTSプロバイダー |
### `tts_azure`
Azure Cognitive Servicesを使用してテキストを音声に変換
#### 入力
| パラメータ | 型 | 必須 | 説明 |
| --------- | ---- | -------- | ----------- |
| `text` | string | はい | 音声に変換するテキスト |
| `apiKey` | string | はい | Azure Speech Services APIキー |
| `voiceId` | string | いいえ | 音声IDen-US-JennyNeural、en-US-GuyNeural |
| `region` | string | いいえ | Azureリージョンeastus、westus、westeurope |
| `outputFormat` | string | いいえ | 出力音声フォーマット |
| `rate` | string | いいえ | 話速(例:+10%、-20%、1.5 |
| `pitch` | string | いいえ | 音声のピッチ(例:+5Hz、-2st、low |
| `style` | string | いいえ | 話し方のスタイルcheerful、sad、angry - ニューラル音声のみ) |
| `styleDegree` | number | いいえ | スタイル強度0.01〜2.0 |
| `role` | string | いいえ | 役割Girl、Boy、YoungAdultFemale |
#### 出力
| パラメータ | 型 | 説明 |
| --------- | ---- | ----------- |
| `audioUrl` | string | 生成された音声ファイルのURL |
| `audioFile` | file | 生成された音声ファイルオブジェクト |
| `duration` | number | 音声の長さ(秒) |
| `characterCount` | number | 処理された文字数 |
| `format` | string | 音声フォーマット |
| `provider` | string | 使用されたTTSプロバイダー |
### `tts_playht`
PlayHT音声クローニングを使用してテキストを音声に変換
#### 入力
| パラメータ | 型 | 必須 | 説明 |
| --------- | ---- | -------- | ----------- |
| `text` | string | はい | 音声に変換するテキスト |
| `apiKey` | string | はい | PlayHT APIキーAUTHORIZATIONヘッダー |
| `userId` | string | はい | PlayHT ユーザーIDX-USER-IDヘッダー |
| `voice` | string | いいえ | 音声IDまたはマニフェストURL |
| `quality` | string | いいえ | 品質レベルdraft、standard、premium |
| `outputFormat` | string | いいえ | 出力形式mp3、wav、ogg、flac、mulaw |
| `speed` | number | いいえ | 速度倍率0.5〜2.0 |
| `temperature` | number | いいえ | 創造性/ランダム性0.0〜2.0 |
| `voiceGuidance` | number | いいえ | 音声の安定性1.0〜6.0 |
| `textGuidance` | number | いいえ | テキスト忠実度1.0〜6.0 |
| `sampleRate` | number | いいえ | サンプルレート8000、16000、22050、24000、44100、48000 |
#### 出力
| パラメータ | 型 | 説明 |
| --------- | ---- | ----------- |
| `audioUrl` | string | 生成された音声ファイルのURL |
| `audioFile` | file | 生成された音声ファイルオブジェクト |
| `duration` | number | 音声の長さ(秒) |
| `characterCount` | number | 処理された文字数 |
| `format` | string | 音声フォーマット |
| `provider` | string | 使用されたTTSプロバイダー |
## メモ
- カテゴリー: `tools`
- タイプ: `tts`

View File

@@ -0,0 +1,192 @@
---
title: ビデオジェネレーター
description: AIを使用してテキストから動画を生成
---
import { BlockInfoCard } from "@/components/ui/block-info-card"
<BlockInfoCard
type="video_generator"
color="#181C1E"
/>
{/* MANUAL-CONTENT-START:intro */}
最先端のAIモデルを使用してテキストプロンプトから動画を作成します。Simのビデオジェネレーターはパワフルで創造的な動画合成機能をワークフローにもたらし、多様なモデル、アスペクト比、解像度、カメラコントロール、ネイティブオーディオ、高度なスタイルと一貫性機能をサポートします。
**対応プロバイダーとモデル:**
- **[Runway Gen-4](https://research.runwayml.com/gen2/)** (Runway ML):
Runwayはテキストから動画生成の先駆者で、Gen-2、Gen-3、Gen-4などの強力なモデルで知られています。最新の[Gen-4](https://research.runwayml.com/gen2/)モデルおよび高速処理のためのGen-4 Turboは、よりリアルな動き、優れた世界の一貫性、キャラクター、オブジェクト、スタイル、場所のビジュアルリファレンスをサポートしています。16:9、9:16、1:1のアスペクト比、510秒の動画長、最大4K解像度、スタイルプリセット、一貫した生成のための参照画像の直接アップロードに対応しています。Runwayは世界中の映画製作者、スタジオ、コンテンツクリエイターのためのクリエイティブツールを提供しています。
- **[Google Veo](https://deepmind.google/technologies/veo/)** (Google DeepMind):
[Veo](https://deepmind.google/technologies/veo/)はGoogleの次世代ビデオ生成モデルで、最大1080pおよび16秒の高品質なネイティブオーディオ動画を提供します。高度な動き、映画的効果、ニュアンスのあるテキスト理解をサポートしています。Veoは内蔵サウンドで動画を生成できます—ネイティブオーディオと無音クリップの両方に対応。オプションには16:9アスペクト、可変長の動画時間、異なるモデルveo-3、veo-3.1)、プロンプトベースのコントロールが含まれます。ストーリーテリング、広告、研究、アイデア創出に最適です。
- **[Luma Dream Machine](https://lumalabs.ai/dream-machine)** (Luma AI):
[Dream Machine](https://lumalabs.ai/dream-machine)はテキストから驚くほどリアルで流動的な動画を提供します。高度なカメラコントロール、撮影技法プロンプトを組み込み、ray-1とray-2の両モデルをサポートしています。Dream Machineは正確なアスペクト比16:9、9:16、1:1、可変長の動画時間、複雑な視覚的方向性のためのカメラパスの指定をサポートしています。Lumaは画期的な視覚的忠実度で知られ、主要なAIビジョン研究者によってサポートされています。
- **[MiniMax Hailuo-02](https://minimax.chat/)** (via [Fal.ai](https://fal.ai/)):
[MiniMax Hailuo-02](https://minimax.chat/)は高度な中国の生成ビデオモデルで、[Fal.ai](https://fal.ai/)を通じて世界中で利用可能です。横向きまたは縦向き形式で最大16秒のビデオを生成でき、明確さと創造性を向上させるためのプロンプト最適化オプションがあります。プロ版と標準版のエンドポイントが利用可能で、高解像度最大1920×1080をサポートしています。プロンプト翻訳と最適化、商業的なストーリーテリング、視覚的アイデアの迅速なプロトタイピングが必要な創造的プロジェクトに適しています。
**選び方:**
品質、速度、時間、音声、コスト、独自機能に関するニーズに基づいてプロバイダーとモデルを選択してください。RunwayとVeoは世界をリードするリアリズムと映画的な機能を提供しています。Lumaは流動的な動きとカメラコントロールに優れています。MiniMaxは中国語のプロンプトに最適で、迅速で手頃な価格のアクセスを提供します。ツールを選択する際には、リファレンスサポート、スタイルプリセット、音声要件、価格を考慮してください。
機能、制限、価格、モデルの進歩についての詳細は、上記の各プロバイダーの公式ドキュメントを参照してください。
{/* MANUAL-CONTENT-END */}
## 使用方法
主要なAIプロバイダーを使用してテキストプロンプトから高品質のビデオを生成します。複数のモデル、アスペクト比、解像度、およびワールドの一貫性、カメラコントロール、音声生成などのプロバイダー固有の機能をサポートしています。
## ツール
### `video_runway`
ワールドの一貫性と視覚的参照を使用してRunway Gen-4でビデオを生成
#### 入力
| パラメータ | 型 | 必須 | 説明 |
| --------- | ---- | -------- | ----------- |
| `provider` | string | はい | ビデオプロバイダーrunway |
| `apiKey` | string | はい | Runway APIキー |
| `model` | string | いいえ | Runwayモデルgen-4デフォルト、高品質またはgen-4-turboより速い |
| `prompt` | string | はい | 生成するビデオを説明するテキストプロンプト |
| `duration` | number | いいえ | ビデオの長さ5または10、デフォルト5 |
| `aspectRatio` | string | いいえ | アスペクト比16:9横向き、9:16縦向き、または1:1正方形 |
| `resolution` | string | いいえ | ビデオ解像度720p出力。注Gen-4 Turboはネイティブで720p出力 |
| `visualReference` | json | はい | Gen-4には参照画像が必須UserFileオブジェクト。Gen-4はイメージからビデオへの変換のみをサポートし、テキストのみの生成はサポートしていません |
#### 出力
| パラメータ | 型 | 説明 |
| --------- | ---- | ----------- |
| `videoUrl` | string | 生成された動画URL |
| `videoFile` | json | メタデータを含む動画ファイルオブジェクト |
| `duration` | number | 動画の長さ(秒) |
| `width` | number | 動画の幅(ピクセル) |
| `height` | number | 動画の高さ(ピクセル) |
| `provider` | string | 使用されたプロバイダーrunway |
| `model` | string | 使用されたモデル |
| `jobId` | string | Runwayジョブ ID |
### `video_veo`
ネイティブ音声生成機能を備えたGoogle Veo 3/3.1を使用して動画を生成する
#### 入力
| パラメータ | 型 | 必須 | 説明 |
| --------- | ---- | -------- | ----------- |
| `provider` | string | はい | 動画プロバイダーveo |
| `apiKey` | string | はい | Google Gemini APIキー |
| `model` | string | いいえ | Veoモデル: veo-3デフォルト、最高品質、veo-3-fastより速い、またはveo-3.1(最新) |
| `prompt` | string | はい | 生成する動画を説明するテキストプロンプト |
| `duration` | number | いいえ | 動画の長さ4、6、または8、デフォルト: 8 |
| `aspectRatio` | string | いいえ | アスペクト比: 16:9横向きまたは9:16縦向き |
| `resolution` | string | いいえ | 動画解像度: 720pまたは1080pデフォルト: 1080p |
#### 出力
| パラメータ | 型 | 説明 |
| --------- | ---- | ----------- |
| `videoUrl` | string | 生成された動画URL |
| `videoFile` | json | メタデータを含む動画ファイルオブジェクト |
| `duration` | number | 動画の長さ(秒) |
| `width` | number | 動画の幅(ピクセル) |
| `height` | number | 動画の高さ(ピクセル) |
| `provider` | string | 使用されたプロバイダーveo |
| `model` | string | 使用されたモデル |
| `jobId` | string | Veoジョブ ID |
### `video_luma`
高度なカメラコントロールを使用してLuma Dream Machineで動画を生成する
#### 入力
| パラメータ | 型 | 必須 | 説明 |
| --------- | ---- | -------- | ----------- |
| `provider` | string | はい | 動画プロバイダーluma |
| `apiKey` | string | はい | Luma AI APIキー |
| `model` | string | いいえ | Lumaモデル: ray-2デフォルト |
| `prompt` | string | はい | 生成する動画を説明するテキストプロンプト |
| `duration` | number | いいえ | 動画の長さ5または9、デフォルト: 5 |
| `aspectRatio` | string | いいえ | アスペクト比: 16:9横向き、9:16縦向き、または1:1正方形 |
| `resolution` | string | いいえ | 動画解像度: 540p、720p、または1080pデフォルト: 1080p |
| `cameraControl` | json | いいえ | コンセプトオブジェクトの配列としてのカメラコントロール。形式: \[\{ "key": "concept_name" \}\]。有効なキー: truck_left, truck_right, pan_left, pan_right, tilt_up, tilt_down, zoom_in, zoom_out, push_in, pull_out, orbit_left, orbit_right, crane_up, crane_down, static, handheldなど20以上の事前定義オプション |
#### 出力
| パラメータ | 型 | 説明 |
| --------- | ---- | ----------- |
| `videoUrl` | string | 生成された動画URL |
| `videoFile` | json | メタデータを含む動画ファイルオブジェクト |
| `duration` | number | 動画の長さ(秒) |
| `width` | number | 動画の幅(ピクセル) |
| `height` | number | 動画の高さ(ピクセル) |
| `provider` | string | 使用されたプロバイダーluma |
| `model` | string | 使用されたモデル |
| `jobId` | string | LumaジョブID |
### `video_minimax`
MiniMax PlatformのAPIを通じてMiniMax Hailuoを使用し、高度なリアリズムとプロンプト最適化で動画を生成
#### 入力
| パラメータ | 型 | 必須 | 説明 |
| --------- | ---- | -------- | ----------- |
| `provider` | string | はい | 動画プロバイダーminimax |
| `apiKey` | string | はい | platform.minimax.ioから取得したMiniMax APIキー |
| `model` | string | いいえ | MiniMaxモデルhailuo-02デフォルト |
| `prompt` | string | はい | 生成する動画を説明するテキストプロンプト |
| `duration` | number | いいえ | 動画の長さ6または10、デフォルト6 |
| `promptOptimizer` | boolean | いいえ | より良い結果を得るためのプロンプト最適化を有効にするデフォルトtrue |
#### 出力
| パラメータ | 型 | 説明 |
| --------- | ---- | ----------- |
| `videoUrl` | string | 生成された動画のURL |
| `videoFile` | json | メタデータを含む動画ファイルオブジェクト |
| `duration` | number | 動画の長さ(秒) |
| `width` | number | 動画の幅(ピクセル) |
| `height` | number | 動画の高さ(ピクセル) |
| `provider` | string | 使用されたプロバイダーminimax |
| `model` | string | 使用されたモデル |
| `jobId` | string | MiniMaxジョブID |
### `video_falai`
Fal.aiプラットフォームを使用して、Veo 3.1、Sora 2、Kling 2.5、MiniMax Hailuoなど複数のモデルにアクセスして動画を生成
#### 入力
| パラメータ | 型 | 必須 | 説明 |
| --------- | ---- | -------- | ----------- |
| `provider` | string | はい | 動画プロバイダーfalai |
| `apiKey` | string | はい | Fal.ai APIキー |
| `model` | string | はい | Fal.aiモデルveo-3.1Google Veo 3.1、sora-2OpenAI Sora 2、kling-2.5-turbo-proKling 2.5 Turbo Pro、kling-2.1-proKling 2.1 Master、minimax-hailuo-2.3-proMiniMax Hailuo Pro、minimax-hailuo-2.3-standardMiniMax Hailuo Standard、wan-2.1WAN T2V、ltxv-0.9.8LTXV 13B |
| `prompt` | string | はい | 生成する動画を説明するテキストプロンプト |
| `duration` | number | いいえ | 動画の長さ(秒)(モデルによって異なる) |
| `aspectRatio` | string | いいえ | アスペクト比モデルによって異なる16:9、9:16、1:1 |
| `resolution` | string | いいえ | 動画解像度モデルによって異なる540p、720p、1080p |
| `promptOptimizer` | boolean | いいえ | MiniMaxモデル用のプロンプト最適化を有効にするデフォルトtrue |
#### 出力
| パラメータ | 型 | 説明 |
| --------- | ---- | ----------- |
| `videoUrl` | string | 生成された動画URL |
| `videoFile` | json | メタデータを含む動画ファイルオブジェクト |
| `duration` | number | 動画の長さ(秒) |
| `width` | number | 動画の幅(ピクセル) |
| `height` | number | 動画の高さ(ピクセル) |
| `provider` | string | 使用されたプロバイダーfalai |
| `model` | string | 使用されたモデル |
| `jobId` | string | ジョブID |
## 注意事項
- カテゴリー: `tools`
- タイプ: `video_generator`

View File

@@ -4,19 +4,30 @@ description: トリガーはSimワークフローを開始するための基本
---
import { Card, Cards } from 'fumadocs-ui/components/card'
import { Image } from '@/components/ui/image'
## 主要なトリガー
<div className="flex justify-center">
<Image
src="/static/blocks/triggers.png"
alt="トリガーの概要"
width={500}
height={350}
className="my-6"
/>
</div>
エディタから始まるすべてのもの、APIへのデプロイ、またはチャットへのデプロイエクスペリエンスにはStartブロックを使用してください。イベント駆動型ワークフローには他のトリガーも引き続き利用可能です
## コアトリガー
エディタ、APIへのデプロイ、またはチャットへのデプロイエクスペリエンスから始まるすべてのものにはスタートブロックを使用します。イベント駆動型ワークフローには他のトリガーも利用可能です
<Cards>
<Card title="Start" href="/triggers/start">
<Card title="スタート" href="/triggers/start">
エディタ実行、APIデプロイメント、チャットデプロイメントをサポートする統合エントリーポイント
</Card>
<Card title="Webhook" href="/triggers/webhook">
外部のWebhookペイロードを受信
<Card title="ウェブフック" href="/triggers/webhook">
外部ウェブフックペイロードを受信
</Card>
<Card title="Schedule" href="/triggers/schedule">
<Card title="スケジュール" href="/triggers/schedule">
Cronまたは間隔ベースの実行
</Card>
</Cards>
@@ -25,15 +36,15 @@ import { Card, Cards } from 'fumadocs-ui/components/card'
| トリガー | 開始条件 |
|---------|-----------------|
| **スタート** | エディターの実行、APIへのデプロイリクエスト、またはチャットメッセージ |
| **スタート** | エディタ実行、APIへのデプロイリクエスト、またはチャットメッセージ |
| **スケジュール** | スケジュールブロックで管理されるタイマー |
| **Webhook** | 受信HTTPリクエスト時 |
| **ウェブフック** | 受信HTTPリクエスト時 |
> Startブロックは常に `input`、`conversationId`、および `files` フィールドを公開します。追加の構造化データには入力フォーマットにカスタムフィールドを追加してください。
> スタートブロックは常に `input`、`conversationId`、および `files` フィールドを公開します。追加の構造化データには入力フォーマットにカスタムフィールドを追加してください。
## トリガーの使用方法
1. Startブロックを開始スロットに配置しますまたはWebhook/Scheduleなどの代替トリガーを使用)。
1. スタートスロットにスタートブロックを配置します(またはウェブフック/スケジュールなどの代替トリガーを使用)。
2. 必要なスキーマまたは認証を設定します。
3. ブロックをワークフローの残りの部分に接続します。
@@ -41,12 +52,12 @@ import { Card, Cards } from 'fumadocs-ui/components/card'
## 手動実行の優先順位
エディタで**実行**をクリックすると、Simは以下の優先順位に基づいて自動的に実行するトリガーを選択します:
エディタで**実行**をクリックすると、Simは以下の優先順位に基づいて実行するトリガーを自動的に選択します:
1. **スタートブロック**(最高優先度)
2. **スケジュールトリガー**
3. **外部トリガー**ウェブフック、Slack、Gmail、Airtableなどの連携
3. **外部トリガー**ウェブフック、Slack、Gmail、Airtableなどの統合
ワークフローに複数のトリガーがある場合、最も優先度の高いトリガーが実行されます。例えば、スタートブロックとウェブフックトリガーの両方がある場合、実行をクリックするとスタートブロックが実行されます。
**モックペイロードを持つ外部トリガー**外部トリガーウェブフックと連携が手動で実行される場合、Simはトリガーの予想されるデータ構造に基づいて自動的にモックペイロードを生成します。これにより、テスト中に下流のブロックが変数を正しく解決できるようになります。
**モックペイロードを持つ外部トリガー**: 外部トリガーウェブフックと連携が手動で実行される場合、Simはトリガーの予想されるデータ構造に基づいてモックペイロードを自動生成します。これにより、テスト中に下流のブロックが変数を正しく解決できるようになります。

View File

@@ -5,6 +5,7 @@ title: 人工干预
import { Callout } from 'fumadocs-ui/components/callout'
import { Tab, Tabs } from 'fumadocs-ui/components/tabs'
import { Image } from '@/components/ui/image'
import { Video } from '@/components/ui/video'
“人工干预”模块会暂停工作流的执行,等待人工干预后再继续。可用于添加审批关卡、收集反馈或在关键决策点获取额外输入。
@@ -76,7 +77,7 @@ import { Image } from '@/components/ui/image'
}
```
在下游模块中使用 `<blockId.resumeInput.fieldName>` 访问恢复数据。
在下游模块中使用 `<blockId.resumeInput.fieldName>` 访问简历数据。
## 审批方法
@@ -174,8 +175,14 @@ Agent (Generate) → Human in the Loop (QA) → Gmail (Send)
<approval1.resumeInput.approved> === true
```
下面的示例展示了一个审批门户,显示了工作流暂停后审批者的视图。审批者可以审查数据并提供输入,作为工作流恢复的一部分。审批门户可以通过唯一的 URL `<blockId.url>` 直接访问。
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="hitl-resume.mp4" width={700} height={450} />
</div>
## 相关模块
- **[条件](/blocks/condition)** - 根据审批决策进行分支
- **[变量](/blocks/variables)** - 存储审批历史和元数据
- **[响应](/blocks/response)** - 将工作流结果返回给 API 调用
- **[Condition](/blocks/condition)** - 基于审批决策进行分支
- **[Variables](/blocks/variables)** - 存储审批历史和元数据
- **[Response](/blocks/response)** - 将工作流结果返回给 API 调用

View File

@@ -4,6 +4,7 @@ title: 基础
import { Callout } from 'fumadocs-ui/components/callout'
import { Step, Steps } from 'fumadocs-ui/components/steps'
import { Video } from '@/components/ui/video'
## 连接如何工作
@@ -27,15 +28,19 @@ import { Step, Steps } from 'fumadocs-ui/components/steps'
</Step>
</Steps>
### 连接流动
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="connections-build.mp4" width={700} height={450} />
</div>
数据通过连接流动遵循以下原则:
### 连接流程
1. **定向流动**:数据始终从输出流向输入
2. **执行顺序**:模块根据其连接的顺序执行
3. **数据转换**:数据在模块之间传递时可能会被转换
4. **条件路径**:某些模块(如路由器和条件模块)可以将流动引导到不同的路径
通过连接的数据流遵循以下原则:
1. **方向性流动**:数据始终从输出流向输入
2. **执行顺序**:块根据其连接的顺序执行
3. **数据转换**:数据在块之间传递时可能会被转换
4. **条件路径**:某些块(如路由器和条件块)可以将流引导到不同的路径
<Callout type="warning">
删除连接将立即停止块之间的数据流。在删除连接之前,请确保这是您想要的操作。
删除连接将立即停止块之间的数据流。在删除连接之前,请确保这是您想要的操作。
</Callout>

View File

@@ -71,6 +71,16 @@ Copilot 是您编辑器中的助手,可帮助您使用 Sim Copilot 构建和
</Card>
</Cards>
<div className="flex justify-center">
<Image
src="/static/copilot/copilot-mode.png"
alt="Copilot 模式选择界面"
width={600}
height={400}
className="my-6"
/>
</div>
## 深度级别
<Cards>
@@ -82,13 +92,13 @@ Copilot 是您编辑器中的助手,可帮助您使用 Sim Copilot 构建和
</span>
}
>
<div className="m-0 text-sm">最快且最便宜。适小型编辑、简单工作流程和小调整。</div>
<div className="m-0 text-sm">最快且最便宜。适用于小型编辑、简单工作流程和小调整。</div>
</Card>
<Card
title={
<span className="inline-flex items-center gap-2">
<InfinityIcon className="h-4 w-4 text-muted-foreground" />
Auto
自动
</span>
}
>
@@ -102,7 +112,7 @@ Copilot 是您编辑器中的助手,可帮助您使用 Sim Copilot 构建和
</span>
}
>
<div className="m-0 text-sm">适用于更大的工作流程和复杂编辑的更多推理,同时保持高性能。</div>
<div className="m-0 text-sm">适用于更大的工作流程和复杂编辑,同时保持高性能。</div>
</Card>
<Card
title={
@@ -112,7 +122,7 @@ Copilot 是您编辑器中的助手,可帮助您使用 Sim Copilot 构建和
</span>
}
>
<div className="m-0 text-sm">提供深度规划、调试和复杂架构更改的最大推理能力。</div>
<div className="m-0 text-sm">提供最大推理能力,用于深度规划、调试和复杂架构更改。</div>
</Card>
</Cards>
@@ -122,17 +132,17 @@ Copilot 是您编辑器中的助手,可帮助您使用 Sim Copilot 构建和
<Image
src="/static/copilot/copilot-models.png"
alt="Copilot 模式选择界面显示高级模式和 MAX 切换按钮"
alt="Copilot 模式选择界面显示高级模式和 MAX 切换选项"
width={600}
height={300}
/>
该界面允许您:
- **选择推理级别**:从快速、Auto、高级或巨兽中选择
- **启用 MAX 模式**在需要最全面分析时切换到最大推理能力
- **选择推理级别**:从快速、自动、高级或巨兽中选择
- **启用 MAX 模式**:切换到最大推理能力,以便在需要最全面分析时使用
- **查看模式描述**:了解每种模式的优化用途
根据任务的复杂性选择您的模式——简单问题使用快速模式,复杂架构更改使用巨兽模式。
根据任务的复杂性选择您的模式——对于简单问题使用快速模式,对于复杂架构更改使用巨兽模式。
## 计费与成本计算
@@ -140,22 +150,22 @@ Copilot 是您编辑器中的助手,可帮助您使用 Sim Copilot 构建和
Copilot 的使用按底层 LLM 的每个 token 计费:
- **输入 token**:按提供商的基础费率计费(**成本**
- **输出 token**:按提供商基础输出费率的 **1.5 倍** 计费
- **输入标记**:按提供商的基础费率计费(**成本**
- **输出标记**:按提供商基础输出费率的 **1.5 倍** 计费
```javascript
copilotCost = (inputTokens × inputPrice + outputTokens × (outputPrice × 1.5)) / 1,000,000
```
| 组件 | 应用费率 |
|----------|----------------------|
| 组件 | 应用费率 |
|------------|----------------------|
| 输入 | inputPrice |
| 输出 | outputPrice × 1.5 |
<Callout type="warning">
此处显示的价反映截至 2025 年 9 月 4 日的费率。请查阅提供商文档以获取最新定价
显示的价反映截至 2025 年 9 月 4 日的费率。请查阅提供商文档以获取当前价格
</Callout>
<Callout type="info">
模型价格以每百万个 token 为单位计算。计算公式将价格除以 1,000,000 以得实际成本。请参阅<a href="/execution/costs">成本计算页面</a>了解背景信息和示例。
模型价格以每百万标记为单位。计算公式将除以 1,000,000 以得实际成本。请参阅<a href="/execution/costs">成本计算页面</a>了解背景和示例。
</Callout>

View File

@@ -5,6 +5,7 @@ title: 简介
import { Card, Cards } from 'fumadocs-ui/components/card'
import { Callout } from 'fumadocs-ui/components/callout'
import { Image } from '@/components/ui/image'
import { Video } from '@/components/ui/video'
Sim 是一个开源的可视化工作流构建器,用于构建和部署 AI 代理工作流。通过无代码界面设计智能自动化系统——通过直观的拖放画布连接 AI 模型、数据库、API 和业务工具。无论是构建聊天机器人、自动化业务流程还是协调复杂的数据管道Sim 都提供了将 AI 工作流变为现实的工具。
@@ -32,6 +33,10 @@ Sim 是一个开源的可视化工作流构建器,用于构建和部署 AI 代
**API 集成工作流**
协调复杂的多服务交互。创建统一的 API 端点,实施复杂的业务逻辑,并构建事件驱动的自动化系统。
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="introduction/chat-workflow.mp4" width={700} height={450} />
</div>
## 工作原理
**可视化工作流编辑器**
@@ -44,41 +49,66 @@ Sim 是一个开源的可视化工作流构建器,用于构建和部署 AI 代
通过多种渠道启动工作流包括聊天界面、REST API、webhook、计划的 cron 作业或来自 Slack 和 GitHub 等平台的外部事件。
**实时协作**
让您的团队共同构建。多用户可以同时编辑工作流,支持实时更新和细粒度的权限控制。
让您的团队共同构建。多用户可以同时编辑工作流,支持实时更新和细粒度的权限控制。
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="introduction/build-workflow.mp4" width={700} height={450} />
</div>
## 集成
Sim 提供了跨多个类别的 80 多种服务的原生集成:
- **AI 模型**OpenAI、Anthropic、Google Gemini、Groq、Cerebras、通过 Ollama 的本地模型
- **AI 模型**OpenAI、Anthropic、Google Gemini、Groq、Cerebras、本地模型(通过 Ollama
- **通信**Gmail、Slack、Microsoft Teams、Telegram、WhatsApp
- **生产力**Notion、Google Workspace、Airtable、Monday.com
- **开发**GitHub、Jira、Linear、自动化浏览器测试
- **搜索与数据**Google 搜索、Perplexity、Firecrawl、Exa AI
- **搜索与数据**Google Search、Perplexity、Firecrawl、Exa AI
- **数据库**PostgreSQL、MySQL、Supabase、Pinecone、Qdrant
对于自定义集成,可以利用我们的 [MCP模型上下文协议支持](/mcp) 来连接任何外部服务或工具。
对于自定义集成,利用我们的 [MCP模型上下文协议支持](/mcp) 来连接任何外部服务或工具。
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="introduction/integrations-sidebar.mp4" width={700} height={450} />
</div>
## AI 驱动的 Copilot
**提问并获取指导**
Copilot 回答关于 Sim 的问题,解释您的工作流程,并提供改进建议。使用 `@` 符号引用工作流程、模块、文档、知识和日志,以获得上下文帮助。
**构建和编辑工作流程**
切换到代理模式,让 Copilot 直接在您的画布上提出并应用更改。通过自然语言命令添加模块、配置设置、连接变量并重组工作流程。
**自适应推理级别**
根据任务复杂性选择快速、自动、高级或巨兽模式。对于简单问题,从快速模式开始;对于复杂的架构更改和深度调试,升级到巨兽模式。
了解更多关于 [Copilot 功能](/copilot) 的信息,以及如何通过 AI 辅助最大化生产力。
<div className="mx-auto w-full overflow-hidden rounded-lg my-6">
<Video src="introduction/copilot-workflow.mp4" width={700} height={450} />
</div>
## 部署选项
**云托管**
通过完全托管的基础设施、自动扩展和内置可观测性,立即在 [sim.ai](https://sim.ai) 启动。专注于构建工作流,我们负责运营
在 [sim.ai](https://sim.ai) 上立即启动,享受完全托管的基础设施、自动扩展和内置可观测性。在我们处理运营的同时,专注于构建工作流
**自托管**
使用 Docker Compose 或 Kubernetes 部署在您自己的基础设施上。通过 Ollama 集成支持本地 AI 模型,完全掌控您的数据。
## 下一步
准备好构建您的第一个 AI 工作流了吗?
准备好构建您的第一个 AI 工作流了吗?
<Cards>
<Card title="快速入门" href="/getting-started">
在 10 分钟内创建您的第一个工作流
<Card title="入门指南" href="/getting-started">
在 10 分钟内创建您的第一个工作流
</Card>
<Card title="工作流模块" href="/blocks">
<Card title="工作流模块" href="/blocks">
了解构建模块
</Card>
<Card title="工具集成" href="/tools">
<Card title="工具集成" href="/tools">
探索 80 多种内置集成
</Card>
<Card title="团队权限" href="/permissions/roles-and-permissions">

View File

@@ -39,14 +39,24 @@ Linear 的主要功能包括:
| 参数 | 类型 | 必需 | 描述 |
| --------- | ---- | -------- | ----------- |
| `teamId` | string | | Linear 团队 ID |
| `projectId` | string | | Linear 项目 ID |
| `teamId` | string | | Linear 团队 ID 筛选 |
| `projectId` | string | | Linear 项目 ID 筛选 |
| `assigneeId` | string | 否 | 按分配的用户 ID 筛选 |
| `stateId` | string | 否 | 按工作流状态 ID 筛选(状态)|
| `priority` | number | 否 | 按优先级筛选0=无优先级1=紧急2=高3=正常4=低)|
| `labelIds` | array | 否 | 按标签 ID 数组筛选 |
| `createdAfter` | string | 否 | 筛选创建日期晚于此日期的问题ISO 8601 格式)|
| `updatedAfter` | string | 否 | 筛选更新日期晚于此日期的问题ISO 8601 格式)|
| `includeArchived` | boolean | 否 | 包括已归档的问题默认值false|
| `first` | number | 否 | 返回的问题数量默认值50最大值250|
| `after` | string | 否 | 下一页的分页游标 |
| `orderBy` | string | 否 | 排序顺序:"createdAt" 或 "updatedAt"(默认值:"updatedAt"|
#### 输出
| 参数 | 类型 | 描述 |
| --------- | ---- | ----------- |
| `issues` | array | 来自指定 Linear 团队和项目的问题数组,每个问题包含 id、title、description、state、teamId 和 projectId |
| `issues` | array | Linear 筛选的问题数组 |
### `linear_get_issue`
@@ -73,15 +83,25 @@ Linear 的主要功能包括:
| 参数 | 类型 | 必需 | 描述 |
| --------- | ---- | -------- | ----------- |
| `teamId` | string | 是 | Linear 团队 ID |
| `projectId` | string | | Linear 项目 ID |
| `projectId` | string | | Linear 项目 ID |
| `title` | string | 是 | 问题标题 |
| `description` | string | 否 | 问题描述 |
| `stateId` | string | 否 | 工作流状态 ID状态|
| `assigneeId` | string | 否 | 要分配问题的用户 ID |
| `priority` | number | 否 | 优先级0=无优先级1=紧急2=高3=正常4=低)|
| `estimate` | number | 否 | 以点数估算 |
| `labelIds` | array | 否 | 要设置在问题上的标签 ID 数组 |
| `cycleId` | string | 否 | 要分配问题的周期 ID |
| `parentId` | string | 否 | 父问题 ID用于创建子问题|
| `dueDate` | string | 否 | 到期日期ISO 8601 格式仅日期YYYY-MM-DD|
| `subscriberIds` | array | 否 | 要订阅问题的用户 ID 数组 |
| `projectMilestoneId` | string | 否 | 要与问题关联的项目里程碑 ID |
#### 输出
| 参数 | 类型 | 描述 |
| --------- | ---- | ----------- |
| `issue` | object | 创建的问题,包含 id、title、description、state、teamId 和 projectId |
| `issue` | object | 创建的包含所有属性的问题 |
### `linear_update_issue`
@@ -94,11 +114,17 @@ Linear 的主要功能包括:
| `issueId` | string | 是 | 要更新的 Linear 问题 ID |
| `title` | string | 否 | 新的问题标题 |
| `description` | string | 否 | 新的问题描述 |
| `stateId` | string | 否 | 工作流状态 ID状态 |
| `assigneeId` | string | 否 | 分配问题的用户 ID |
| `priority` | number | 否 | 优先级0=无优先级1=紧急2=高3=正常4=低) |
| `estimate` | number | 否 | 以点数估算 |
| `labelIds` | array | 否 | 设置在问题上的标签 ID 数组 |
| `stateId` | string | 否 | 工作流状态 ID状态|
| `assigneeId` | string | 否 | 分配问题的用户 ID |
| `priority` | number | 否 | 优先级0=无优先级1=紧急2=高3=正常4=低)|
| `estimate` | number | 否 | 估算点数 |
| `labelIds` | array | 否 | 设置在问题上的标签 ID 数组(替换所有现有标签)|
| `projectId` | string | 否 | 要移动问题到的项目 ID |
| `cycleId` | string | 否 | 分配给问题的周期 ID |
| `parentId` | string | 否 | 父问题 ID将其设为子问题|
| `dueDate` | string | 否 | ISO 8601 格式的截止日期仅日期YYYY-MM-DD|
| `addedLabelIds` | array | 否 | 添加到问题的标签 ID 数组(不替换现有标签)|
| `removedLabelIds` | array | 否 | 从问题中移除的标签 ID 数组 |
#### 输出
@@ -237,7 +263,7 @@ Linear 的主要功能包括:
| 参数 | 类型 | 必需 | 描述 |
| --------- | ---- | -------- | ----------- |
| `commentId` | string | 是 | 要更新的评论 ID |
| `body` | string | | 新的评论文本(支持 Markdown |
| `body` | string | | 新的评论文本(支持 Markdown |
#### 输出
@@ -347,11 +373,11 @@ Linear 的主要功能包括:
| `projectId` | string | 是 | 要更新的项目 ID |
| `name` | string | 否 | 新的项目名称 |
| `description` | string | 否 | 新的项目描述 |
| `state` | string | 否 | 项目状态(计划中、已开始、已完成、已取消)|
| `state` | string | 否 | 项目状态(planned、started、completed、canceled |
| `leadId` | string | 否 | 项目负责人的用户 ID |
| `startDate` | string | 否 | 项目开始日期ISO 格式)|
| `targetDate` | string | 否 | 项目目标日期ISO 格式)|
| `priority` | number | 否 | 项目优先级0-4|
| `startDate` | string | 否 | 项目开始日期ISO 格式: YYYY-MM-DD|
| `targetDate` | string | 否 | 项目目标日期ISO 格式: YYYY-MM-DD|
| `priority` | number | 否 | 项目优先级0=无优先级1=紧急2=高3=正常4=低) |
#### 输出
@@ -525,10 +551,10 @@ Linear 的主要功能包括:
| 参数 | 类型 | 必需 | 描述 |
| --------- | ---- | -------- | ----------- |
| `teamId` | string | 是 | 要创建状态的团队 ID |
| `name` | string | 是 | 状态名称 \(例如"In Review"\) |
| `color` | string | | 状态颜色 \(十六进制格式\) |
| `type` | string | 是 | 状态类型"backlog"、"unstarted"、"started"、"completed" 或 "canceled" |
| `teamId` | string | 是 | 要在其中创建状态的团队 ID |
| `name` | string | 是 | 状态名称例如 "In Review"|
| `color` | string | | 状态颜色十六进制格式|
| `type` | string | 是 | 状态类型: "backlog"、"unstarted"、"started"、"completed" 或 "canceled" |
| `description` | string | 否 | 状态描述 |
| `position` | number | 否 | 工作流中的位置 |
@@ -637,7 +663,7 @@ Linear 的主要功能包括:
| --------- | ---- | -------- | ----------- |
| `issueId` | string | 是 | 要附加的 Issue ID |
| `url` | string | 是 | 附件的 URL |
| `title` | string | | 附件标题 |
| `title` | string | | 附件标题 |
| `subtitle` | string | 否 | 附件副标题/描述 |
#### 输出
@@ -673,7 +699,7 @@ Linear 的主要功能包括:
| 参数 | 类型 | 必需 | 描述 |
| --------- | ---- | -------- | ----------- |
| `attachmentId` | string | 是 | 要更新的附件 ID |
| `title` | string | | 新的附件标题 |
| `title` | string | | 新的附件标题 |
| `subtitle` | string | 否 | 新的附件副标题 |
#### 输出
@@ -708,7 +734,7 @@ Linear 的主要功能包括:
| --------- | ---- | -------- | ----------- |
| `issueId` | string | 是 | 源问题 ID |
| `relatedIssueId` | string | 是 | 要链接的目标问题 ID |
| `type` | string | 是 | 关系类型"blocks"(阻止)、"blocked"(被阻止)、"duplicate"(重复)、"related"(相关) |
| `type` | string | 是 | 关系类型: "blocks"、"duplicate""related"。注意:当从 A 到 B 创建 "blocks" 时,会自动创建反向关系 \(B 被 A 阻止\)。 |
#### 输出
@@ -1217,6 +1243,7 @@ Linear 的主要功能包括:
| 参数 | 类型 | 必需 | 描述 |
| --------- | ---- | -------- | ----------- |
| `projectId` | string | 是 | 此标签所属的项目 |
| `name` | string | 是 | 项目标签名称 |
| `color` | string | 否 | 标签颜色 \(十六进制代码\) |
| `description` | string | 否 | 标签描述 |
@@ -1394,6 +1421,7 @@ Linear 的主要功能包括:
| 参数 | 类型 | 必需 | 描述 |
| --------- | ---- | -------- | ----------- |
| `projectId` | string | 是 | 要为其创建状态的项目 |
| `name` | string | 是 | 项目状态名称 |
| `color` | string | 是 | 状态颜色 \(十六进制代码\) |
| `description` | string | 否 | 状态描述 |

View File

@@ -11,26 +11,43 @@ import { BlockInfoCard } from "@/components/ui/block-info-card"
/>
{/* MANUAL-CONTENT-START:intro */}
使用领先提供商的最先进 AI 模型,将语音转录为文。Sim 语音转文 (STT) 工具可以将音频和视频文件转换为准确的文字记录,支持多种语言、时间戳以及可选的翻译功能
使用来自世界一流提供商的最 AI 模型,将语音转录为文。Sim 语音转文 (STT) 工具使您能够将音频和视频转换为准确、带时间戳的转录文本,并可选择翻译支持多种语言,同时提供高级功能,如分角色对话和说话人识别
支持的提供商
**支持的提供商和模型:**
- **[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)**:来自 OpenAI 的先进开源 STT 模型。支持 `whisper-1` 等模型,能够处理多种语言和音频格式。
- **[Deepgram](https://deepgram.com/)**:基于深度学习模型的实时和批量 STT API例如 `nova-3`、`nova-2` 和 `whisper-large`。提供诸如说话人分离、意图识别和行业特定调优等功能
- **[ElevenLabs](https://elevenlabs.io/)**:以高质量语音 AI 闻名ElevenLabs 提供专注于准确性和自然语言理解的 STT 模型,支持多种语言和方言。
- **[OpenAI Whisper](https://platform.openai.com/docs/guides/speech-to-text/overview)** (OpenAI)
OpenAI 的 Whisper 是一个开源的深度学习模型,以其在多语言和多音频条件下的强大性能而闻名。它支持高级模型,例如 `whisper-1`在转录、翻译以及需要高模型泛化能力的任务中表现出色。Whisper 由以 ChatGPT 和领先 AI 研究闻名的 OpenAI 提供支持,广泛用于研究领域并作为比较评估的基准
选择最适合您任务的提供商和模型——无论是快速、生产级转录 (Deepgram),高精度多语言能力 (Whisper),还是高级理解和语言覆盖 (ElevenLabs)。
- **[Deepgram](https://deepgram.com/)** (Deepgram Inc.)
总部位于旧金山的 Deepgram 为开发者和企业提供可扩展的、生产级的语音识别 API。Deepgram 的模型包括 `nova-3`、`nova-2` 和 `whisper-large`,提供实时和批量转录,具有行业领先的准确性、多语言支持、自动标点、智能分角色对话、通话分析以及从电话到媒体制作的多种应用场景功能。
- **[ElevenLabs](https://elevenlabs.io/)** (ElevenLabs)
作为语音 AI 的领导者ElevenLabs 尤其以其高质量的语音合成和识别而闻名。其 STT 产品能够高精度、自然地理解多种语言、方言和口音。最新的 ElevenLabs STT 模型针对清晰度和说话人区分进行了优化适用于创意和无障碍场景。ElevenLabs 因其在 AI 驱动的语音技术方面的尖端进展而备受认可。
- **[AssemblyAI](https://www.assemblyai.com/)** (AssemblyAI Inc.)
AssemblyAI 提供基于 API 的高精度语音识别,功能包括自动章节划分、主题检测、摘要生成、情感分析和内容审核等。其专有模型,包括备受赞誉的 `Conformer-2`为行业内一些最大的媒体、呼叫中心和合规应用提供支持。AssemblyAI 得到了全球财富 500 强企业和领先 AI 初创公司的信赖。
- **[Google Cloud Speech-to-Text](https://cloud.google.com/speech-to-text)** (Google Cloud):
Google 的企业级语音转文字 API 支持超过 125 种语言和变体,提供高精度以及实时流式传输、单词级置信度、说话人分离、自动标点、自定义词汇和领域特定调优等功能。可用的模型包括 `latest_long`、`video` 以及领域优化模型,这些模型基于 Google 多年的研究成果,具备全球扩展能力。
- **[AWS Transcribe](https://aws.amazon.com/transcribe/)** (Amazon Web Services):
AWS Transcribe 利用 Amazon 的云基础设施,通过 API 提供强大的语音识别功能。它支持多种语言,并提供说话人识别、自定义词汇、通道识别(适用于呼叫中心音频)和医疗特定转录等功能。常用模型包括 `standard` 以及领域特定变体。AWS Transcribe 非常适合已经使用 Amazon 云服务的组织。
**如何选择:**
选择适合您应用的提供商和模型——无论您需要快速、企业级的转录和额外分析Deepgram、AssemblyAI、Google、AWS高灵活性和开源访问OpenAI Whisper还是高级的说话人/上下文理解ElevenLabs。请考虑定价、语言覆盖范围、准确性以及您可能需要的任何特殊功能如摘要、章节划分或情感分析
有关功能、定价、功能亮点和微调选项的更多详细信息,请参阅上述链接中的每个提供商的官方文档。
{/* MANUAL-CONTENT-END */}
## 使用说明
使用领先的 AI 提供商将音频和视频文件转录为文。支持多种语言、时间戳和说话人分离。
使用领先的 AI 提供商将音频和视频文件转录为文。支持多种语言、时间戳和说话人分离。
## 工具
### `stt_whisper`
使用 OpenAI Whisper 将音频转录为文
使用 OpenAI Whisper 将音频转录为文
#### 输入
@@ -38,13 +55,15 @@ import { BlockInfoCard } from "@/components/ui/block-info-card"
| --------- | ---- | -------- | ----------- |
| `provider` | string | 是 | STT 提供商 \(whisper\) |
| `apiKey` | string | 是 | OpenAI API 密钥 |
| `model` | string | 否 | 使用的 Whisper 模型 \(默认值whisper-1\) |
| `model` | string | 否 | 使用的 Whisper 模型 \(默认值whisper-1\) |
| `audioFile` | file | 否 | 要转录的音频或视频文件 |
| `audioFileReference` | file | 否 | 来自前一个模块的音频/视频文件引用 |
| `audioFileReference` | file | 否 | 来自前模块的音频/视频文件引用 |
| `audioUrl` | string | 否 | 音频或视频文件的 URL |
| `language` | string | 否 | 语言代码 \(例如"en""es""fr"\) 或 "auto" 进行自动检测 |
| `language` | string | 否 | 语言代码 \(例如 "en", "es", "fr"\) 或 "auto" 进行自动检测 |
| `timestamps` | string | 否 | 时间戳粒度:无、句子或单词 |
| `translateToEnglish` | boolean | 否 | 将音频翻译为英语 |
| `prompt` | string | 否 | 可选文本,用于指导模型的风格或继续前一个音频片段。帮助处理专有名词和上下文。 |
| `temperature` | number | 否 | 采样温度,范围为 0 到 1。较高的值使输出更随机较低的值使输出更集中和确定性。 |
#### 输出
@@ -54,7 +73,6 @@ import { BlockInfoCard } from "@/components/ui/block-info-card"
| `segments` | array | 带时间戳的片段 |
| `language` | string | 检测到的或指定的语言 |
| `duration` | number | 音频时长(以秒为单位) |
| `confidence` | number | 总体置信度评分 |
### `stt_deepgram`
@@ -111,7 +129,69 @@ import { BlockInfoCard } from "@/components/ui/block-info-card"
| `duration` | number | 音频时长(秒) |
| `confidence` | number | 总体置信度评分 |
### `stt_assemblyai`
使用 AssemblyAI 和高级 NLP 功能将音频转录为文本
#### 输入
| 参数 | 类型 | 必需 | 描述 |
| --------- | ---- | -------- | ----------- |
| `provider` | string | 是 | STT 提供商 \(assemblyai\) |
| `apiKey` | string | 是 | AssemblyAI API 密钥 |
| `model` | string | 否 | 要使用的 AssemblyAI 模型 \(默认best\) |
| `audioFile` | file | 否 | 要转录的音频或视频文件 |
| `audioFileReference` | file | 否 | 来自前面模块的音频/视频文件引用 |
| `audioUrl` | string | 否 | 音频或视频文件的 URL |
| `language` | string | 否 | 语言代码 \(例如 "en", "es", "fr"\) 或 "auto" 进行自动检测 |
| `timestamps` | string | 否 | 时间戳粒度:无、句子或单词 |
| `diarization` | boolean | 否 | 启用说话人分离 |
| `sentiment` | boolean | 否 | 启用情感分析 |
| `entityDetection` | boolean | 否 | 启用实体检测 |
| `piiRedaction` | boolean | 否 | 启用 PII 涂黑 |
| `summarization` | boolean | 否 | 启用自动摘要 |
#### 输出
| 参数 | 类型 | 描述 |
| --------- | ---- | ----------- |
| `transcript` | string | 完整的转录文本 |
| `segments` | array | 带有说话人标签的时间戳片段 |
| `language` | string | 检测到或指定的语言 |
| `duration` | number | 音频时长(秒) |
| `confidence` | number | 总体置信度评分 |
| `sentiment` | array | 情感分析结果 |
| `entities` | array | 检测到的实体 |
| `summary` | string | 自动生成的摘要 |
### `stt_gemini`
使用具有多模态功能的 Google Gemini 将音频转录为文本
#### 输入
| 参数 | 类型 | 必需 | 描述 |
| --------- | ---- | -------- | ----------- |
| `provider` | string | 是 | STT 提供商 \(gemini\) |
| `apiKey` | string | 是 | Google API 密钥 |
| `model` | string | 否 | 要使用的 Gemini 模型 \(默认值gemini-2.5-flash\) |
| `audioFile` | file | 否 | 要转录的音频或视频文件 |
| `audioFileReference` | file | 否 | 来自前面模块的音频/视频文件引用 |
| `audioUrl` | string | 否 | 音频或视频文件的 URL |
| `language` | string | 否 | 语言代码 \(例如:"en", "es", "fr"\) 或 "auto" 进行自动检测 |
| `timestamps` | string | 否 | 时间戳粒度:无、句子或单词 |
#### 输出
| 参数 | 类型 | 描述 |
| --------- | ---- | ----------- |
| `transcript` | string | 完整的转录文本 |
| `segments` | array | 带时间戳的片段 |
| `language` | string | 检测到或指定的语言 |
| `duration` | number | 音频时长(秒) |
| `confidence` | number | 总体置信度评分 |
## 注意
- 类别: `tools`
- 类型: `stt`
- 类别`tools`
- 类型`stt`

View File

@@ -0,0 +1,256 @@
---
title: 文本转语音
description: 使用 AI 语音将文本转换为语音
---
import { BlockInfoCard } from "@/components/ui/block-info-card"
<BlockInfoCard
type="tts"
color="#181C1E"
/>
{/* MANUAL-CONTENT-START:intro */}
使用最新的 AI 语音将文本转换为自然的语音。Sim 的文本转语音 (TTS) 工具可以让您从书面文本生成音频,支持数十种语言,并提供多种富有表现力的语音、格式以及高级控制选项,如语速、风格、情感等。
**支持的提供商和模型:**
- **[OpenAI 文本转语音](https://platform.openai.com/docs/guides/text-to-speech/voice-options)** (OpenAI)
OpenAI 的 TTS API 使用先进的 AI 模型(如 `tts-1`、`tts-1-hd` 和 `gpt-4o-mini-tts`)提供超逼真的语音。语音包括男性和女性选项,如 alloy、echo、fable、onyx、nova、shimmer、ash、ballad、coral、sage 和 verse。支持多种音频格式mp3、opus、aac、flac、wav、pcm并可调整语速和流式合成。
- **[Deepgram Aura](https://deepgram.com/products/text-to-speech)** (Deepgram Inc.)
Deepgram 的 Aura 提供富有表现力的英语和多语言 AI 语音,优化了对话清晰度、低延迟和定制化。可用模型包括 `aura-asteria-en`、`aura-luna-en` 等。支持多种编码格式linear16、mp3、opus、aac、flac并可对语速、采样率和风格进行微调。
- **[ElevenLabs 文本转语音](https://elevenlabs.io/text-to-speech)** (ElevenLabs)
ElevenLabs 在逼真且情感丰富的 TTS 领域处于领先地位,提供 29+ 种语言的数十种语音,并支持克隆自定义语音。模型支持语音设计、语音合成和直接 API 访问,具有风格、情感、稳定性和相似性等高级控制功能。适用于有声读物、内容创作、无障碍访问等。
- **[Cartesia TTS](https://docs.cartesia.ai/)** (Cartesia)
Cartesia 提供高质量、快速且安全的文本转语音,注重隐私和灵活部署。支持即时流媒体、实时合成,并提供多种国际语音和口音,通过简单的 API 即可访问。
- **[Google Cloud Text-to-Speech](https://cloud.google.com/text-to-speech)** (Google Cloud):
Google 使用 DeepMind WaveNet 和 Neural2 模型,为 50 多种语言和变体提供高保真语音。功能包括语音选择、音调、语速、音量控制、SSML 标签以及标准和工作室级高级语音的访问权限。广泛用于无障碍访问、IVR 和媒体。
- **[Microsoft Azure Speech](https://azure.microsoft.com/en-us/products/ai-services/text-to-speech)** (Microsoft Azure):
Azure 提供超过 400 种神经语音,覆盖 140 多种语言和地区,具有独特的语音定制、风格、情感、角色和实时控制功能。支持 SSML 用于发音、语调等。非常适合全球化、企业或创意的 TTS 需求。
- **[PlayHT](https://play.ht/)** (PlayHT):
PlayHT 专注于逼真的语音合成、语音克隆和即时流媒体播放,支持 100 多种语言的 800 多种语音。功能包括情感、音调和速度控制、多语音音频,以及通过 API 或在线工作室创建自定义语音。
**如何选择:**
根据语言、支持的语音类型、所需格式mp3、wav 等)、控制粒度(速度、情感等)和特殊功能(语音克隆、口音、流媒体)来优先选择提供商和模型。对于创意、无障碍或开发者使用场景,请确保与您的应用程序需求兼容,并比较成本。
访问每个提供商的官方网站,了解最新功能、定价和文档详情!
{/* MANUAL-CONTENT-END */}
## 使用说明
使用来自 OpenAI、Deepgram、ElevenLabs、Cartesia、Google Cloud、Azure 和 PlayHT 的最先进 AI 语音,从文本生成自然语音。支持多种语音、语言和音频格式。
## 工具
### `tts_openai`
使用 OpenAI TTS 模型将文本转换为语音
#### 输入
| 参数 | 类型 | 必需 | 描述 |
| --------- | ---- | -------- | ----------- |
| `text` | string | 是 | 要转换为语音的文本 |
| `apiKey` | string | 是 | OpenAI API 密钥 |
| `model` | string | 否 | 要使用的 TTS 模型 \(tts-1, tts-1-hd, 或 gpt-4o-mini-tts\) |
| `voice` | string | 否 | 要使用的语音 \(alloy, ash, ballad, cedar, coral, echo, marin, sage, shimmer, verse\) |
| `responseFormat` | string | 否 | 音频格式 \(mp3, opus, aac, flac, wav, pcm\) |
| `speed` | number | 否 | 语速 \(0.25 到 4.0默认值1.0\) |
#### 输出
| 参数 | 类型 | 描述 |
| --------- | ---- | ----------- |
| `audioUrl` | string | 生成的音频文件的 URL |
| `audioFile` | file | 生成的音频文件对象 |
| `duration` | number | 音频时长(秒) |
| `characterCount` | number | 处理的字符数 |
| `format` | string | 音频格式 |
| `provider` | string | 使用的 TTS 提供商 |
### `tts_deepgram`
使用 Deepgram Aura 将文本转换为语音
#### 输入
| 参数 | 类型 | 必需 | 描述 |
| --------- | ---- | -------- | ----------- |
| `text` | string | 是 | 要转换为语音的文本 |
| `apiKey` | string | 是 | Deepgram API 密钥 |
| `model` | string | 否 | Deepgram 模型/语音例如aura-asteria-en, aura-luna-en |
| `voice` | string | 否 | 语音标识符(模型参数的替代选项) |
| `encoding` | string | 否 | 音频编码linear16, mp3, opus, aac, flac |
| `sampleRate` | number | 否 | 采样率8000, 16000, 24000, 48000 |
| `bitRate` | number | 否 | 压缩格式的比特率 |
| `container` | string | 否 | 容器格式none, wav, ogg |
#### 输出
| 参数 | 类型 | 描述 |
| --------- | ---- | ----------- |
| `audioUrl` | string | 生成的音频文件的 URL |
| `audioFile` | file | 生成的音频文件对象 |
| `duration` | number | 音频时长(秒) |
| `characterCount` | number | 处理的字符数 |
| `format` | string | 音频格式 |
| `provider` | string | 使用的 TTS 提供商 |
### `tts_elevenlabs`
使用 ElevenLabs 声音将文本转换为语音
#### 输入
| 参数 | 类型 | 必需 | 描述 |
| --------- | ---- | -------- | ----------- |
| `text` | string | 是 | 要转换为语音的文本 |
| `voiceId` | string | 是 | 要使用的声音 ID |
| `apiKey` | string | 是 | ElevenLabs API 密钥 |
| `modelId` | string | 否 | 使用的模型 \(例如eleven_monolingual_v1, eleven_turbo_v2_5, eleven_flash_v2_5\) |
| `stability` | number | 否 | 声音稳定性 \(0.0 到 1.0默认值0.5\) |
| `similarityBoost` | number | 否 | 相似性增强 \(0.0 到 1.0默认值0.8\) |
| `style` | number | 否 | 风格夸张程度 \(0.0 到 1.0\) |
| `useSpeakerBoost` | boolean | 否 | 是否使用扬声器增强 \(默认值true\) |
#### 输出
| 参数 | 类型 | 描述 |
| --------- | ---- | ----------- |
| `audioUrl` | string | 生成的音频文件的 URL |
| `audioFile` | file | 生成的音频文件对象 |
| `duration` | number | 音频时长(秒) |
| `characterCount` | number | 处理的字符数 |
| `format` | string | 音频格式 |
| `provider` | string | 使用的 TTS 提供商 |
### `tts_cartesia`
使用 Cartesia Sonic (超低延迟)将文本转换为语音
#### 输入
| 参数 | 类型 | 必需 | 描述 |
| --------- | ---- | -------- | ----------- |
| `text` | string | 是 | 要转换为语音的文本 |
| `apiKey` | string | 是 | Cartesia API 密钥 |
| `modelId` | string | 否 | 模型 ID \(sonic-english, sonic-multilingual\) |
| `voice` | string | 否 | 声音 ID 或嵌入 |
| `language` | string | 否 | 语言代码 \(en, es, fr, de, it, pt 等\) |
| `outputFormat` | json | 否 | 输出格式配置 \(容器, 编码, 采样率\) |
| `speed` | number | 否 | 速度倍增器 |
| `emotion` | array | 否 | Sonic-3 的情感标签 \(例如,\['positivity:high'\]\) |
#### 输出
| 参数 | 类型 | 描述 |
| --------- | ---- | ----------- |
| `audioUrl` | string | 生成的音频文件的 URL |
| `audioFile` | file | 生成的音频文件对象 |
| `duration` | number | 音频时长(以秒为单位) |
| `characterCount` | number | 处理的字符数 |
| `format` | string | 音频格式 |
| `provider` | string | 使用的 TTS 提供商 |
### `tts_google`
使用 Google Cloud Text-to-Speech 将文本转换为语音
#### 输入
| 参数 | 类型 | 必需 | 描述 |
| --------- | ---- | -------- | ----------- |
| `text` | string | 是 | 要转换为语音的文本 |
| `apiKey` | string | 是 | Google Cloud API 密钥 |
| `voiceId` | string | 否 | 语音 ID例如en-US-Neural2-A, en-US-Wavenet-D |
| `languageCode` | string | 是 | 语言代码例如en-US, es-ES, fr-FR |
| `gender` | string | 否 | 语音性别MALE, FEMALE, NEUTRAL |
| `audioEncoding` | string | 否 | 音频编码LINEAR16, MP3, OGG_OPUS, MULAW, ALAW |
| `speakingRate` | number | 否 | 语速0.25 到 2.0默认值1.0 |
| `pitch` | number | 否 | 语音音调(-20.0 到 20.0默认值0.0 |
| `volumeGainDb` | number | 否 | 音量增益(以 dB 为单位,-96.0 到 16.0 |
| `sampleRateHertz` | number | 否 | 采样率(以 Hz 为单位) |
| `effectsProfileId` | array | 否 | 效果配置文件(例如,\['headphone-class-device'\] |
#### 输出
| 参数 | 类型 | 描述 |
| --------- | ---- | ----------- |
| `audioUrl` | string | 生成的音频文件的 URL |
| `audioFile` | file | 生成的音频文件对象 |
| `duration` | number | 音频时长(秒) |
| `characterCount` | number | 处理的字符数 |
| `format` | string | 音频格式 |
| `provider` | string | 使用的 TTS 提供商 |
### `tts_azure`
使用 Azure 认知服务将文本转换为语音
#### 输入
| 参数 | 类型 | 必需 | 描述 |
| --------- | ---- | -------- | ----------- |
| `text` | string | 是 | 要转换为语音的文本 |
| `apiKey` | string | 是 | Azure 语音服务 API 密钥 |
| `voiceId` | string | 否 | 语音 ID例如en-US-JennyNeural, en-US-GuyNeural |
| `region` | string | 否 | Azure 区域例如eastus, westus, westeurope |
| `outputFormat` | string | 否 | 输出音频格式 |
| `rate` | string | 否 | 语速(例如,+10%, -20%, 1.5 |
| `pitch` | string | 否 | 语音音调(例如,+5Hz, -2st, low |
| `style` | string | 否 | 语音风格例如cheerful, sad, angry - 仅限神经语音) |
| `styleDegree` | number | 否 | 风格强度0.01 到 2.0 |
| `role` | string | 否 | 角色例如Girl, Boy, YoungAdultFemale |
#### 输出
| 参数 | 类型 | 描述 |
| --------- | ---- | ----------- |
| `audioUrl` | string | 生成的音频文件的 URL |
| `audioFile` | file | 生成的音频文件对象 |
| `duration` | number | 音频时长(秒) |
| `characterCount` | number | 处理的字符数 |
| `format` | string | 音频格式 |
| `provider` | string | 使用的 TTS 提供商 |
### `tts_playht`
使用 PlayHT (语音克隆)将文本转换为语音
#### 输入
| 参数 | 类型 | 必需 | 描述 |
| --------- | ---- | -------- | ----------- |
| `text` | string | 是 | 要转换为语音的文本 |
| `apiKey` | string | 是 | PlayHT API 密钥 \(AUTHORIZATION header\) |
| `userId` | string | 是 | PlayHT 用户 ID \(X-USER-ID header\) |
| `voice` | string | 否 | 语音 ID 或清单 URL |
| `quality` | string | 否 | 质量级别 \(draft, standard, premium\) |
| `outputFormat` | string | 否 | 输出格式 \(mp3, wav, ogg, flac, mulaw\) |
| `speed` | number | 否 | 速度倍数 \(0.5 到 2.0\) |
| `temperature` | number | 否 | 创造性/随机性 \(0.0 到 2.0\) |
| `voiceGuidance` | number | 否 | 语音稳定性 \(1.0 到 6.0\) |
| `textGuidance` | number | 否 | 文本贴合度 \(1.0 到 6.0\) |
| `sampleRate` | number | 否 | 采样率 \(8000, 16000, 22050, 24000, 44100, 48000\) |
#### 输出
| 参数 | 类型 | 描述 |
| --------- | ---- | ----------- |
| `audioUrl` | string | 生成的音频文件的 URL |
| `audioFile` | file | 生成的音频文件对象 |
| `duration` | number | 音频时长(秒) |
| `characterCount` | number | 处理的字符数 |
| `format` | string | 音频格式 |
| `provider` | string | 使用的 TTS 提供商 |
## 注意事项
- 类别:`tools`
- 类型:`tts`

View File

@@ -0,0 +1,192 @@
---
title: 视频生成器
description: 使用 AI 从文本生成视频
---
import { BlockInfoCard } from "@/components/ui/block-info-card"
<BlockInfoCard
type="video_generator"
color="#181C1E"
/>
{/* MANUAL-CONTENT-START:intro */}
使用顶级提供商的尖端 AI 模型通过文本提示生成视频。Sim 的视频生成器为您的工作流程带来了强大的创意视频合成功能——支持多种模型、纵横比、分辨率、摄像机控制、原生音频以及高级风格和一致性功能。
**支持的提供商和模型:**
- **[Runway Gen-4](https://research.runwayml.com/gen2/)** (Runway ML)
Runway 是文本生成视频领域的先驱,以强大的模型(如 Gen-2、Gen-3 和 Gen-4而闻名。最新的 [Gen-4](https://research.runwayml.com/gen2/) 模型(以及 Gen-4 Turbo用于更快的结果支持更逼真的运动、更高的世界一致性以及角色、物体、风格和位置的视觉参考。支持 16:9、9:16 和 1:1 的纵横比510 秒的时长,最高 4K 分辨率风格预设以及直接上传参考图像以实现一致的生成。Runway 为全球的电影制作人、工作室和内容创作者提供创意工具。
- **[Google Veo](https://deepmind.google/technologies/veo/)** (Google DeepMind)
[Veo](https://deepmind.google/technologies/veo/) 是 Google 的下一代视频生成模型,提供高质量、原生音频的视频,分辨率高达 1080p时长最长 16 秒。支持高级运动、电影效果和细腻的文本理解。Veo 可以生成带有内置声音的视频——激活原生音频以及无声片段。选项包括 16:9 的纵横比、可变时长、不同的模型veo-3、veo-3.1)以及基于提示的控制。非常适合讲故事、广告、研究和创意构思。
- **[Luma Dream Machine](https://lumalabs.ai/dream-machine)** (Luma AI)
[Dream Machine](https://lumalabs.ai/dream-machine) 能够从文本生成令人惊叹的逼真流畅视频。它结合了高级摄像机控制、电影摄影提示,并支持 ray-1 和 ray-2 模型。Dream Machine 支持精确的纵横比16:9、9:16、1:1、可变时长以及摄像机路径的指定以实现复杂的视觉指导。Luma 因其突破性的视觉保真度而闻名,并得到了顶尖 AI 视觉研究人员的支持。
- **[MiniMax Hailuo-02](https://minimax.chat/)**(通过 [Fal.ai](https://fal.ai/)
[MiniMax Hailuo-02](https://minimax.chat/) 是一个先进的中文生成视频模型,可通过 [Fal.ai](https://fal.ai/) 在全球范围内使用。支持生成最长 16 秒的视频,可选择横屏或竖屏格式,并提供提示优化选项以提高清晰度和创造力。提供专业版和标准版接口,支持高分辨率(最高 1920×1080。非常适合需要提示翻译和优化的创意项目、商业叙事以及快速原型设计视觉创意。
**如何选择:**
根据您对质量、速度、时长、音频、成本和独特功能的需求选择提供商和模型。Runway 和 Veo 提供世界领先的真实感和电影级能力Luma 擅长流畅的运动和摄像机控制MiniMax 非常适合中文提示,并提供快速且经济实惠的访问。在选择工具时,请考虑参考支持、风格预设、音频需求和定价。
有关功能、限制、定价和模型进展的更多详细信息,请参阅上述每个提供商的官方文档。
{/* MANUAL-CONTENT-END */}
## 使用说明
使用领先的 AI 提供商从文本提示生成高质量视频。支持多种模型、纵横比、分辨率以及提供商特定功能,如世界一致性、摄像机控制和音频生成。
## 工具
### `video_runway`
使用 Runway Gen-4 生成具有世界一致性和视觉参考的视频
#### 输入
| 参数 | 类型 | 必需 | 描述 |
| --------- | ---- | -------- | ----------- |
| `provider` | string | 是 | 视频提供商 \(runway\) |
| `apiKey` | string | 是 | Runway API 密钥 |
| `model` | string | 否 | Runway 模型gen-4 \(默认,更高质量\) 或 gen-4-turbo \(更快\) |
| `prompt` | string | 是 | 描述要生成视频的文本提示 |
| `duration` | number | 否 | 视频时长(秒)\(5 或 10默认5\) |
| `aspectRatio` | string | 否 | 纵横比16:9 \(横屏\)、9:16 \(竖屏\) 或 1:1 \(方形\) |
| `resolution` | string | 否 | 视频分辨率 \(720p 输出\)。注意Gen-4 Turbo 本身以 720p 输出 |
| `visualReference` | json | 是 | Gen-4 所需的参考图像 \(UserFile 对象\)。Gen-4 仅支持图像到视频,不支持仅文本生成 |
#### 输出
| 参数 | 类型 | 描述 |
| --------- | ---- | ----------- |
| `videoUrl` | string | 生成的视频 URL |
| `videoFile` | json | 带有元数据的视频文件对象 |
| `duration` | number | 视频时长(秒) |
| `width` | number | 视频宽度(像素) |
| `height` | number | 视频高度(像素) |
| `provider` | string | 使用的提供商 \(runway\) |
| `model` | string | 使用的模型 |
| `jobId` | string | Runway 作业 ID |
### `video_veo`
使用 Google Veo 3/3.1 生成带有原生音频的视频
#### 输入
| 参数 | 类型 | 必需 | 描述 |
| --------- | ---- | -------- | ----------- |
| `provider` | string | 是 | 视频提供商 \(veo\) |
| `apiKey` | string | 是 | Google Gemini API 密钥 |
| `model` | string | 否 | Veo 模型veo-3 \(默认,最高质量\)、veo-3-fast \(更快\) 或 veo-3.1 \(最新\) |
| `prompt` | string | 是 | 描述要生成视频的文本提示 |
| `duration` | number | 否 | 视频时长(秒)\(4、6 或 8默认8\) |
| `aspectRatio` | string | 否 | 纵横比16:9 \(横向\) 或 9:16 \(纵向\) |
| `resolution` | string | 否 | 视频分辨率720p 或 1080p \(默认1080p\) |
#### 输出
| 参数 | 类型 | 描述 |
| --------- | ---- | ----------- |
| `videoUrl` | string | 生成的视频 URL |
| `videoFile` | json | 带有元数据的视频文件对象 |
| `duration` | number | 视频时长(秒) |
| `width` | number | 视频宽度(像素) |
| `height` | number | 视频高度(像素) |
| `provider` | string | 使用的提供商 \(veo\) |
| `model` | string | 使用的模型 |
| `jobId` | string | Veo 作业 ID |
### `video_luma`
使用 Luma Dream Machine 和高级摄像机控制生成视频
#### 输入
| 参数 | 类型 | 必需 | 描述 |
| --------- | ---- | -------- | ----------- |
| `provider` | string | 是 | 视频提供者 \(luma\) |
| `apiKey` | string | 是 | Luma AI API 密钥 |
| `model` | string | 否 | Luma 模型ray-2 \(默认\) |
| `prompt` | string | 是 | 描述要生成视频的文本提示 |
| `duration` | number | 否 | 视频时长(以秒为单位)\(5 或 9默认5\) |
| `aspectRatio` | string | 否 | 纵横比16:9 \(横向\)9:16 \(纵向\),或 1:1 \(正方形\) |
| `resolution` | string | 否 | 视频分辨率540p、720p 或 1080p \(默认1080p\) |
| `cameraControl` | json | 否 | 摄像机控制作为概念对象数组。格式:\[\{ "key": "concept_name" \}\]。有效键truck_left、truck_right、pan_left、pan_right、tilt_up、tilt_down、zoom_in、zoom_out、push_in、pull_out、orbit_left、orbit_right、crane_up、crane_down、static、handheld以及 20 多种预定义选项 |
#### 输出
| 参数 | 类型 | 描述 |
| --------- | ---- | ----------- |
| `videoUrl` | string | 生成的视频 URL |
| `videoFile` | json | 带有元数据的视频文件对象 |
| `duration` | number | 视频时长(以秒为单位) |
| `width` | number | 视频宽度(以像素为单位) |
| `height` | number | 视频高度(以像素为单位) |
| `provider` | string | 使用的提供者 \(luma\) |
| `model` | string | 使用的模型 |
| `jobId` | string | Luma 作业 ID |
### `video_minimax`
通过 MiniMax 平台 API 使用 MiniMax Hailuo 生成具有高级真实感和提示优化的视频
#### 输入
| 参数 | 类型 | 必需 | 描述 |
| --------- | ---- | -------- | ----------- |
| `provider` | string | 是 | 视频提供商 \(minimax\) |
| `apiKey` | string | 是 | 来自 platform.minimax.io 的 MiniMax API 密钥 |
| `model` | string | 否 | MiniMax 模型hailuo-02 \(默认\) |
| `prompt` | string | 是 | 描述要生成视频的文本提示 |
| `duration` | number | 否 | 视频时长(秒)\(6 或 10默认6\) |
| `promptOptimizer` | boolean | 否 | 启用提示优化以获得更好的结果 \(默认true\) |
#### 输出
| 参数 | 类型 | 描述 |
| --------- | ---- | ----------- |
| `videoUrl` | string | 生成的视频 URL |
| `videoFile` | json | 带有元数据的视频文件对象 |
| `duration` | number | 视频时长(秒) |
| `width` | number | 视频宽度(像素) |
| `height` | number | 视频高度(像素) |
| `provider` | string | 使用的提供商 \(minimax\) |
| `model` | string | 使用的模型 |
| `jobId` | string | MiniMax 作业 ID |
### `video_falai`
通过 Fal.ai 平台生成视频,可访问多个模型,包括 Veo 3.1、Sora 2、Kling 2.5、MiniMax Hailuo 等
#### 输入
| 参数 | 类型 | 必需 | 描述 |
| --------- | ---- | -------- | ----------- |
| `provider` | string | 是 | 视频提供商 \(falai\) |
| `apiKey` | string | 是 | Fal.ai API 密钥 |
| `model` | string | 是 | Fal.ai 模型veo-3.1 \(Google Veo 3.1\)、sora-2 \(OpenAI Sora 2\)、kling-2.5-turbo-pro \(Kling 2.5 Turbo Pro\)、kling-2.1-pro \(Kling 2.1 Master\)、minimax-hailuo-2.3-pro \(MiniMax Hailuo Pro\)、minimax-hailuo-2.3-standard \(MiniMax Hailuo Standard\)、wan-2.1 \(WAN T2V\)、ltxv-0.9.8 \(LTXV 13B\) |
| `prompt` | string | 是 | 描述要生成视频的文本提示 |
| `duration` | number | 否 | 视频时长(秒)\(因模型而异\) |
| `aspectRatio` | string | 否 | 纵横比 \(因模型而异\)16:9、9:16、1:1 |
| `resolution` | string | 否 | 视频分辨率 \(因模型而异\)540p、720p、1080p |
| `promptOptimizer` | boolean | 否 | 启用 MiniMax 模型的提示优化 \(默认true\) |
#### 输出
| 参数 | 类型 | 描述 |
| --------- | ---- | ----------- |
| `videoUrl` | string | 生成的视频 URL |
| `videoFile` | json | 带有元数据的视频文件对象 |
| `duration` | number | 视频时长(秒) |
| `width` | number | 视频宽度(像素) |
| `height` | number | 视频高度(像素) |
| `provider` | string | 使用的提供者 \(falai\) |
| `model` | string | 使用的模型 |
| `jobId` | string | 任务 ID |
## 注意事项
- 类别: `tools`
- 类型: `video_generator`

View File

@@ -4,10 +4,21 @@ description: 触发器是启动 Sim 工作流的核心方式
---
import { Card, Cards } from 'fumadocs-ui/components/card'
import { Image } from '@/components/ui/image'
<div className="flex justify-center">
<Image
src="/static/blocks/triggers.png"
alt="触发器概览"
width={500}
height={350}
className="my-6"
/>
</div>
## 核心触发器
使用 Start 块处理所有从编辑器、部署到 API 或部署到聊天的体验中发起的操作。其他触发器可用于事件驱动的工作流:
使用 Start 块处理从编辑器、部署到 API 或部署到聊天的所有操作。其他触发器可用于事件驱动的工作流:
<Cards>
<Card title="Start" href="/triggers/start">
@@ -25,11 +36,11 @@ import { Card, Cards } from 'fumadocs-ui/components/card'
| 触发器 | 启动条件 |
|---------|-----------------|
| **启动** | 编辑器运行、部署到 API 请求或聊天消息 |
| **计划** | 在计划块中管理的计时器 |
| **Webhook** | 收到入站 HTTP 请求 |
| **Start** | 编辑器运行、部署到 API 请求或聊天消息 |
| **Schedule** | 在 Schedule 块中管理的计时器 |
| **Webhook** | 收到入站 HTTP 请求 |
> Start 块始终会暴露 `input`、`conversationId` 和 `files` 字段。可以向输入格式添加自定义字段以获取额外的结构化数据。
> Start 块始终公开 `input`、`conversationId` 和 `files` 字段。通过向输入格式添加自定义字段来增加结构化数据。
## 使用触发器
@@ -37,16 +48,16 @@ import { Card, Cards } from 'fumadocs-ui/components/card'
2. 配置任何所需的模式或认证。
3. 将该块连接到工作流的其余部分。
> 部署为每个触发器提供支持。更新工作流,重新部署,所有触发器入口点都会获取新的快照。在[执行 → 部署快照](/execution)中了解更多信息
> 部署为每个触发器提供支持。更新工作流,重新部署,所有触发器入口点获取新的快照。在[执行 → 部署快照](/execution)中了解更多。
## 手动执行优先级
当您在编辑器中点击 **运行** 时Sim 会根据以下优先级顺序自动选择要执行的触发器:
1. **开始块**(最高优先级)
2. **计划触发器**
3. **外部触发器**webhooks、Slack、Gmail、Airtable 等集成)
1. **Start 块**(最高优先级)
2. **Schedule 触发器**
3. **外部触发器**webhooks、Slack、Gmail、Airtable 等集成)
如果您的工作流有多个触发器,将执行优先级最高的触发器。例如,如果您同时有一个开始块和一个 Webhook 触发器,点击运行将执行开始块。
如果您的工作流有多个触发器,将执行优先级最高的触发器。例如,如果您同时有 Start 块和 Webhook 触发器,点击运行将执行 Start 块。
**带有模拟负载的外部触发器**当外部触发器webhooks 和集成)被手动执行Sim 会根据触发器的预期数据结构自动生成模拟负载。这确保了在测试期间,下游块可以正确解析变量。
**带有模拟负载的外部触发器**:当手动执行外部触发器(webhooks 和集成Sim 会根据触发器的预期数据结构自动生成模拟负载。这确保了在测试过程中,下游块可以正确解析变量。

View File

@@ -1964,9 +1964,9 @@ checksums:
content/10: dc0cd9ecdd8caafc0a4a7c60b68daa2f
content/11: 67ffd9a9b55ad6c1259af98deafb5d0a
content/12: 371d0e46b4bd2c23f559b8bc112f6955
content/13: 1b7e0cec71c2ad722e356ba1f569da6b
content/13: 8b8b040a8485fabfa0c94482163fc39c
content/14: bcadfc362b69078beee0088e5936c98b
content/15: b6cfb067664d66c5793de41ace6a3ef3
content/15: bbc717461139df90f307b1e5715978bf
content/16: 29a606473b5216cceb515b5a8b433f63
content/17: 731e123330335c611fcbf70919e955b9
content/18: 371d0e46b4bd2c23f559b8bc112f6955
@@ -1976,13 +1976,13 @@ checksums:
content/22: e4b5d2b30f9a5ac7456d9e2403ff6fc1
content/23: ba6b661f58f6c55fceb6666247b185be
content/24: 371d0e46b4bd2c23f559b8bc112f6955
content/25: 1813df0e019589847b73769342f51bc3
content/25: 8373a4b5ffe81061f22326e0f8e9f84e
content/26: bcadfc362b69078beee0088e5936c98b
content/27: d64618728def8031137bc39f9c14072b
content/27: 6e88d2c0bd7f3563d0d024c74855361b
content/28: 4240d9c02238325392a6c56fe55587ec
content/29: 456d6e5be5f40d6290b6783b638e316b
content/30: 371d0e46b4bd2c23f559b8bc112f6955
content/31: e292bf642654431b8795f9559c07f330
content/31: 0a5e9e47873a22622a9ab035199df6d2
content/32: bcadfc362b69078beee0088e5936c98b
content/33: e13d950ad68beff6352319bb0d102fec
content/34: 0b78c3741f5caf86271cd3fcad674785
@@ -2030,7 +2030,7 @@ checksums:
content/76: 2ce20e0b75472e89c4ad0e5bbb588bea
content/77: 1e6015e207ad5512fe81843588b1c8a7
content/78: 371d0e46b4bd2c23f559b8bc112f6955
content/79: a3c0aad623f2b68eb7caa312031855e0
content/79: 9023fec7d6c0d587d0de217d8ec3145c
content/80: bcadfc362b69078beee0088e5936c98b
content/81: 3f738270799daa8b08c67b1e1a8fc6ce
content/82: 5a2a4e06bf108686b2eade2cda5a0213
@@ -2066,7 +2066,7 @@ checksums:
content/112: 36b1e6fea4549c6b0f3c93fb51d0baa6
content/113: e01cc332d94f7aeda13d63e9e5159498
content/114: 371d0e46b4bd2c23f559b8bc112f6955
content/115: 1066dc3f18676022fc28ad2ac3dbdcbe
content/115: ce33b88492725c3912f8cc46d7959e92
content/116: bcadfc362b69078beee0088e5936c98b
content/117: 0b7ea576dff35049039f27e93f492baa
content/118: e72ce72b4ba59689765e1520bebd673d
@@ -2126,7 +2126,7 @@ checksums:
content/172: 6ac5231c6f1e4af355f4a8e9cc131c8c
content/173: c4e86be3717bab3a162af6fd7d07d40f
content/174: 371d0e46b4bd2c23f559b8bc112f6955
content/175: f875917d0ddc6c49724cb05d6dbc20d3
content/175: a6bb9e81a93241a9f5f4f0c54a8e158f
content/176: bcadfc362b69078beee0088e5936c98b
content/177: 4bd7f106ee69c2b18cb2a41ce8a45c49
content/178: dfdf7e15f125ed33d381182421afd071
@@ -2162,7 +2162,7 @@ checksums:
content/208: 289b4c3ba8ddf2b116b89e8f42c42f7a
content/209: 70f307005f7268b098c2666493f83760
content/210: 371d0e46b4bd2c23f559b8bc112f6955
content/211: 2ad4046ebf806f5832618a982f3e5759
content/211: 2d3e84b61c7050a6278ee34ea1b6a30d
content/212: bcadfc362b69078beee0088e5936c98b
content/213: 00240f5f806fa8ce1cd54e332befbcf4
content/214: 5905f216a56867439934135577706de6
@@ -2174,7 +2174,7 @@ checksums:
content/220: 3a75b78856cc47e4fda093d997f74b3d
content/221: 658f7e9229c459b86172cd017c239e80
content/222: 371d0e46b4bd2c23f559b8bc112f6955
content/223: 44e98a1518d5fc5b56ffba994cda9c7f
content/223: 2236e1a16509d71cbec735d45e1f8982
content/224: bcadfc362b69078beee0088e5936c98b
content/225: 1ee2ba1b12abc61e709857685e82b029
content/226: 7bd180fada856c4e3acf6f4aa2dbd866
@@ -2186,7 +2186,7 @@ checksums:
content/232: eec28b7a4994e560ebfe7b65eb9489f5
content/233: e686dab5089c0869f094700f53492a4d
content/234: 371d0e46b4bd2c23f559b8bc112f6955
content/235: 0ac1e8cb148c61dc238236c47904da52
content/235: 9c6e8834385fa1a104f2a49561e19e8b
content/236: bcadfc362b69078beee0088e5936c98b
content/237: 81f1f23936bbd1dc4b21bf71e84bd28c
content/238: e93d92ffdc4d1d66b5100773399d93c0
@@ -2354,7 +2354,7 @@ checksums:
content/400: f17b5c16f106085925c714b22959cc0f
content/401: c50d1424ef13db47c44f10dfee39a920
content/402: 371d0e46b4bd2c23f559b8bc112f6955
content/403: 4fb3b6ac2f4416abd838807e4f0efb68
content/403: 587400a0f1fd869064c9ce3f9e1ec394
content/404: bcadfc362b69078beee0088e5936c98b
content/405: 48a91e9804204fb902733bbcb519d8f3
content/406: 417531850860835ff8d1bc4990576f8a
@@ -2414,7 +2414,7 @@ checksums:
content/460: 4278f1ea3ef8e4e141aa55455dc45b7f
content/461: 2563a5d8d8c790ce109d706ce3443807
content/462: 371d0e46b4bd2c23f559b8bc112f6955
content/463: b12446be8e7501c8ad4a32634c07cd0a
content/463: 8a4f40f409c0eb1cf8b23a2f3f369c09
content/464: bcadfc362b69078beee0088e5936c98b
content/465: eaff49649d1ae705346a12e04ea3b741
content/466: b5d7ba66d1bfee635d2b79d1069d542b
@@ -4393,7 +4393,7 @@ checksums:
content/31: 1022391b9b79b1d2e9f8db789f9c50a2
3fd794279590b9d143d409252c8bcf91:
meta/title: 439cb79e8dfd7923d35b85cfbb6fd201
content/0: c0c61574d43478241fb06420e6f86ae8
content/0: dc697d1a69b3cb0152fda60b44bc7da1
content/1: 1e469836798c43335625f3c21ef2a54a
content/2: d35f913a25856e28c66082a574d15275
content/3: dcd3d9d597cf4cc71e3537ef033662c2
@@ -4401,21 +4401,30 @@ checksums:
content/5: 94aa02ae5762d84f4b67df680f17bff5
content/6: e1ec71f571ae36370706f8603471afa7
content/7: 7aef66fb834b6913668e4049e88c1c25
content/8: ad8638a3473c909dbcb1e1d9f4f26381
content/9: 3aa86ec99b42a93d4032063482b98fc7
content/10: 3b7b5178550d70a297f1a9fbc6d42390
content/11: cc5f496182d339993ce974ca60a1172a
content/12: 40cc9fc6a12a47982c9ae6760d61b84f
content/13: 2761b45701dcdee505d6b522e21af1bf
content/14: 21f396ab14e4ae7853d79f352f7eeebb
content/15: 9a9774cec40cbdd2b14f4489b98d04eb
content/16: c4442ebf954ce44792673e999fa5ae57
content/17: 3cb16053db18d8997d72e38b8e336438
content/18: d150533b4b2267de685fd49105852464
content/19: eab59311550e67ed2d44a632ec6006ec
content/20: c2cef2688104adaf6641092f43d4969a
content/21: 448767960bf271c456929b34a89bbb40
content/22: 2cb5515fad9ca26249cdac34760ce9a2
content/8: aa25b3e3d921e4e579dd194c6fcd2af8
content/9: ad8638a3473c909dbcb1e1d9f4f26381
content/10: 3aa86ec99b42a93d4032063482b98fc7
content/11: 3b7b5178550d70a297f1a9fbc6d42390
content/12: cc5f496182d339993ce974ca60a1172a
content/13: 40cc9fc6a12a47982c9ae6760d61b84f
content/14: 01b8941506483c3bbd8d03d7064cc4ae
content/15: 2761b45701dcdee505d6b522e21af1bf
content/16: 21f396ab14e4ae7853d79f352f7eeebb
content/17: 9a9774cec40cbdd2b14f4489b98d04eb
content/18: c4442ebf954ce44792673e999fa5ae57
content/19: 8a5bf876779f64c00bbfe410a76b876d
content/20: 3baabe4ef51745247512b0226e9722da
content/21: aaa108acd920202f8fe7dc5234db1c19
content/22: 6539573d8f58d31b8195280f668ddbc8
content/23: d658c027072bdb8ac9d579e238635e37
content/24: 7a165065612e884611aaf1b16f674c58
content/25: ada8e52a2b16034505384c2452727967
content/26: 3cb16053db18d8997d72e38b8e336438
content/27: d150533b4b2267de685fd49105852464
content/28: eab59311550e67ed2d44a632ec6006ec
content/29: c2cef2688104adaf6641092f43d4969a
content/30: 448767960bf271c456929b34a89bbb40
content/31: 2cb5515fad9ca26249cdac34760ce9a2
c719dc339b3b7771a91f21c9919a1690:
meta/title: fbd403146395526d68ac68d142a50e21
content/0: 9783cf3b31614bf20084e6d2b8400e87
@@ -4673,21 +4682,22 @@ checksums:
content/8: 8f2873836542b4ad0eaebb23e173f201
content/9: 2fcedc7b412a15a963b9f16e739e12f6
content/10: 9fee57e5488bf3022d47d2e7c930a644
content/11: 41e62fddd27e7d853ac891d2049e4765
content/12: 346548a07c017e75077a2bb665c11182
content/13: 08b1f4a18822c6ae7f9a70ef026250ed
content/14: 735298953edf11376ca545c708c36314
content/15: 7536275bc0550a04a6931865916ae5e2
content/16: c0e668525065a5e528a29cb9bbef5622
content/17: 6ba51ad51d324b4f01638ee33d572133
content/18: 043a53599c50a6520dc97b938ccd2dfb
content/19: be394583176619a3546df42d2dee2258
content/20: 745e69101f38215f6f9eef6d6055f602
content/21: 9eae93884f7ae97c39803743eebcd637
content/22: aee30bf47a38ed59952bd10e0223ffe6
content/23: d9340ab5392b777cb15586149b9272ca
content/24: bcdc93fbab52d584bafe3027600edf8c
content/25: 3466b7a79879f9ac49da21c245258b4f
content/11: 91f4f75fec816f3cf84d76b50485f654
content/12: 41e62fddd27e7d853ac891d2049e4765
content/13: 346548a07c017e75077a2bb665c11182
content/14: 08b1f4a18822c6ae7f9a70ef026250ed
content/15: 735298953edf11376ca545c708c36314
content/16: 7536275bc0550a04a6931865916ae5e2
content/17: c0e668525065a5e528a29cb9bbef5622
content/18: 6ba51ad51d324b4f01638ee33d572133
content/19: 043a53599c50a6520dc97b938ccd2dfb
content/20: be394583176619a3546df42d2dee2258
content/21: 745e69101f38215f6f9eef6d6055f602
content/22: 9eae93884f7ae97c39803743eebcd637
content/23: aee30bf47a38ed59952bd10e0223ffe6
content/24: d9340ab5392b777cb15586149b9272ca
content/25: bcdc93fbab52d584bafe3027600edf8c
content/26: 3466b7a79879f9ac49da21c245258b4f
dee35ed44956a6226bec055d5846dea2:
meta/title: 97813c8ae67d69575fd04e35a88aed0c
content/0: e48bc742bb49fa32016b19fdbd62a2e8
@@ -4769,16 +4779,17 @@ checksums:
content/40: f539c13e644506c03a9f7bb6e0fa8848
d25c619a67f4f34c2932949ec11931d5:
meta/title: 1f5b53b9904ec41d49c1e726e3d56b40
content/0: 3e6913a1903145918dec5dfbf045be63
content/0: 0d3a0b016962b7c7e21ff8524255fa4d
content/1: cfe48dbbaebccbc25ac022c899bffd7a
content/2: bc892d223b664ba71849ccd1909727c7
content/3: 41aa99a9c254ac1ab88317829865451d
content/4: 60940b676e2ec4136c58fc932ed24f6f
content/5: 452821ed5121761f4c7cf6c3f15aa6d5
content/6: 766d759cad3ca168ff385b8c2dd5e738
content/7: b350dea5d0089695efaca00a48c70738
content/8: ee7755c785324eed7080a9efb5937ba9
content/9: 4e37faf476573f26ccb9bc7f224662b1
content/6: d17afc428b61d4eb9b41c96bb4d48d3f
content/7: 766d759cad3ca168ff385b8c2dd5e738
content/8: b350dea5d0089695efaca00a48c70738
content/9: ee7755c785324eed7080a9efb5937ba9
content/10: 4e37faf476573f26ccb9bc7f224662b1
e99baf6ea410c047444ec8592d7d54f3:
meta/title: 314cb19eb4fc168e662c3ac7e308f8c1
meta/description: 064420321c795472e120795dd3866b6b
@@ -5699,21 +5710,22 @@ checksums:
988d7dce2c886500665fbd2457d4cc4d:
meta/title: 30c54e4dc4ce599b87d94be34a8617f5
meta/description: 68d1bebfdbae67a09276884b58231c40
content/0: 0d82f8784f312f9ac51da136fd47e94a
content/1: da2b445db16c149f56558a4ea876a5f0
content/2: cec18f48b2cd7974eb556880e6604f7f
content/3: c187ae3362455acfe43282399f0d163a
content/4: 4c3a5708af82c1ee42a12d14fd34e950
content/5: 12a43b499c1e8bb06b050964053ebde3
content/6: a28151eeb5ba3518b33809055b04f0f6
content/7: cffe5b901d78ebf2000d07dc7579533e
content/8: 73486253d24eeff7ac44dfd0c8868d87
content/9: 05aed1f03c5717f3bcb10de2935332e8
content/10: 434a19ecd8a391bea52f68222f42b97d
content/11: c5d0a4062ef7a0a8b0c2610533fae6a0
content/12: e5ca2445d3b69b062af5bf0a2988e760
content/13: 67e0b520d57e352689789eff5803ebbc
content/14: a1d7382600994068ca24dc03f46b7c73
content/0: 2b331e06d64557f4d7fbfa3924ae965f
content/1: e71056df0f7b2eb3b2f271f21d0052cc
content/2: da2b445db16c149f56558a4ea876a5f0
content/3: cec18f48b2cd7974eb556880e6604f7f
content/4: c187ae3362455acfe43282399f0d163a
content/5: 4c3a5708af82c1ee42a12d14fd34e950
content/6: 12a43b499c1e8bb06b050964053ebde3
content/7: a28151eeb5ba3518b33809055b04f0f6
content/8: cffe5b901d78ebf2000d07dc7579533e
content/9: 73486253d24eeff7ac44dfd0c8868d87
content/10: 05aed1f03c5717f3bcb10de2935332e8
content/11: 434a19ecd8a391bea52f68222f42b97d
content/12: c5d0a4062ef7a0a8b0c2610533fae6a0
content/13: e5ca2445d3b69b062af5bf0a2988e760
content/14: 67e0b520d57e352689789eff5803ebbc
content/15: a1d7382600994068ca24dc03f46b7c73
0bf172ef4ee9a2c94a2967d7d320b81b:
meta/title: 330265974a03ee22a09f42fa4ece25f6
meta/description: e3d54cbedf551315cf9e8749228c2d1c
@@ -6803,7 +6815,7 @@ checksums:
content/42: e7d074449d490a0eb0f4cbf2ca1886ab
b7341c73e73c19fbe18dd999900d8f7c:
meta/title: 435f2e5f47799ce049365b279b4fda31
content/0: e4684b7201c2aed215c82606e9eaa293
content/0: c0a142478cc5c515f87d368fa72da818
content/1: ac09e87a96bc852ce59c6434fc882374
content/2: 98f82e6df245b616a47c74a07a1278d3
content/3: 8de2862b924167cb117e370e6c9b90c3
@@ -6820,7 +6832,7 @@ checksums:
content/14: 4b1c0aba05b89eb75ffb82f5442e281f
content/15: fc168fcfe1eee5ba9d31be74bfb256cd
content/16: b4b55d28d87598b05b8c75273da99675
content/17: d45e2f432365c1eecbd44ce46e3a3c3a
content/17: aa32241c058aba83fc998f1656e1c98c
content/18: 9bf38d02df6467ad3cfce2626f83e645
content/19: 0ae3519cbd4c835d18d849c57f622bf2
content/20: e1a7edf40c8aaa0b70f67c4509b45967
@@ -6844,8 +6856,10 @@ checksums:
content/38: 51aeba83f5b41f132c8f37142b2a2fd8
content/39: 0eeef1b743d041d3efc485eb91e5dd41
content/40: 0b157e49ea0a988ba0e2bc394f00cbc2
content/41: 4c4fc37e47fdb37818d5672300268771
content/42: 107059cce7354b29774ef3bd573cfe41
content/41: b42d7ab1ddbc5410ce337f78bd63764e
content/42: 321e2bd645359c81eeacdb4987fdff20
content/43: 4c4fc37e47fdb37818d5672300268771
content/44: 107059cce7354b29774ef3bd573cfe41
0d0df649a3c7ae5396da8fc06441e179:
meta/title: 5b6cf869265c13af8566f192b4ab3d2a
content/0: d85cff62034e0012eb816bdcd8e1f3b2
@@ -45307,30 +45321,159 @@ checksums:
meta/description: b47aabe3d468796da9356ca25b5aac0e
content/0: 1b031fb0c62c46b177aeed5c3d3f8f80
content/1: e2d2b01f5510e19c8ff30bd108d739c9
content/2: 1bde652151a4ff8bf0b3c9c782e4ac11
content/3: 89bc80328bd72ab149ec8b6845dece8b
content/4: 8158ba67c513f34de8932258e57b30f9
content/5: 90c4eca7b7524047e3ef6bc1237ad067
content/6: 821e6394b0a953e2b0842b04ae8f3105
content/7: 45fdd3ceca2128a340cafb7faba01278
content/8: 9c8aa3f09c9b2bd50ea4cdff3598ea4e
content/9: 40d2668585c0b17ab8a0e6f7c721e434
content/10: 021ca9463ef797c41485cce42b6f7709
content/11: 371d0e46b4bd2c23f559b8bc112f6955
content/12: c94fdb65974bc4c4a656f98e31fff0c6
content/13: bcadfc362b69078beee0088e5936c98b
content/14: a47b7c6ecd9d4f9623faee0f642cd09b
content/15: c054a98a01f066a22a0b76af03bba7ae
content/16: 9c04c67366eca1a253947ceb20352edf
content/2: 66239707d36ec676135639dd2e627179
content/3: fed0800ec714595d72422b50c7cb5a50
content/4: cbef5d8c663ddc2af49c930c95ba42e3
content/5: 6cbdd5f32bbc8dce96e83240f9bb8d0f
content/6: 040735b28249ac3657fd9c9591d330cd
content/7: e003949f5c39f1706c1b7971a24a893b
content/8: dc52e7a3f48404716ab94754d3445005
content/9: f3c537798b6344795bb7759261b52f3c
content/10: 47ddb74abd68e2eec175f6225025e96a
content/11: 4747d6a5a9ebe0ad3877bcc977b51bbf
content/12: 821e6394b0a953e2b0842b04ae8f3105
content/13: 45fdd3ceca2128a340cafb7faba01278
content/14: 9c8aa3f09c9b2bd50ea4cdff3598ea4e
content/15: 40d2668585c0b17ab8a0e6f7c721e434
content/16: 021ca9463ef797c41485cce42b6f7709
content/17: 371d0e46b4bd2c23f559b8bc112f6955
content/18: aa0bfae1dbcf3a0721aca4cb156a5bcf
content/18: 573ee880bcd8bb0e5d8c28b409472c63
content/19: bcadfc362b69078beee0088e5936c98b
content/20: f9266172e9fb5ef06a83082fa0867e22
content/21: dbbd82e674306d7d291392ec2c9230e5
content/22: bc25f5ab4531ebc89e325ef174afdb8e
content/20: 053f36c314771e413e13cf335da736b5
content/21: c054a98a01f066a22a0b76af03bba7ae
content/22: 9c04c67366eca1a253947ceb20352edf
content/23: 371d0e46b4bd2c23f559b8bc112f6955
content/24: 76a9ae65d0667171ce08fa8d64afd2a3
content/24: aa0bfae1dbcf3a0721aca4cb156a5bcf
content/25: bcadfc362b69078beee0088e5936c98b
content/26: a47b7c6ecd9d4f9623faee0f642cd09b
content/27: b3f310d5ef115bea5a8b75bf25d7ea9a
content/28: ed565ff5d3337b3e57aaec982d6775c1
content/26: f9266172e9fb5ef06a83082fa0867e22
content/27: dbbd82e674306d7d291392ec2c9230e5
content/28: bc25f5ab4531ebc89e325ef174afdb8e
content/29: 371d0e46b4bd2c23f559b8bc112f6955
content/30: 76a9ae65d0667171ce08fa8d64afd2a3
content/31: bcadfc362b69078beee0088e5936c98b
content/32: a47b7c6ecd9d4f9623faee0f642cd09b
content/33: 33ff3e59725090bbc6a8b8c1699ed4ce
content/34: 57236336915a623401222a8f80b11f93
content/35: 371d0e46b4bd2c23f559b8bc112f6955
content/36: 4c10c89066b05bf1f3133cfd0135f3f6
content/37: bcadfc362b69078beee0088e5936c98b
content/38: 38d119351744d2f677aaf3b5e9786966
content/39: 99633477c03b308240088f258c88f1c6
content/40: 96d3c427438c64fb31da87e315f211a4
content/41: 371d0e46b4bd2c23f559b8bc112f6955
content/42: 7bd31ba71b98bee8324827fdb5fb3c6e
content/43: bcadfc362b69078beee0088e5936c98b
content/44: a47b7c6ecd9d4f9623faee0f642cd09b
content/45: b3f310d5ef115bea5a8b75bf25d7ea9a
content/46: ed565ff5d3337b3e57aaec982d6775c1
6c2cff290ba484e9524dce72de8f2715:
meta/title: 108b79c7fbbf27699f54fb97f5eb117d
meta/description: 0d417dbb3ae8147aef6ceb6c5f50b7fc
content/0: 1b031fb0c62c46b177aeed5c3d3f8f80
content/1: 3080babb848c1269be0d1eef3f07ad11
content/2: 8a2c0770dbee87283e3fe314f292ade4
content/3: fed0800ec714595d72422b50c7cb5a50
content/4: 9ee640b5c719c1169965b7baa92b4866
content/5: 58dbd3306dbb107392b00559c3a91c35
content/6: 139163e18384b049576a7d550d37bbd7
content/7: 7b7ff033f22af851e69989e975063499
content/8: 0ae1ea049f029cc61eb8aaac31401da8
content/9: e43ca047a060da791f5af86213a79654
content/10: 821e6394b0a953e2b0842b04ae8f3105
content/11: febea65497998b351f6cffddedf2b40b
content/12: 9c8aa3f09c9b2bd50ea4cdff3598ea4e
content/13: 409fd9a10c69ee52fe39b6e31474ae36
content/14: fc9e47fa14161ee69a2210fae640b80b
content/15: 371d0e46b4bd2c23f559b8bc112f6955
content/16: 8b65f5983c92945aff1dd7b56719eb20
content/17: bcadfc362b69078beee0088e5936c98b
content/18: 98d392f988df9d66bd0cdce486c78f44
content/19: ad63c3b043de5004272751a6b6306818
content/20: 610445153f4a0e5228216798a5dd8ddd
content/21: 371d0e46b4bd2c23f559b8bc112f6955
content/22: ac103904417da0b5e5a15588cc9d37ea
content/23: bcadfc362b69078beee0088e5936c98b
content/24: 4a92808e259d8703014ad0f12e918f40
content/25: 3ebaddd961b5c2cda6f9b9d53f10a3c3
content/26: 9d1b23d62169e3a65611861345bb4411
content/27: 371d0e46b4bd2c23f559b8bc112f6955
content/28: d99079e2dbdaccf719b9f611b11c9bd1
content/29: bcadfc362b69078beee0088e5936c98b
content/30: e1bdc4de3159f6a8d0b6f82a97b20383
content/31: e98cae3fa66191f182f7591ec8759676
content/32: fd8f7af2051d9a4079b0e77f23b16c16
content/33: 371d0e46b4bd2c23f559b8bc112f6955
content/34: d3493804058260bfc9e8490d053f0bcd
content/35: bcadfc362b69078beee0088e5936c98b
content/36: a9550ad1ca11ce890649bfa619c2b5c9
content/37: 4418a35a33237ce3ca146444a0eedc4b
content/38: 26c4c3ebe6d1baf790815105ecc57fb7
content/39: 371d0e46b4bd2c23f559b8bc112f6955
content/40: 14a125255c8aa5f803f8202609ce2591
content/41: bcadfc362b69078beee0088e5936c98b
content/42: a5779bc792b5252252ff3a257e7470ea
content/43: b3f310d5ef115bea5a8b75bf25d7ea9a
content/44: 7771baf5b99cc490b81a77e800532336
b9c9aa424865900191ba654bc4407469:
meta/title: 5908802e0dba429fb4ed860d0dd612d4
meta/description: d14928cbf0e453f5275b68d9ba867328
content/0: 1b031fb0c62c46b177aeed5c3d3f8f80
content/1: 85cafaf2991c281ba83cd26589738492
content/2: 5be8170f4ac90bcdd36916761cd40e00
content/3: fed0800ec714595d72422b50c7cb5a50
content/4: 2d74726f950dd9e011447a102f54691e
content/5: 461ac7c72a19f708affef4359277622e
content/6: 2fac3c17d16c75ec2e4140e19ac3a100
content/7: 3b8b1ceebbd8e9baf58465b0e35cdb53
content/8: 9cbd715d3987d63b233c2348a6e9facc
content/9: 21b9c9cfc1d9a513ca1a6cb3b47e6326
content/10: f2a12adb41a278943fa63596e9e6ef34
content/11: 160dd6fd98891c85f021b7a05fe8a068
content/12: e06d8303d3b36ca4c325229865fc52f7
content/13: 821e6394b0a953e2b0842b04ae8f3105
content/14: 0fe76e6c4b7bd07b8755802304fdbce4
content/15: 9c8aa3f09c9b2bd50ea4cdff3598ea4e
content/16: 9292f8e698e5a67fe5152f6a789d778c
content/17: 5eb9078325e274d2c10481623bd702ec
content/18: 371d0e46b4bd2c23f559b8bc112f6955
content/19: 21410a53a284d4dd4329345f0a316b23
content/20: bcadfc362b69078beee0088e5936c98b
content/21: 865bee89ca6af3170d2b0682dd3bbc08
content/22: ebdc1d7870479cdccc2ec62402c5c373
content/23: 2c1b6f8b55e0670a9c079f7c31f4d047
content/24: 371d0e46b4bd2c23f559b8bc112f6955
content/25: c3739673607e20bd201a608e5cb6920e
content/26: bcadfc362b69078beee0088e5936c98b
content/27: 865bee89ca6af3170d2b0682dd3bbc08
content/28: d6e14570a48cb5c62b0c50f4a9b83663
content/29: 4f03cd58f1f916d50f24228b66a87789
content/30: 371d0e46b4bd2c23f559b8bc112f6955
content/31: 9b30924750988cc3810bf664ae20a9bc
content/32: bcadfc362b69078beee0088e5936c98b
content/33: 865bee89ca6af3170d2b0682dd3bbc08
content/34: da73c1da2f533f33833d9d18ae1ce204
content/35: 4fda0ccb8a349109ff8828fd46bb95f9
content/36: 371d0e46b4bd2c23f559b8bc112f6955
content/37: 5a0cbd8818674c3f1304202cbe073248
content/38: bcadfc362b69078beee0088e5936c98b
content/39: 865bee89ca6af3170d2b0682dd3bbc08
content/40: 429c2aa014e68491315673492d84ce40
content/41: 98a4e66608e70eb81bd30c6ce2fce00b
content/42: 371d0e46b4bd2c23f559b8bc112f6955
content/43: a81de2fe9e5ff90ef4549a3c71619b07
content/44: bcadfc362b69078beee0088e5936c98b
content/45: 865bee89ca6af3170d2b0682dd3bbc08
content/46: 0996f520f01d429c655727ca0ec29f4f
content/47: d7420601ba1f9f9cd12ba656ee16d140
content/48: 371d0e46b4bd2c23f559b8bc112f6955
content/49: 64aff7867843b7b5f7460b56126256c3
content/50: bcadfc362b69078beee0088e5936c98b
content/51: 865bee89ca6af3170d2b0682dd3bbc08
content/52: 99f0b61caf92e3fec60362e13e27c88d
content/53: 7853c96742a10330c544c0a930c0ee8c
content/54: 371d0e46b4bd2c23f559b8bc112f6955
content/55: 835d8564e12bc41f3735ad90c0a33783
content/56: bcadfc362b69078beee0088e5936c98b
content/57: 865bee89ca6af3170d2b0682dd3bbc08
content/58: b3f310d5ef115bea5a8b75bf25d7ea9a
content/59: 6f52ba90fdce587206b75878a322e55f

Binary file not shown.

After

Width:  |  Height:  |  Size: 206 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 302 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 166 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 112 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 84 KiB

View File

Before

Width:  |  Height:  |  Size: 71 KiB

After

Width:  |  Height:  |  Size: 71 KiB

Binary file not shown.

Before

Width:  |  Height:  |  Size: 93 KiB

After

Width:  |  Height:  |  Size: 80 KiB

Binary file not shown.

Before

Width:  |  Height:  |  Size: 349 KiB

After

Width:  |  Height:  |  Size: 269 KiB

Binary file not shown.

Before

Width:  |  Height:  |  Size: 342 KiB

After

Width:  |  Height:  |  Size: 610 KiB

Binary file not shown.

Before

Width:  |  Height:  |  Size: 110 KiB

After

Width:  |  Height:  |  Size: 251 KiB

Binary file not shown.

Before

Width:  |  Height:  |  Size: 335 KiB

After

Width:  |  Height:  |  Size: 465 KiB

View File

@@ -20,4 +20,6 @@ INTERNAL_API_SECRET=your_internal_api_secret # Use `openssl rand -hex 32` to gen
# If left commented out, emails will be logged to console instead
# Local AI Models (Optional)
# OLLAMA_URL=http://localhost:11434 # URL for local Ollama server - uncomment if using local models
# OLLAMA_URL=http://localhost:11434 # URL for local Ollama server - uncomment if using local models
# VLLM_BASE_URL=http://localhost:8000 # Base URL for your self-hosted vLLM (OpenAI-compatible)
# VLLM_API_KEY= # Optional bearer token if your vLLM instance requires auth

View File

@@ -1,5 +1,5 @@
import { cn } from '@/lib/utils'
import AuthBackgroundSVG from './auth-background-svg'
import AuthBackgroundSVG from '@/app/(auth)/components/auth-background-svg'
type AuthBackgroundProps = {
className?: string

View File

@@ -4,7 +4,7 @@ import { type ReactNode, useEffect, useState } from 'react'
import { GithubIcon, GoogleIcon } from '@/components/icons'
import { Button } from '@/components/ui/button'
import { client } from '@/lib/auth-client'
import { inter } from '@/app/fonts/inter/inter'
import { inter } from '@/app/_styles/fonts/inter/inter'
interface SocialLoginButtonsProps {
githubAvailable: boolean

View File

@@ -1,8 +1,8 @@
'use client'
import { useEffect } from 'react'
import AuthBackground from '@/app/(auth)/components/auth-background'
import Nav from '@/app/(landing)/components/nav/nav'
import AuthBackground from './components/auth-background'
// Helper to detect if a color is dark
function isColorDark(hexColor: string): boolean {

View File

@@ -20,10 +20,10 @@ import { getEnv, isFalsy, isTruthy } from '@/lib/env'
import { createLogger } from '@/lib/logs/console/logger'
import { getBaseUrl } from '@/lib/urls/utils'
import { cn } from '@/lib/utils'
import { inter } from '@/app/_styles/fonts/inter/inter'
import { soehne } from '@/app/_styles/fonts/soehne/soehne'
import { SocialLoginButtons } from '@/app/(auth)/components/social-login-buttons'
import { SSOLoginButton } from '@/app/(auth)/components/sso-login-button'
import { inter } from '@/app/fonts/inter/inter'
import { soehne } from '@/app/fonts/soehne/soehne'
const logger = createLogger('LoginForm')

View File

@@ -4,9 +4,9 @@ import { Suspense, useEffect, useState } from 'react'
import Link from 'next/link'
import { useRouter, useSearchParams } from 'next/navigation'
import { createLogger } from '@/lib/logs/console/logger'
import { inter } from '@/app/_styles/fonts/inter/inter'
import { soehne } from '@/app/_styles/fonts/soehne/soehne'
import { SetNewPasswordForm } from '@/app/(auth)/reset-password/reset-password-form'
import { inter } from '@/app/fonts/inter/inter'
import { soehne } from '@/app/fonts/soehne/soehne'
const logger = createLogger('ResetPasswordPage')

View File

@@ -6,7 +6,7 @@ import { Button } from '@/components/ui/button'
import { Input } from '@/components/ui/input'
import { Label } from '@/components/ui/label'
import { cn } from '@/lib/utils'
import { inter } from '@/app/fonts/inter/inter'
import { inter } from '@/app/_styles/fonts/inter/inter'
interface RequestResetFormProps {
email: string

View File

@@ -12,10 +12,10 @@ import { quickValidateEmail } from '@/lib/email/validation'
import { getEnv, isFalsy, isTruthy } from '@/lib/env'
import { createLogger } from '@/lib/logs/console/logger'
import { cn } from '@/lib/utils'
import { inter } from '@/app/_styles/fonts/inter/inter'
import { soehne } from '@/app/_styles/fonts/soehne/soehne'
import { SocialLoginButtons } from '@/app/(auth)/components/social-login-buttons'
import { SSOLoginButton } from '@/app/(auth)/components/sso-login-button'
import { inter } from '@/app/fonts/inter/inter'
import { soehne } from '@/app/fonts/soehne/soehne'
const logger = createLogger('SignupForm')

View File

@@ -1,6 +1,6 @@
import { redirect } from 'next/navigation'
import { getEnv, isTruthy } from '@/lib/env'
import SSOForm from './sso-form'
import SSOForm from '@/app/(auth)/sso/sso-form'
export const dynamic = 'force-dynamic'

View File

@@ -11,8 +11,8 @@ import { quickValidateEmail } from '@/lib/email/validation'
import { env, isFalsy } from '@/lib/env'
import { createLogger } from '@/lib/logs/console/logger'
import { cn } from '@/lib/utils'
import { inter } from '@/app/fonts/inter/inter'
import { soehne } from '@/app/fonts/soehne/soehne'
import { inter } from '@/app/_styles/fonts/inter/inter'
import { soehne } from '@/app/_styles/fonts/soehne/soehne'
const logger = createLogger('SSOForm')

View File

@@ -5,9 +5,9 @@ import { useRouter } from 'next/navigation'
import { Button } from '@/components/ui/button'
import { InputOTP, InputOTPGroup, InputOTPSlot } from '@/components/ui/input-otp'
import { cn } from '@/lib/utils'
import { inter } from '@/app/_styles/fonts/inter/inter'
import { soehne } from '@/app/_styles/fonts/soehne/soehne'
import { useVerification } from '@/app/(auth)/verify/use-verification'
import { inter } from '@/app/fonts/inter/inter'
import { soehne } from '@/app/fonts/soehne/soehne'
interface VerifyContentProps {
hasEmailService: boolean

View File

@@ -17,9 +17,9 @@ import { quickValidateEmail } from '@/lib/email/validation'
import { isHosted } from '@/lib/environment'
import { createLogger } from '@/lib/logs/console/logger'
import { cn } from '@/lib/utils'
import { soehne } from '@/app/_styles/fonts/soehne/soehne'
import Footer from '@/app/(landing)/components/footer/footer'
import Nav from '@/app/(landing)/components/nav/nav'
import { soehne } from '@/app/fonts/soehne/soehne'
const logger = createLogger('CareersPage')

View File

@@ -7,7 +7,7 @@ import {
LinkedInIcon,
xIcon as XIcon,
} from '@/components/icons'
import { inter } from '@/app/fonts/inter/inter'
import { inter } from '@/app/_styles/fonts/inter/inter'
const blocks = [
'Agent',

View File

@@ -1,11 +1,9 @@
// Hero Components
export { IconButton } from './icon-button'
export { DotPattern } from './landing-canvas/dot-pattern'
export type {
LandingBlockProps,
LandingCardData,
} from './landing-canvas/landing-block/landing-block'
// Landing Block
export { LandingBlock } from './landing-canvas/landing-block/landing-block'
export type { LoopNodeData } from './landing-canvas/landing-block/landing-loop-node'
export { LandingLoopNode } from './landing-canvas/landing-block/landing-loop-node'
@@ -22,9 +20,7 @@ export type {
LandingManualBlock,
LandingViewportApi,
} from './landing-canvas/landing-canvas'
// Landing Canvas
export { CARD_HEIGHT, CARD_WIDTH, LandingCanvas } from './landing-canvas/landing-canvas'
// Landing Edge
export { LandingEdge } from './landing-canvas/landing-edge/landing-edge'
export type { LandingFlowProps } from './landing-canvas/landing-flow'
export { LandingFlow } from './landing-canvas/landing-flow'

View File

@@ -1,6 +1,9 @@
import React from 'react'
import { BookIcon } from 'lucide-react'
import { Tag, type TagProps } from './tag'
import {
Tag,
type TagProps,
} from '@/app/(landing)/components/hero/components/landing-canvas/landing-block/tag'
/**
* Data structure for a landing card component

View File

@@ -1,7 +1,7 @@
'use client'
import React from 'react'
import { LoopBlock } from './loop-block'
import { LoopBlock } from '@/app/(landing)/components/hero/components/landing-canvas/landing-block/loop-block'
/**
* Data structure for the loop node

View File

@@ -2,7 +2,10 @@
import React from 'react'
import { Handle, Position } from 'reactflow'
import { LandingBlock, type LandingCardData } from './landing-block'
import {
LandingBlock,
type LandingCardData,
} from '@/app/(landing)/components/hero/components/landing-canvas/landing-block/landing-block'
/**
* React Flow node component for the landing canvas

View File

@@ -3,9 +3,9 @@
import React from 'react'
import type { Edge, Node } from 'reactflow'
import { ReactFlowProvider } from 'reactflow'
import { DotPattern } from './dot-pattern'
import type { LandingCardData } from './landing-block/landing-block'
import { LandingFlow } from './landing-flow'
import { DotPattern } from '@/app/(landing)/components/hero/components/landing-canvas/dot-pattern'
import type { LandingCardData } from '@/app/(landing)/components/hero/components/landing-canvas/landing-block/landing-block'
import { LandingFlow } from '@/app/(landing)/components/hero/components/landing-canvas/landing-flow'
/**
* Visual constants for landing node dimensions

View File

@@ -3,10 +3,13 @@
import React from 'react'
import ReactFlow, { applyNodeChanges, type NodeChange, useReactFlow } from 'reactflow'
import 'reactflow/dist/style.css'
import { LandingLoopNode } from './landing-block/landing-loop-node'
import { LandingNode } from './landing-block/landing-node'
import { CARD_WIDTH, type LandingCanvasProps } from './landing-canvas'
import { LandingEdge } from './landing-edge/landing-edge'
import { LandingLoopNode } from '@/app/(landing)/components/hero/components/landing-canvas/landing-block/landing-loop-node'
import { LandingNode } from '@/app/(landing)/components/hero/components/landing-canvas/landing-block/landing-node'
import {
CARD_WIDTH,
type LandingCanvasProps,
} from '@/app/(landing)/components/hero/components/landing-canvas/landing-canvas'
import { LandingEdge } from '@/app/(landing)/components/hero/components/landing-canvas/landing-edge/landing-edge'
/**
* Props for the LandingFlow component

View File

@@ -33,7 +33,7 @@ import {
SupabaseIcon,
} from '@/components/icons'
import { LandingPromptStorage } from '@/lib/browser-storage'
import { soehne } from '@/app/fonts/soehne/soehne'
import { soehne } from '@/app/_styles/fonts/soehne/soehne'
import {
CARD_WIDTH,
IconButton,
@@ -41,7 +41,7 @@ import {
type LandingGroupData,
type LandingManualBlock,
type LandingViewportApi,
} from './components'
} from '@/app/(landing)/components/hero/components'
/**
* Service-specific template messages for the hero input

View File

@@ -1,5 +1,5 @@
import * as Icons from '@/components/icons'
import { inter } from '@/app/fonts/inter/inter'
import { inter } from '@/app/_styles/fonts/inter/inter'
const modelProviderIcons = [
{ icon: Icons.OpenAIIcon, label: 'OpenAI' },
@@ -13,6 +13,7 @@ const modelProviderIcons = [
{ icon: Icons.OllamaIcon, label: 'Ollama' },
{ icon: Icons.DeepseekIcon, label: 'Deepseek' },
{ icon: Icons.ElevenLabsIcon, label: 'ElevenLabs' },
{ icon: Icons.VllmIcon, label: 'vLLM' },
]
const communicationIcons = [
@@ -88,7 +89,6 @@ interface TickerRowProps {
}
function TickerRow({ direction, offset, showOdd, icons }: TickerRowProps) {
// Create multiple copies of the icons array for seamless looping
const extendedIcons = [...icons, ...icons, ...icons, ...icons]
return (

View File

@@ -14,7 +14,7 @@ import {
import { useRouter } from 'next/navigation'
import { createLogger } from '@/lib/logs/console/logger'
import { cn } from '@/lib/utils'
import { inter } from '@/app/fonts/inter/inter'
import { inter } from '@/app/_styles/fonts/inter/inter'
import {
ENTERPRISE_PLAN_FEATURES,
PRO_PLAN_FEATURES,

View File

@@ -1,4 +1,4 @@
import { inter } from '@/app/fonts/inter/inter'
import { inter } from '@/app/_styles/fonts/inter/inter'
interface LandingTemplatePreviewProps {
previewImage: string

View File

@@ -1,7 +1,6 @@
import { inter } from '@/app/fonts/inter/inter'
import LandingTemplatePreview from './components/landing-template-preview'
import { inter } from '@/app/_styles/fonts/inter/inter'
import LandingTemplatePreview from '@/app/(landing)/components/landing-templates/components/landing-template-preview'
// Mock data for templates
const templates = [
{
id: 1,

Some files were not shown because too many files have changed in this diff Show More