mirror of
https://github.com/simstudioai/sim.git
synced 2026-01-10 15:38:00 -05:00
121 lines
7.1 KiB
Plaintext
121 lines
7.1 KiB
Plaintext
---
|
|
title: Übersicht
|
|
description: Laden Sie Ihre Dokumente hoch, verarbeiten und durchsuchen Sie sie
|
|
mit intelligenter Vektorsuche und Chunking
|
|
---
|
|
|
|
import { Video } from '@/components/ui/video'
|
|
import { Image } from '@/components/ui/image'
|
|
|
|
Die Wissensdatenbank ermöglicht es Ihnen, Ihre Dokumente hochzuladen, zu verarbeiten und mit intelligenter Vektorsuche und Chunking zu durchsuchen. Dokumente verschiedener Typen werden automatisch verarbeitet, eingebettet und durchsuchbar gemacht. Ihre Dokumente werden intelligent in Chunks aufgeteilt, und Sie können sie mit natürlichsprachlichen Abfragen anzeigen, bearbeiten und durchsuchen.
|
|
|
|
## Upload und Verarbeitung
|
|
|
|
Laden Sie einfach Ihre Dokumente hoch, um zu beginnen. Sim verarbeitet sie automatisch im Hintergrund, extrahiert Text, erstellt Embeddings und teilt sie in durchsuchbare Chunks auf.
|
|
|
|
<div className="mx-auto w-full overflow-hidden rounded-lg">
|
|
<Video src="knowledgebase-1.mp4" width={700} height={450} />
|
|
</div>
|
|
|
|
Das System übernimmt den gesamten Verarbeitungsprozess für Sie:
|
|
|
|
1. **Textextraktion**: Inhalte werden aus Ihren Dokumenten mit spezialisierten Parsern für jeden Dateityp extrahiert
|
|
2. **Intelligentes Chunking**: Dokumente werden in sinnvolle Chunks mit konfigurierbarer Größe und Überlappung aufgeteilt
|
|
3. **Embedding-Generierung**: Vektoreinbettungen werden für semantische Suchfunktionen erstellt
|
|
4. **Verarbeitungsstatus**: Verfolgen Sie den Fortschritt während Ihre Dokumente verarbeitet werden
|
|
|
|
## Unterstützte Dateitypen
|
|
|
|
Sim unterstützt PDF, Word (DOC/DOCX), Klartext (TXT), Markdown (MD), HTML, Excel (XLS/XLSX), PowerPoint (PPT/PPTX) und CSV-Dateien. Dateien können bis zu 100MB groß sein, wobei die optimale Leistung bei Dateien unter 50MB liegt. Sie können mehrere Dokumente gleichzeitig hochladen, und PDF-Dateien werden mit OCR-Verarbeitung für gescannte Dokumente unterstützt.
|
|
|
|
## Anzeigen und Bearbeiten von Chunks
|
|
|
|
Sobald Ihre Dokumente verarbeitet sind, können Sie die einzelnen Chunks anzeigen und bearbeiten. Dies gibt Ihnen volle Kontrolle darüber, wie Ihre Inhalte organisiert und durchsucht werden.
|
|
|
|
<Image src="/static/knowledgebase/knowledgebase.png" alt="Dokumentchunk-Ansicht mit verarbeiteten Inhalten" width={800} height={500} />
|
|
|
|
### Chunk-Konfiguration
|
|
|
|
Beim Erstellen einer Wissensdatenbank können Sie konfigurieren, wie Dokumente in Chunks aufgeteilt werden:
|
|
|
|
| Einstellung | Einheit | Standard | Bereich | Beschreibung |
|
|
|---------|------|---------|-------|-------------|
|
|
| **Maximale Chunk-Größe** | Tokens | 1.024 | 100-4.000 | Maximale Größe jedes Chunks (1 Token ≈ 4 Zeichen) |
|
|
| **Minimale Chunk-Größe** | Zeichen | 1 | 1-2.000 | Minimale Chunk-Größe, um winzige Fragmente zu vermeiden |
|
|
| **Überlappung** | Zeichen | 200 | 0-500 | Kontextüberlappung zwischen aufeinanderfolgenden Chunks |
|
|
|
|
- **Hierarchische Aufteilung**: Berücksichtigt die Dokumentstruktur (Abschnitte, Absätze, Sätze)
|
|
|
|
### Bearbeitungsmöglichkeiten
|
|
- **Chunk-Inhalt bearbeiten**: Textinhalt einzelner Chunks ändern
|
|
- **Chunk-Grenzen anpassen**: Chunks nach Bedarf zusammenführen oder aufteilen
|
|
- **Metadaten hinzufügen**: Chunks mit zusätzlichem Kontext anreichern
|
|
- **Massenoperationen**: Mehrere Chunks effizient verwalten
|
|
|
|
## Erweiterte PDF-Verarbeitung
|
|
|
|
Für PDF-Dokumente bietet Sim erweiterte Verarbeitungsfunktionen:
|
|
|
|
### OCR-Unterstützung
|
|
Wenn mit Azure oder [Mistral OCR](https://docs.mistral.ai/ocr/) konfiguriert:
|
|
- **Verarbeitung gescannter Dokumente**: Text aus bildbasierten PDFs extrahieren
|
|
- **Verarbeitung gemischter Inhalte**: PDFs mit Text und Bildern verarbeiten
|
|
- **Hohe Genauigkeit**: Fortschrittliche KI-Modelle gewährleisten präzise Textextraktion
|
|
|
|
## Verwendung des Knowledge-Blocks in Workflows
|
|
|
|
Sobald Ihre Dokumente verarbeitet sind, können Sie sie in Ihren KI-Workflows über den Knowledge-Block verwenden. Dies ermöglicht Retrieval-Augmented Generation (RAG), wodurch Ihre KI-Agenten auf Ihre Dokumentinhalte zugreifen und darüber nachdenken können, um genauere, kontextbezogene Antworten zu liefern.
|
|
|
|
<Image src="/static/knowledgebase/knowledgebase-2.png" alt="Verwendung des Knowledge-Blocks in Workflows" width={800} height={500} />
|
|
|
|
### Knowledge-Block-Funktionen
|
|
- **Semantische Suche**: Relevante Inhalte mithilfe natürlichsprachlicher Abfragen finden
|
|
- **Kontextintegration**: Relevante Chunks automatisch in Agenten-Prompts einbinden
|
|
- **Dynamisches Abrufen**: Suche erfolgt in Echtzeit während der Workflow-Ausführung
|
|
- **Relevanz-Bewertung**: Ergebnisse nach semantischer Ähnlichkeit sortiert
|
|
|
|
### Integrationsoptionen
|
|
- **System-Prompts**: Stellen Sie Ihren KI-Agenten Kontext bereit
|
|
- **Dynamischer Kontext**: Suchen und fügen Sie relevante Informationen während Konversationen hinzu
|
|
- **Multi-Dokument-Suche**: Durchsuchen Sie Ihre gesamte Wissensdatenbank
|
|
- **Gefilterte Suche**: Kombinieren Sie mit Tags für präzises Abrufen von Inhalten
|
|
|
|
## Vektor-Suchtechnologie
|
|
|
|
Sim verwendet Vektorsuche, die von [pgvector](https://github.com/pgvector/pgvector) unterstützt wird, um die Bedeutung und den Kontext Ihrer Inhalte zu verstehen:
|
|
|
|
### Semantisches Verständnis
|
|
- **Kontextuelle Suche**: Findet relevante Inhalte, auch wenn exakte Schlüsselwörter nicht übereinstimmen
|
|
- **Konzeptbasiertes Abrufen**: Versteht Beziehungen zwischen Ideen
|
|
- **Mehrsprachige Unterstützung**: Funktioniert über verschiedene Sprachen hinweg
|
|
- **Synonymerkennung**: Findet verwandte Begriffe und Konzepte
|
|
|
|
### Suchfunktionen
|
|
- **Natürlichsprachige Abfragen**: Stellen Sie Fragen in einfachem Deutsch
|
|
- **Ähnlichkeitssuche**: Finden Sie konzeptionell ähnliche Inhalte
|
|
- **Hybride Suche**: Kombiniert Vektor- und traditionelle Schlüsselwortsuche
|
|
- **Konfigurierbare Ergebnisse**: Steuern Sie die Anzahl und Relevanzschwelle der Ergebnisse
|
|
|
|
## Dokumentenverwaltung
|
|
|
|
### Organisationsfunktionen
|
|
- **Massen-Upload**: Laden Sie mehrere Dateien gleichzeitig über die asynchrone API hoch
|
|
- **Verarbeitungsstatus**: Echtzeit-Updates zur Dokumentenverarbeitung
|
|
- **Suchen und filtern**: Finden Sie Dokumente schnell in großen Sammlungen
|
|
- **Metadaten-Tracking**: Automatische Erfassung von Dateiinformationen und Verarbeitungsdetails
|
|
|
|
### Sicherheit und Datenschutz
|
|
- **Sichere Speicherung**: Dokumente werden mit Sicherheit auf Unternehmensniveau gespeichert
|
|
- **Zugriffskontrolle**: Workspace-basierte Berechtigungen
|
|
- **Verarbeitungsisolierung**: Jeder Workspace hat isolierte Dokumentenverarbeitung
|
|
- **Datenaufbewahrung**: Konfigurieren Sie Richtlinien zur Dokumentenaufbewahrung
|
|
|
|
## Erste Schritte
|
|
|
|
1. **Navigieren Sie zu Ihrer Wissensdatenbank**: Zugriff über Ihre Workspace-Seitenleiste
|
|
2. **Dokumente hochladen**: Ziehen und ablegen oder Dateien zum Hochladen auswählen
|
|
3. **Verarbeitung überwachen**: Beobachten Sie, wie Dokumente verarbeitet und in Abschnitte unterteilt werden
|
|
4. **Abschnitte erkunden**: Zeigen Sie die verarbeiteten Inhalte an und bearbeiten Sie sie
|
|
5. **Zu Workflows hinzufügen**: Verwenden Sie den Knowledge-Block, um mit Ihren KI-Agenten zu integrieren
|
|
|
|
Die Wissensdatenbank verwandelt Ihre statischen Dokumente in eine intelligente, durchsuchbare Ressource, die Ihre KI-Workflows für fundiertere und kontextbezogene Antworten nutzen können. |