Dataset Management

Hier haben sie die möglichkeit:

➤ Datensätze zu verwalten

Konnektoren

Überblick

Konnektoren verbinden Silent AI mit externen Datenquellen.
Über sie können Inhalte aus angebundenen Systemen in Datasets integriert und für Abfragen genutzt werden.

Der Zugriff erfolgt über das “Konnektoren und Datensätze” Menü (oben rechts) → „Konnektoren“.

Konnektor-Übersicht

Nach dem Öffnen des Bereichs gelangen Sie zur Konnektor-Übersicht.

Hier sehen Sie:

➤ Bereits eingerichtete Konnektoren (falls vorhanden)
➤ Die Möglichkeit, neue Konnektoren hinzuzufügen

Sind noch keine Konnektoren eingerichtet, erscheint eine Hinweisfläche mit der Möglichkeit, den ersten Konnektor anzulegen.

Neuen Konnektor hinzufügen

Um eine neue Datenquelle anzubinden, klicken Sie auf:

➤ „+ Konnektor hinzufügen“

oder – bei leerer Übersicht – auf

➤ „Ersten Konnektor erstellen“

Anschließend öffnet sich ein Auswahlfenster.

Konnektortyp auswählen

Im Auswahlfenster wählen Sie den gewünschten Konnektortyp aus.

Verfügbare Konnektortypen:

➤ Confluence
➤ Dozuki
➤ NAS via SMB

Je nach ausgewähltem Typ werden anschließend spezifische Verbindungsparameter abgefragt (z. B. Serveradresse, Zugangsdaten oder API-Informationen).

Allgemeiner Ablauf zur Einrichtung

➤ Konnektortyp auswählen
➤ Verbindungsdaten eingeben

➤ Berechtigungen festlegen
➤ Speichern

Nach erfolgreicher Einrichtung erscheint der Konnektor in der Übersicht und kann für die Erstellung von Datasets verwendet werden.

Confluence

➤ Name: Geben Sie ihrem Konnektor einen Namen

Zugangsdaten

➤ URL:
Vollständige Webadresse inkl. Pfad: - Cloud: https://firma.atlassian.net/wiki - On-Premise: https://confluence.firma.de/

Wenn der ausgewählte Space Seiten mit Zugriffsbeschränkungen enthält und diese Inhalte über den Konnektor erfasst werden sollen, stellen Sie bitte sicher, dass der API-User in Confluence Zugriff auf diese Seiten erhält.

➤ Username:
Benutzername bzw. E-Mail-Adresse des Confluence-Kontos, das für den Zugriff verwendet wird.

➤ Auth Token / API Key:
Persönlicher API-Token zur sicheren Authentifizierung. Dieser wird im Confluence-/Atlassian-Konto generiert und ersetzt das Passwort bei API-Zugriffen.

Dozuki

➤ Name: Geben Sie ihrem Konnektor einen Namen

Zugangsdaten

➤ Auth Token / API Key:
Authentifizierungstoken für den API-Zugriff. Der Token wird über die Dozuki Authentication API generiert (Login-Endpoint). Hinweis: Je nach Konfiguration der Dozuki-Instanz kann zusätzlich eine App-ID erforderlich sein – diese beim Site-Administrator anfragen.

NAS via SMB

➤ Name: Geben Sie ihrem Konnektor einen Namen

Zugangsdaten

➤ Username:
Benutzername eines Kontos, das Zugriff auf die Freigabe (Share) des NAS-Systems besitzt. (AD login)

➤ Password:
Passwort des angegebenen Benutzers zur Authentifizierung am NAS.

➤ Domain:
Netzwerk- oder Active-Directory-Domain, zu der der Benutzer gehört. (optional)

➤ Host name:
Netzwerkname oder IP-Adresse des NAS-Servers (z. B. nas01.firma.local oder 192.168.1.10).

➤ Port:
Netzwerkport, über den der SMB-Dienst erreichbar ist. Standardmäßig ist dies Port 445.

➤ Share Name:
Name der freigegebenen Ordnerstruktur auf dem NAS, auf die zugegriffen werden soll (z. B. Dokumente oder Projekte).

➤ Auth Method:
Authentifizierungsmethode, die für die Anmeldung verwendet wird (z. B. NTLM, Kerberos oder automatische Aushandlung je nach Serverkonfiguration).

Berechtigungen

Bei der Erstellung eines Konnektors haben Sie außerdem die Möglichkeit bestimmten Nutzern Zugriff auf ihren Konnektor zu gewähren.

Über das Dropdown-Menü ‚Benutzer hinzufügen‘ werden Ihnen alle Nutzer angezeigt. Mit einem Klick auf den entsprechenden Namen werden sie Ihrem Konnektor hinzugefügt. Nachdem ein Benutzer hinzugefügt wurde, erscheint sein Name unterhalb des Dropdown-Menüs. Sollten Sie Benutzer entfernen wollen, können Sie dies per Klick auf das X tun.

Dataset-Übersicht

Jedes Dataset zeigt:

➤ Name
➤ Status
➤ Erstellungsdatum

➤ von welcher Person es erstellt wurde

Schritt 1: Neues Dataset erstellen

Klicken Sie auf:

➤ „Datensatz erstellen“

Es öffnet sich das Dialogfenster „Neues Dataset“.

Dataset-Name vergeben

Geben Sie einen eindeutigen, sprechenden Namen ein.
Der Name sollte den inhaltlichen Zweck des Datasets widerspiegeln (z. B. „Qualitätsmanagement 2024“ oder „Technische Dokumentation SMB“).

Öffentlich / Privat Toggle

Hier können Sie einstellen, ob das Dataset für alle Personen Ihrer Organisation zur Verfügung gestellt werden soll oder ob Sie dem Dataset granulare Berechtigungen hinzufügen möchten.

Berechtigungsregeln

Sollten Sie sich für granulare Berechtigungen entschieden haben, können Sie hier Benutzer hinzufügen, die Zugriff auf das Dataset erhalten sollen.

Über das Dropdown-Menü ‚Benutzer hinzufügen‘ werden Ihnen alle Nutzer angezeigt. Mit einem Klick auf den entsprechenden Namen werden sie Ihrem Dataset hinzugefügt. Nachdem ein Benutzer hinzugefügt wurde, erscheint sein Name unterhalb des Dropdown-Menüs. Sollten Sie Benutzer entfernen wollen, können Sie dies per Klick auf das X tun

Für Nutzer ohne Administratorrechte ist die Benutzerzuweisung aktuell funktional eingeschränkt – das Dataset bleibt faktisch nur für den Ersteller zugänglich.

Gesamtes Dataset erzwingen

Mit dieser Option steuern Sie das Verhalten bei fehlerhaften Datenquellen.

Aktiviert:
Das gesamte Dataset schlägt fehl, sobald eine einzelne Datenquelle nicht geladen werden kann.

Deaktiviert:
Fehlgeschlagene Quellen werden als solche markiert (bild) und übersprungen. Diese können später granular nachgeladen werden.
Alle übrigen funktionierenden Quellen bleiben nutzbar.

Empfehlung: Sollte aktiviert werden, wenn vollständige Datenintegrität zwingend erforderlich ist.

Schritt 2: Quellen Hinzufügen

Unter „Data Sources“ legen Sie fest, welche Quellen dem Dataset hinzugefügt werden.

Mögliche Quellen

Je nach Systemkonfiguration stehen zur Verfügung:
➤ Zuvor eingerichtete Konnektoren (z. B. Confluence, NAS via SMB)
➤ Integrierte Quellen

File Upload – Dateien direkt hochladen
Website – Eine URL crawlen und Inhalte integrieren

Sie können beliebig viele Quellen hinzufügen. Nachdem Sie eine erste Quelle erstellt haben können die hierfür auf “+ Weitere Quelle hinzufügen” klicken.

Built-in Source: File Upload

Ermöglicht das direkte Hochladen von Dateien in das Dataset. Falls gewünscht

Built-in Source: Website

Ermöglicht das Crawlen einer Website-URL. Jede neue Website muss dabei über einen separaten Website-Konnektor angelegt werden.

Nachdem sie eine URL eingegeben haben können Sie Speichern klicken. Die Inhalte der angegebenen Seite werden entdeckt und dem Dataset hinzugefügt.

Entdeckung (Discover)

Bei der Entdeckung werden die angebundenen Quellen analysiert und verfügbare Inhalte identifiziert.

Dabei werden:

➤ Dateien oder Seiten erkannt
➤ Neue Inhalte registriert

Beim Erstellen des Datasets erfolgt die Entdeckung von Quellen automatisch. Den Fortschritt der Entdeckung einzelner Quellen können Sie dem Status entnehmen. zB.

Sie Können während des Entdeckungsvorgangs Silent AI anderweitig nutzen

Dataset speichern

Nach Konfiguration aller Einstellungen klicken Sie auf:

➤ „Fertig“

Das Dataset erscheint anschließend in der Datensatzverwaltung.

Hinweis:
Nach dem Speichern ist das Dataset zwar angelegt, jedoch noch nicht unmittelbar für Chat-Abfragen nutzbar.

Damit Inhalte im Chat verwendet werden können, müssen die entdeckten Datenquellen verarbeitet werden.

Extraktion (Extract)

In der Datensatzverwaltung können Sie nun ihre entdeckten Quellen extrahieren. Bei der Extraktion werden die entdeckten Inhalte verarbeitet und für die Nutzung im Chat aufbereitet.

Dabei werden:

➤ Dokumente geladen
➤ Texte extrahiert
➤ Inhalte strukturiert
➤ Daten für Abfragen indexiert
➤ Änderungen an bestehenden Quellen erfasst und aktualisiert

Erst nach erfolgreicher Extraktion stehen die Inhalte im Chat zur Verfügung.

Ausführungsmöglichkeiten

Für das gesamte Dataset:

➤ Über das Dataset-Menü (⋮):
„Alle extrahieren“

Für einzelne Quellen:

➤ Über das Kontextmenü einer spezifischen Quelle in der Detailansicht des Datasets:
Extraktion nur für eine einzelne Quelle

Sie Können während des Entdeckungsvorgangs Silent AI anderweitig nutzen

Detailansicht

Die Detailsansicht für Datensätze bietet die möglichkeit den Datensatz nachträglich zu bearbeiten. Der Name des Datensatzes den Sie Momentan ausgewählt haben ist dabei oben links angezeigt.

Sie können hier:

➤ Namen des Datensatzes anpassen
➤ Nachträglich Quellen Hinzufügen
➤ Granulare einsicht in den Extraktionsprozess einzelner Quellen erhalten
➤ Einzelne Quellen Erneut extrahieren (zB. fehlgeschlagene / neu hinzugefügte)

Erweiterung bestehender Datasets

Datasets sind nicht statisch und können jederzeit erweitert werden.

Mögliche Erweiterungen:

➤ Neue Datenquellen hinzufügen
➤ Weitere Dateien hochladen
➤ Zusätzliche Konnektoren anbinden

Nach dem Hinzufügen neuer Quellen müssen diese erneut:

➤ Entdeckt
➤ Extrahiert

werden, damit sie im Chat verfügbar sind.

Bereits vorhandene und extrahierte Inhalte bleiben dabei erhalten.

Typischer Aktualisierungs-Workflow

1.) Neue Quelle oder Datei hinzufügen wenn gewünscht: Klicken Sie hierfür den “+ Quelle Hinzufügen” Button. Das Hinzufügen erfolgt dabei identisch zum Hinzufügen von Datenquellen bei der ursprunglichen Erstellung des Datensets.

Je nach Systemkonfiguration stehen zur Verfügung:
➤ Zuvor eingerichtete Konnektoren (z. B. Confluence, NAS via SMB)
➤ Integrierte Quellen

File Upload – Dateien direkt hochladen
Website – Eine URL crawlen und Inhalte integrieren

2.) Extraktion durchführen: Hierfür Können die Entweder Alle der Entdeckten Elemente Extrahieren

oder eine Datenquelle ausklappen und nur einzelne Elemente einer Quelle extrahieren.

Öffentlich vs. Privat

Datasets unterscheiden sich hinsichtlich ihrer Sichtbarkeit und Zugriffsberechtigung.

Private Datasets

Private Datasets, die Sie selbst erstellen:

➤ Sind ausschließlich für Sie sichtbar
➤ Können nur von Ihnen im Chat ausgewählt werden
➤ Sind für andere Nutzer nicht einsehbar

Zusätzliche Private Datasets mit definierten Berechtigungen

Administratoren können private Datasets erstellen, die nur für bestimmte Personen sichtbar sind.

In diesem Fall:

➤ Ist das Dataset nur für die explizit hinterlegten Nutzer sichtbar
➤ Erscheint es in der Dataset-Liste nur bei diesen Personen
➤ Ist es für alle anderen Nutzer vollständig unsichtbar

Die berechtigten Nutzer sind im Dataset unter „Berechtigungsregeln“ explizit aufgeführt.

Nur dort angegebene Personen können das Dataset sehen und verwenden.

Dies gewährleistet eine kontrollierte, rollenbasierte Freigabe sensibler Inhalte.

Öffentliche Datasets

Öffentliche Datasets sind unternehmensweit sichtbar.

Sie:

➤ Können von allen berechtigten Nutzern eingesehen werden
➤ Stehen allen Nutzern zur Auswahl im Chat zur Verfügung

Daten aus Quellen mit Zugriffsbeschränkungen übernehmen diese auch in öffentlichen Datasets. Das Teilen eines Datasets umgeht nicht die Zugriffsbeschränkungen!