Bildschirmtext aus Video online extrahieren

Nutze OCR, um den Text in den Videobildern zu erkennen – eingebrannte Untertitel, Titel, Danmaku, Präsentationstext –, erzeuge automatisch Text mit Zeitachse und exportiere per Klick nach TXT und SRT, alles lokal im Browser verarbeitet

OCR-Erkennung von Bildschirmtext

Liest das Video Bild für Bild, um eingebrannten Text zu erkennen – eingebrannte Untertitel, Titel, Danmaku und Wasserzeichentext –, als Ergänzung zur audiobasierten Spracherkennung

Wählbarer Bereich + individuelles Intervall

Erkenne für höhere Genauigkeit nur den unteren Untertitelbereich, mit flexiblem Abtastintervall, das Geschwindigkeit und Vollständigkeit ausbalanciert; Ergebnisse werden automatisch dedupliziert und zusammengeführt

Lokale Verarbeitung schützt die Privatsphäre

Bilddecodierung und Texterkennung laufen beide lokal in deinem Browser; Videos werden nie auf einen Server hochgeladen, sodass selbst private Inhalte sicher sind

Ziehen Sie Videodateien hierher

oder

Unterstützt MP4, WebM, MOV, MKV, AVI und weitere Formate

Anwendungsfälle für das Extrahieren von Bildschirmtext aus Videos

Inhalte ordnen und lernen

  • Extrahiere den Text von PPT/Tafeln in Kurs- und Vorlesungsaufzeichnungen und ordne ihn in durchsuchbare Notizen
  • Extrahiere den Text aus Videos mit eingebrannten Untertiteln (ins Bild gebrannte Untertitel), um Transkripte oder Lernmaterial zu erstellen
  • Extrahiere Code, Befehle und Schritt-für-Schritt-Text, der in Tutorials und Demo-Videos auf dem Bildschirm erscheint

Kreation und Büro

  • Extrahiere Titel, Danmaku und Sticker-Text aus Kurzvideos zur Weiterverwendung und Analyse
  • Stelle aus Videos, die nur eingebrannte Untertitel und keine separate Untertiteldatei haben, ein bearbeitbares SRT wieder her
  • Extrahiere wichtige Informationen und Daten aus Folien in Produktdemos und Launch-Aufzeichnungen

So wird's gemacht

1

Video hochladen

Klicke auf den Upload-Bereich oder ziehe die Videodatei. Unterstützt MP4, MKV, WebM, MOV und mehr.

2

Sprache und Erkennungsbereich wählen

Wähle die Sprache des Bildschirmtexts und nach Bedarf das ganze Bild oder nur den unteren Untertitelbereich

3

Erkennung starten

Klicke auf „Texterkennung starten“, und die OCR erkennt den Bildschirmtext lokal Bild für Bild

4

Vorschau und Export

Ergebnisse in der Vorschau ansehen, TXT/SRT herunterladen oder den reinen Text per Klick kopieren

Über das Tool zum Extrahieren von Bildschirmtext aus Videos

Das Tool von VideoKit zum Extrahieren von Bildschirmtext basiert auf WebCodecs und lokaler OCR (optische Zeichenerkennung): Zuerst wird das Video Bild für Bild in Bilder decodiert, dann der in jedem Bild erscheinende Text erkannt und automatisch dedupliziert und zu Text mit Zeitachse zusammengeführt.

Es ist darauf ausgelegt, „ins Bild eingebrannten“ Text zu erkennen, etwa eingebrannte Untertitel, Titel, Danmaku, Wasserzeichen und Text auf Präsentationsbildschirmen. Wenn du aus dem Audio transkribierte Untertitel möchtest, verwende das Tool „Untertitel aus Video extrahieren“ (Spracherkennung).

Die gesamte Verarbeitung läuft lokal in deinem Browser; das Video und der erkannte Text verlassen dein Gerät nie. Chrome oder Edge wird empfohlen; die OCR-Qualität hängt von Schärfe, Größe und Kontrast des Bildschirmtexts ab, daher empfiehlt sich eine Korrektur nach dem Export.

Häufig gestellte Fragen

Worin unterscheidet es sich von „Untertitel aus Video extrahieren“?

Dieses Tool nutzt OCR (optische Zeichenerkennung), um das Video Bild für Bild zu „betrachten“ und den ins Bild eingebrannten Text zu erkennen – etwa eingebrannte Untertitel, Titel, Danmaku, Wasserzeichentext und Wörter auf PPT-/Präsentationsbildschirmen. Das Tool „Untertitel aus Video extrahieren“ nutzt dagegen Spracherkennung (ASR), um das Gesprochene zu „transkribieren“. Kurz gesagt: für Text auf dem Bildschirm dieses Tool, für gesprochenes Audio das Untertitel-Tool.

Wie wird der Bildschirmtext erkannt?

Anhand des von dir festgelegten Abtastintervalls erfasst das Tool das Video Bild für Bild als Bilder, erkennt dann mit einer lokalen OCR-Engine im Browser den Text jedes Bildes und entfernt schließlich Duplikate und fügt alles zu Textsegmenten mit Zeitachse zusammen. Der gesamte Vorgang läuft in deinem Browser und das Video wird nie hochgeladen.

Welche Textsprachen werden unterstützt?

Unterstützt werden Chinesisch (vereinfacht/traditionell), Englisch, Japanisch, Koreanisch, Französisch, Deutsch, Spanisch, Portugiesisch, Italienisch, Russisch, Arabisch, Hindi, Vietnamesisch, Türkisch, Indonesisch und mehr. Wähle vor der Erkennung die zum Bildschirmtext passende Sprache; bei gemischtem Chinesisch und Englisch wähle die Option „Chinesisch + English“ für bessere Ergebnisse.

Wie wähle ich Abtastintervall und Erkennungsbereich?

Ein kleineres Intervall liefert vollständigere Ergebnisse, aber die OCR Bild für Bild ist langsamer; probiere bei langen Videos daher zuerst ein Intervall von 2–5 Sekunden. Wenn sich der Text im unteren Bildbereich konzentriert (typische eingebrannte Untertitel), filtert die Einstellung „Nur unterer Untertitelbereich“ andere Störungen heraus, beschleunigt den Vorgang und verbessert die Genauigkeit; ansonsten verwende „Ganzes Bild“.

Werden die Videodateien auf einen Server hochgeladen?

Nein. Videodecodierung, Bilderfassung und OCR-Texterkennung laufen alle lokal in deinem Browser; die Videodatei wird nie auf einen Server hochgeladen. Die Erkennungs-Engine wird bei der ersten Nutzung von einem CDN heruntergeladen und im Browser zwischengespeichert und ist danach offline wiederverwendbar.

Was tun, wenn die Ergebnisse nicht genau sind?

Die OCR-Genauigkeit hängt von Schärfe, Größe und Kontrast des Bildschirmtexts ab. Wenn die Ergebnisse nicht ideal sind, versuche: die richtige Sprache bestätigen, ein kleineres Abtastintervall verwenden, für untere Untertitel „Nur unterer Untertitelbereich“ nutzen oder das Video zuerst mit unseren anderen Tools schärfen. Es empfiehlt sich, die exportierten Ergebnisse Korrektur zu lesen.