Extraer texto en pantalla de vídeo online
Usa OCR para reconocer el texto de los fotogramas del vídeo (subtítulos incrustados, títulos, danmaku, texto de presentaciones), generando automáticamente texto con línea de tiempo y exportando a TXT y SRT con un clic, todo procesado localmente en tu navegador
Reconocimiento OCR del texto en pantalla
Lee el vídeo fotograma a fotograma para reconocer el texto incrustado (subtítulos incrustados, títulos, danmaku y texto de marcas de agua), complementando el reconocimiento de voz basado en audio
Área seleccionable + intervalo personalizado
Reconoce solo el área de subtítulos inferior para mayor precisión, con un intervalo de muestreo flexible que equilibra velocidad e integridad; los resultados se eliminan de duplicados y se fusionan automáticamente
Procesamiento local que protege tu privacidad
La decodificación de fotogramas y el reconocimiento de texto se ejecutan localmente en tu navegador; los vídeos nunca se suben a ningún servidor, así que hasta el contenido privado está seguro
Arrastra los archivos de video aquí
o
Compatible con MP4, WebM, MOV, MKV, AVI y más
Casos de uso para extraer texto en pantalla de vídeo
Organización de contenido y estudio
- Extrae el texto de PPT/pizarras en grabaciones de cursos y clases y organízalo en notas fáciles de buscar
- Extrae el texto de vídeos con subtítulos incrustados (subtítulos grabados en la imagen) para crear transcripciones o material de estudio
- Extrae el código, los comandos y el texto de pasos que aparecen en pantalla en vídeos de tutoriales y demostraciones
Creación y oficina
- Extrae títulos, danmaku y texto de pegatinas de vídeos cortos para reutilizarlos y analizarlos
- Recupera un SRT editable de vídeos que solo tienen subtítulos incrustados y ningún archivo de subtítulos aparte
- Extrae información y datos clave de las diapositivas en grabaciones de demostraciones de producto y lanzamientos
Pasos para usarlo
Sube el video
Haz clic en el área de carga o arrastra el archivo de vídeo. Compatible con MP4, MKV, WebM, MOV y más.
Elegir idioma y área de reconocimiento
Elige el idioma del texto en pantalla y selecciona toda la imagen o solo el área de subtítulos inferior según necesites
Iniciar reconocimiento
Haz clic en «Iniciar reconocimiento de texto» y el OCR reconoce el texto en pantalla fotograma a fotograma de forma local
Previsualiza y exporta
Previsualiza los resultados, descarga TXT/SRT o copia el texto plano con un clic
Acerca de la herramienta de extracción de texto en pantalla de vídeo
La herramienta de extracción de texto en pantalla de VideoKit se basa en WebCodecs y OCR local (reconocimiento óptico de caracteres): primero decodifica el vídeo fotograma a fotograma en imágenes, luego reconoce el texto que aparece en cada fotograma y lo fusiona automáticamente sin duplicados en texto con línea de tiempo.
Está diseñada para reconocer el texto «incrustado en la imagen», como subtítulos incrustados, títulos, danmaku, marcas de agua y texto en pantallas de presentación. Si lo que quieres son subtítulos transcritos del audio, usa la herramienta «Extraer subtítulos de vídeo» (reconocimiento de voz).
Todo el procesamiento se ejecuta localmente en tu navegador; el vídeo y el texto reconocido nunca salen de tu dispositivo. Se recomienda Chrome o Edge; la calidad del OCR depende de la nitidez, el tamaño y el contraste del texto en pantalla, por lo que conviene revisar tras la exportación.
Preguntas frecuentes
¿En qué se diferencia de «Extraer subtítulos de vídeo»?
Esta herramienta usa OCR (reconocimiento óptico de caracteres) para «mirar» el vídeo fotograma a fotograma y reconocer el texto incrustado en la imagen, como subtítulos incrustados, títulos, danmaku, texto de marcas de agua y palabras en pantallas de PPT/presentaciones. En cambio, «Extraer subtítulos de vídeo» usa reconocimiento de voz (ASR) para «transcribir» lo que se dice. En resumen: usa esta herramienta para el texto en pantalla y la de subtítulos para el audio hablado.
¿Cómo reconoce el texto en pantalla?
Según el intervalo de muestreo que definas, la herramienta captura el vídeo fotograma a fotograma en imágenes, luego usa un motor OCR local en el navegador para reconocer el texto de cada fotograma y, por último, elimina duplicados y los fusiona en segmentos de texto con línea de tiempo. Todo el proceso se ejecuta en tu navegador y el vídeo nunca se sube.
¿Qué idiomas de texto admite?
Admite chino (simplificado/tradicional), inglés, japonés, coreano, francés, alemán, español, portugués, italiano, ruso, árabe, hindi, vietnamita, turco, indonesio y más. Antes de reconocer, elige el idioma que coincida con el texto en pantalla; para mezcla de chino e inglés, elige la opción «Chino + English» para obtener mejores resultados.
¿Cómo elijo el intervalo de muestreo y el área de reconocimiento?
Un intervalo menor da resultados más completos, pero el OCR fotograma a fotograma es más lento, así que en vídeos largos prueba primero con un intervalo de 2 a 5 segundos. Si el texto se concentra en la parte inferior de la imagen (subtítulos incrustados típicos), configurar el área de reconocimiento en «Solo área de subtítulos inferior» filtra otras distracciones, acelera el proceso y mejora la precisión; de lo contrario, usa «Toda la imagen».
¿Se suben los archivos a un servidor?
No. La decodificación del vídeo, la captura de fotogramas y el reconocimiento OCR se ejecutan localmente en tu navegador; el archivo de vídeo nunca se sube a ningún servidor. El motor de reconocimiento se descarga desde una CDN y se almacena en caché en tu navegador la primera vez, y luego se puede reutilizar sin conexión.
¿Qué hago si los resultados no son precisos?
La precisión del OCR depende de la nitidez, el tamaño y el contraste del texto en pantalla. Si los resultados no son ideales, prueba: confirmar el idioma correcto, usar un intervalo de muestreo menor, usar «Solo área de subtítulos inferior» para los subtítulos inferiores, o primero mejorar la nitidez del vídeo con nuestras otras herramientas. Conviene revisar los resultados exportados.
Herramientas relacionadas
Extraer subtítulos de vídeo
El reconocimiento de voz convierte lo hablado en el vídeo en subtítulos de texto; exporta SRT/VTT/TXT
Añadir texto al video
Superpón texto personalizado en la imagen del vídeo, grabado como subtítulo incrustado
Extracción de miniaturas de video
Extrae fotogramas clave del video con un clic y genera miniaturas y vistas previas de alta calidad