在线提取视频字幕

AI 语音识别自动将视频中的语音转成带时间轴的文字,一键导出 SRT、VTT、TXT,全程浏览器本地处理

AI 自动识别

基于语音识别模型自动「听写」视频对话,无需手动逐句输入,几分钟得到完整文字稿和时间轴

多语言 + 多格式

支持中英日韩等十余种语言,可导出 SRT、VTT 字幕和 TXT 纯文稿,满足字幕、记录、翻译等多种用途

本地处理保护隐私

音频提取、模型推理与文字生成均在浏览器本地完成,视频不上传任何服务器,隐私内容也能放心处理

拖拽视频文件到此处

支持 MP4、WebM、MOV、MKV、AVI 等格式

提取视频字幕的使用场景

内容创作与办公

  • 把采访、播客、会议录像一键转成文字稿,快速整理纪要、提炼要点
  • 为短视频、Vlog 自动生成字幕文件,校对后直接发布,提升完播率
  • 将视频内容转成文字稿,用于二次创作、改写成图文或公众号文章

学习与无障碍

  • 提取外语视频字幕作为听力材料,配合精听练习,逐句对照原文学习
  • 把网课、讲座录像转成文字,方便检索关键词、做笔记和复习
  • 为视频生成字幕提升无障碍访问性,帮助听障人群和静音环境下的观众

使用步骤

1

上传视频

点击上传区域或拖拽视频文件,支持 MP4、MKV、WebM、MOV 等格式

2

选择语言与识别档位

选择视频中说话的语言,并按需求选择识别速度与准确率

3

开始提取

点击「开始提取字幕」,AI 在本地完成音频识别和文字生成

4

预览并导出

预览识别结果,下载 SRT/VTT/TXT 或一键复制纯文本

关于提取视频字幕工具

VideoKit 在线提取视频字幕工具基于 WebCodecs 与本地 AI 语音识别技术,先从视频中提取音频,再用语音识别模型「听写」出带时间轴的文字字幕,整个过程无需上传服务器。

与「读取已有字幕轨道」不同,本工具是根据音频内容自动生成字幕,因此即使视频本身没有字幕也能提取出文字。识别结果可导出为 SRT、VTT 字幕或 TXT 纯文稿。

所有处理均在本地浏览器完成,视频和识别出的文字不会离开您的设备。推荐使用 Chrome 或 Edge 浏览器以获得最佳性能,长视频建议选择更高准确率的识别档位。

常见问题

这个工具是如何提取字幕的?

本工具使用 AI 语音识别(ASR)技术,自动识别视频中的语音内容并转换成带时间轴的文字字幕。它不是从视频里读取已有的字幕轨道,而是根据音频「听写」生成字幕,因此即使视频本身没有任何字幕,也能提取出文字。识别和转写全部在浏览器本地完成。

支持导出哪些字幕格式?

支持三种格式:SRT(最通用的字幕格式,带序号和时间轴)、VTT(Web 标准字幕,用于 HTML5 视频)、TXT(纯文本文稿,没有时间轴,适合做会议记录、内容稿)。识别完成后可任意下载,也可以一键复制纯文本。

支持哪些语言的视频?

支持中文(简体/繁体)、英语、日语、韩语、西班牙语、法语、德语、葡萄牙语、意大利语、俄语、阿拉伯语、印地语、印尼语、越南语、土耳其语等多种语言。提取前请选择视频中说话的语言,以获得更准确的识别效果。

视频文件会被上传到服务器吗?

不会。音频提取、AI 模型推理和字幕生成全部在您的浏览器本地完成,视频文件不会上传到任何服务器。您的视频和识别出的文字内容完全由您自己掌控,可放心处理隐私内容。

识别速度和准确率怎么选?

工具提供多个识别档位:追求速度可选「最快」或「很快」,适合短视频快速预览;追求准确率可选「更准」或「最准」(最准档位需要浏览器支持 WebGPU)。长视频、中文、有口音或背景噪声的视频建议选更高准确率的档位。首次使用某档位时会下载对应的 AI 模型到浏览器缓存。

提取出的字幕可以直接用于视频吗?

可以。导出的 SRT/VTT 字幕文件带有标准时间轴,可直接在 VLC、PotPlayer 等播放器中作为外挂字幕加载,也可以用我们的「视频添加字幕」工具把它嵌入视频生成软字幕。AI 识别可能存在少量错误,建议导出后简单校对一遍。