オンラインで動画から字幕を抽出

AI音声認識が動画内の音声をタイムコード付きのテキストに自動変換。SRT、VTT、TXTをワンクリックで書き出し、全工程をブラウザ内でローカル処理

AIによる自動認識

音声認識モデルが動画の会話を自動で「聞き取り」、一文ずつ手入力する必要はありません。数分で完全なテキスト原稿とタイムコードが手に入ります

多言語 + 多形式

日本語・英語・中国語・韓国語など十数種類の言語に対応し、SRT、VTT字幕やTXTのプレーン原稿を書き出せます。字幕、記録、翻訳などさまざまな用途に対応

ローカル処理でプライバシーを保護

音声抽出、モデル推論、テキスト生成はすべてブラウザ内でローカルに行われ、動画はサーバーへアップロードされないため、プライバシーに関わる内容も安心して処理できます

動画ファイルをここにドラッグ

または

MP4、WebM、MOV、MKV、AVI などの形式に対応

動画から字幕を抽出する活用シーン

コンテンツ制作とオフィス業務

  • インタビュー、ポッドキャスト、会議の録画をワンクリックでテキスト原稿に変換。議事録の整理や要点の抽出をすばやく行えます
  • 短編動画やVlogの字幕ファイルを自動生成。校正後すぐに公開でき、完全視聴率の向上につながります
  • 動画の内容をテキスト原稿に変換し、二次創作や、記事・ブログ向けへの書き換えに活用できます

学習とアクセシビリティ

  • 外国語動画の字幕をリスニング教材として抽出。精聴トレーニングと組み合わせ、一文ずつ原文と照らし合わせて学習できます
  • オンライン授業や講義の録画をテキストに変換。キーワード検索、ノート作成、復習が手軽に行えます
  • 動画の字幕を生成してアクセシビリティを高め、聴覚に障がいのある方や音声を出せない環境の視聴者をサポートします

利用手順

1

動画をアップロード

アップロードエリアをクリックするか、動画ファイルをドラッグ&ドロップ。MP4、MKV、WebM、MOVなどに対応。

2

言語と認識レベルを選択

動画で話されている言語を選び、必要に応じて認識の速度と精度を選択します

3

抽出を開始

「字幕の抽出を開始」をクリックすると、AIがローカルで音声認識とテキスト生成を行います

4

プレビューして書き出し

認識結果をプレビューし、SRT/VTT/TXTをダウンロードするか、プレーンテキストをワンクリックでコピーします

動画字幕抽出ツールについて

VideoKitのオンライン動画字幕抽出ツールは、WebCodecsとローカルのAI音声認識技術を基盤としています。まず動画から音声を抽出し、次に音声認識モデルがタイムコード付きの字幕テキストを「聞き取って」生成します。この一連の処理にサーバーへのアップロードは一切不要です。

「既存の字幕トラックを読み取る」方式とは異なり、本ツールは音声の内容から字幕を自動生成するため、動画に字幕が含まれていなくてもテキストを抽出できます。認識結果はSRT、VTT字幕、またはTXTのプレーン原稿として書き出せます。

すべての処理はローカルのブラウザ内で行われ、動画や認識されたテキストがあなたのデバイスから外に出ることはありません。最適なパフォーマンスを得るにはChromeまたはEdgeブラウザのご利用をおすすめします。長尺の動画では、より高精度の認識レベルを選ぶとよいでしょう。

よくある質問

このツールはどのように字幕を抽出しますか?

本ツールはAI音声認識(ASR)技術を使い、動画内の音声を自動で認識してタイムコード付きの字幕テキストに変換します。動画に既存の字幕トラックを読み取るのではなく、音声を「聞き取って」字幕を生成するため、動画に字幕がまったく含まれていなくてもテキストを抽出できます。認識と書き起こしはすべてブラウザ内でローカルに行われます。

どの字幕形式で書き出せますか?

3種類の形式に対応しています。SRT(最も汎用的な字幕形式で、通し番号とタイムコード付き)、VTT(HTML5動画向けのWeb標準字幕)、TXT(タイムコードのないプレーンテキストの原稿で、議事録やコンテンツ原稿に最適)です。認識完了後は自由にダウンロードでき、プレーンテキストをワンクリックでコピーすることもできます。

どの言語の動画に対応していますか?

中国語(簡体字/繁体字)、英語、日本語、韓国語、スペイン語、フランス語、ドイツ語、ポルトガル語、イタリア語、ロシア語、アラビア語、ヒンディー語、インドネシア語、ベトナム語、トルコ語など、さまざまな言語に対応しています。より正確な認識結果を得るため、抽出前に動画で話されている言語を選択してください。

動画ファイルはサーバーにアップロードされますか?

アップロードされません。音声抽出、AIモデルの推論、字幕生成はすべてお使いのブラウザ内でローカルに行われ、動画ファイルがサーバーへアップロードされることはありません。動画と認識されたテキストは完全にあなた自身の管理下にあるため、プライバシーに関わる内容も安心して処理できます。

認識速度と精度はどう選べばよいですか?

本ツールは複数の認識レベルを用意しています。速度を重視する場合は「最速」または「高速」を選ぶと、短い動画のクイックプレビューに適しています。精度を重視する場合は「高精度」または「最高精度」を選べます(最高精度のレベルにはブラウザのWebGPU対応が必要です)。長尺、中国語、なまりや背景ノイズのある動画には、より高精度のレベルをおすすめします。あるレベルを初めて使用する際は、対応するAIモデルがブラウザのキャッシュにダウンロードされます。

抽出した字幕はそのまま動画に使えますか?

使えます。書き出したSRT/VTT字幕ファイルには標準のタイムコードが付いており、VLCやPotPlayerなどのプレーヤーで外部字幕としてそのまま読み込めます。また、当サイトの「動画に字幕を追加」ツールを使えば、字幕を動画に埋め込んでソフト字幕として生成することもできます。AI認識には多少の誤りが生じる場合があるため、書き出し後に一度簡単に校正することをおすすめします。