Trích xuất văn bản trên màn hình video trực tuyến
Dùng OCR để nhận dạng văn bản trong khung hình video—phụ đề cứng, tiêu đề, danmaku, chữ thuyết trình—tự động tạo văn bản kèm mốc thời gian và xuất ra TXT và SRT chỉ với một cú nhấp, tất cả xử lý cục bộ trong trình duyệt của bạn
Nhận dạng văn bản màn hình bằng OCR
Đọc video theo từng khung hình để nhận dạng văn bản được nung vào—phụ đề cứng, tiêu đề, danmaku và chữ hình mờ—bổ trợ cho nhận dạng giọng nói dựa trên âm thanh
Vùng có thể chọn + khoảng tùy chỉnh
Chỉ nhận dạng vùng phụ đề dưới để tăng độ chính xác, với khoảng lấy mẫu linh hoạt cân bằng giữa tốc độ và độ đầy đủ; kết quả được tự động loại trùng và gộp lại
Xử lý cục bộ bảo vệ quyền riêng tư
Việc giải mã khung hình và nhận dạng văn bản đều chạy cục bộ trong trình duyệt của bạn; video không bao giờ được tải lên bất kỳ máy chủ nào, nên ngay cả nội dung riêng tư cũng an toàn
Kéo thả tệp video vào đây
hoặc
Hỗ trợ các định dạng MP4, WebM, MOV, MKV, AVI
Trường hợp sử dụng trích xuất văn bản màn hình video
Sắp xếp nội dung và học tập
- Trích xuất chữ trên PPT/bảng trong bản ghi khóa học và bài giảng, sắp xếp thành ghi chú dễ tìm kiếm
- Trích xuất văn bản từ video có phụ đề cứng (phụ đề nung vào hình ảnh) để tạo bản chép lời hoặc tài liệu học tập
- Trích xuất mã, lệnh và văn bản các bước hiển thị trên màn hình trong video hướng dẫn và demo
Sáng tạo và văn phòng
- Trích xuất tiêu đề, danmaku và chữ nhãn dán từ video ngắn để tái sử dụng và phân tích
- Khôi phục tệp SRT có thể chỉnh sửa từ video chỉ có phụ đề cứng và không có tệp phụ đề riêng
- Trích xuất thông tin và dữ liệu quan trọng từ các slide trong bản ghi demo sản phẩm và sự kiện ra mắt
Các bước sử dụng
Tải lên video
Nhấp vào vùng tải lên hoặc kéo thả file video. Hỗ trợ MP4, MKV, WebM, MOV và nhiều hơn.
Chọn ngôn ngữ và vùng nhận dạng
Chọn ngôn ngữ của văn bản màn hình, và chọn toàn bộ khung hình hoặc chỉ vùng phụ đề dưới tùy nhu cầu
Bắt đầu nhận dạng
Nhấp «Bắt đầu nhận dạng văn bản» và OCR nhận dạng văn bản màn hình theo từng khung hình ngay tại máy
Xem trước và xuất
Xem trước kết quả, tải TXT/SRT hoặc sao chép văn bản thuần chỉ với một cú nhấp
Giới thiệu công cụ trích xuất văn bản màn hình video
Công cụ trích xuất văn bản màn hình của VideoKit dựa trên WebCodecs và OCR cục bộ (nhận dạng ký tự quang học): trước tiên giải mã video thành ảnh theo từng khung hình, rồi nhận dạng văn bản xuất hiện trong mỗi khung, tự động loại trùng và gộp lại thành văn bản kèm mốc thời gian.
Công cụ được thiết kế để nhận dạng văn bản «nung vào hình ảnh», như phụ đề cứng, tiêu đề, danmaku, hình mờ và chữ trên màn hình thuyết trình. Nếu bạn muốn phụ đề được chép lại từ âm thanh, hãy dùng công cụ «Trích xuất phụ đề video» (nhận dạng giọng nói).
Mọi xử lý diễn ra cục bộ trong trình duyệt của bạn; video và văn bản đã nhận dạng không bao giờ rời khỏi thiết bị. Khuyến nghị dùng Chrome hoặc Edge; chất lượng OCR liên quan đến độ rõ, cỡ chữ và độ tương phản của văn bản màn hình, nên nên rà soát lại sau khi xuất.
Câu hỏi thường gặp
Công cụ này khác gì với «Trích xuất phụ đề video»?
Công cụ này dùng OCR (nhận dạng ký tự quang học) để «nhìn» video theo từng khung hình và nhận dạng văn bản được nung vào hình ảnh, như phụ đề cứng, tiêu đề, danmaku, chữ hình mờ và chữ trên màn hình PPT/thuyết trình. Còn công cụ «Trích xuất phụ đề video» dùng nhận dạng giọng nói (ASR) để «chép lại» những gì được nói. Nói ngắn gọn: chữ trên màn hình thì dùng công cụ này, âm thanh lời nói thì dùng công cụ phụ đề.
Công cụ nhận dạng văn bản màn hình như thế nào?
Theo khoảng lấy mẫu bạn đặt, công cụ chụp video thành ảnh theo từng khung hình, rồi dùng bộ máy OCR cục bộ trong trình duyệt để nhận dạng văn bản của mỗi khung, và cuối cùng loại bỏ trùng lặp, gộp thành các đoạn văn bản kèm mốc thời gian. Toàn bộ quá trình chạy trong trình duyệt của bạn và video không bao giờ được tải lên.
Hỗ trợ văn bản những ngôn ngữ nào?
Hỗ trợ tiếng Trung (giản thể/phồn thể), tiếng Anh, tiếng Nhật, tiếng Hàn, tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, tiếng Bồ Đào Nha, tiếng Ý, tiếng Nga, tiếng Ả Rập, tiếng Hindi, tiếng Việt, tiếng Thổ Nhĩ Kỳ, tiếng Indonesia và nhiều ngôn ngữ khác. Trước khi nhận dạng, hãy chọn ngôn ngữ khớp với văn bản màn hình; nếu lẫn tiếng Trung và tiếng Anh, hãy chọn tùy chọn «Tiếng Trung + English» để có kết quả tốt hơn.
Chọn khoảng lấy mẫu và vùng nhận dạng thế nào?
Khoảng càng nhỏ thì nhận dạng càng đầy đủ, nhưng OCR theo từng khung hình chậm hơn, nên với video dài hãy thử khoảng 2–5 giây trước. Nếu văn bản tập trung ở phần dưới khung hình (phụ đề cứng điển hình), đặt vùng nhận dạng thành «Chỉ vùng phụ đề dưới» sẽ lọc bỏ nhiễu khác, tăng tốc và cải thiện độ chính xác; nếu không, hãy dùng «Toàn bộ khung hình».
Tệp video có được tải lên máy chủ không?
Không. Việc giải mã video, chụp khung hình và nhận dạng văn bản OCR đều chạy cục bộ trong trình duyệt của bạn; tệp video không bao giờ được tải lên bất kỳ máy chủ nào. Bộ máy nhận dạng được tải từ CDN và lưu vào bộ nhớ đệm trình duyệt trong lần đầu sử dụng, sau đó có thể dùng lại ngoại tuyến.
Kết quả không chính xác thì phải làm sao?
Độ chính xác của OCR phụ thuộc vào độ rõ, cỡ chữ và độ tương phản của văn bản màn hình. Nếu kết quả chưa lý tưởng, hãy thử: xác nhận đúng ngôn ngữ, dùng khoảng lấy mẫu nhỏ hơn, dùng «Chỉ vùng phụ đề dưới» cho phụ đề ở dưới, hoặc làm nét video trước bằng các công cụ khác của chúng tôi. Nên rà soát lại kết quả sau khi xuất.
Công cụ liên quan
Trích xuất phụ đề video
Nhận dạng giọng nói chuyển lời nói trong video thành phụ đề văn bản; xuất SRT/VTT/TXT
Thêm văn bản vào video
Phủ văn bản tùy chỉnh lên hình ảnh video, nung thành phụ đề cứng
Trích xuất ảnh xem trước video
Trích xuất khung hình chính video chỉ với một cú nhấp, tạo ảnh xem trước và hình thu nhỏ chất lượng cao