AI 教程
AI 视频字幕翻译工作流:从转写、本地化到字幕 QA 与导出
一套可落地的 AI 视频字幕翻译流程:先转写,再本地化,最后做字幕 QA,并导出 SRT、VTT 或平台版本。
AI 视频字幕翻译不要只把台词丢给翻译模型。真正能上线的流程,是先拿到可校对的逐字稿,再做术语一致的本地化,最后用字幕规则检查时轴、断句、可读速度和平台格式。
适用场景:YouTube / Vimeo / 官网课程 / 产品演示视频的中英双语字幕。本文示例为 editorial test plan,需要 POPMARS 自有测试视频跑一遍后再替换截图。
先定交付物:SRT、VTT,还是烧录字幕?
做字幕翻译前,先问一句:最终上传到哪里?YouTube 帮助文档建议新手优先使用 SubRip .srt 或 SubViewer,并说明字幕文件包含文本与时间码;YouTube 对 WebVTT 也有支持,但样式能力有限。Vimeo 官方帮助则支持 SRT 与 WebVTT,并推荐 WebVTT,同时要求 UTF-8 编码。WebVTT 是 W3C 的 timed text 格式,用于通过 HTML <track> 连接视频与外部文本轨。
实操建议:
- YouTube 长视频:先导出
.srt,保留纯文本、纯时间码,避免平台忽略样式。 - 官网播放器:优先
.vtt,便于 HTML5<track>、章节与更细的 cue 设置。 - 必须在剪辑软件里固定字幕样式:另存一版烧录字幕视频,但保留 sidecar
.srt/.vtt便于 SEO、无障碍和二次发布。
第一步:用 AI 转写,但不要跳过人工校音
转写阶段的目标不是“直接得到完美译文”,而是得到一份可追踪、可回放、可重排的源语言字幕。OpenAI Speech-to-text 文档显示,截至 2026-05-03,whisper-1 支持 json、text、srt、verbose_json、vtt 等响应格式;gpt-4o-transcribe 与 gpt-4o-mini-transcribe 支持 JSON 或纯文本。Amazon Transcribe 的字幕功能也可输出 WebVTT 和 SubRip,并会同时产出常规 transcript。
推荐流程:
- 抽取干净音频:降噪、去掉空白片头,统一采样率。
- 先转写源语言:不要直接“音频到译文字幕”,否则术语错了很难追溯。
- 保留 segment id:后续翻译、QA、导出都用同一个 cue id 对齐。
- 人工校音:重点查产品名、人名、数字、URL、代码命令、同音词。
# 源视频抽音频,保留单声道 wav 便于转写。
ffmpeg -i demo.mp4 -vn -ac 1 -ar 16000 demo.wav
第二步:本地化,不是逐句机器翻译
字幕本地化要控制三件事:术语、语气、长度。DeepL API 的 glossary 文档支持按语言对维护术语表,并可用 TSV 管理 entries;这类功能适合锁定产品名、功能名、品牌口径。LLM 也可以做风格改写,但应被限制在“保留 cue id、不改时间码、不合并句子”的任务边界内。
一个可复用的 prompt 模板:
你是视频字幕本地化编辑。请把 source_text 翻译为简体中文。
规则:
1. 不修改 cue_id、start、end。
2. 产品名按 glossary 保留或使用指定译名。
3. 每条字幕优先控制在两行以内;中文每行建议不超过 18 个汉字。
4. 不逐字硬译口头禅;保留演示步骤和界面按钮名。
5. 输出 JSON 数组,只返回 translated_text 与 qa_notes。
第三步:字幕 QA 要检查“看得懂”和“放得上去”
字幕 QA 至少分四层:文本、时间、版式、平台。Netflix 英文 timed text style guide 给了可参考的工程阈值:英文每行 42 字符,成人节目阅读速度上限 20 characters per second、儿童节目 17 characters per second。中文不应机械套用英文字符数,但可以用同一思路:每条 cue 的显示时长要足够读完,断句要顺口,双人对话不要挤在一行。
QA 清单:
- 文本:术语表命中率、数字和专有名词、界面按钮名、语气是否符合目标平台。
- 时间:cue 不重叠,开始/结束不越界;画面切换处避免字幕拖尾。
- 版式:中文建议两行以内;英文用 42 characters/line 作为硬警戒。
- 可读速度:英文按 Netflix 指南检查 CPS;中文可用“每秒 4-7 个汉字”作为编辑警戒线,再以人工观看为准。
- 平台:SRT 用逗号毫秒,VTT 用点毫秒;UTF-8;上传前跑 validator。
第四步:导出和交付版本要分开
不要只交一个“最终字幕.srt”。建议每个视频保留 5 个文件:
source.en.srt:校过音的源语言字幕。zh-CN.draft.srt:AI 初译版,仅供编辑。zh-CN.final.srt:人工 QA 后版本。zh-CN.final.vtt:官网/播放器版本。qa-report.md:术语改动、未确认人名、平台上传结果。
FFmpeg 官方格式表显示 SubRip 与 WebVTT 都有 muxing/demuxing/encoding/decoding 支持。转换时仍要抽样检查,因为不同播放器对样式、换行和内嵌字幕轨的处理不同。
# SRT 转 VTT,转换后仍需人工抽查时间码与换行。
ffmpeg -i zh-CN.final.srt zh-CN.final.vtt
国内团队的工具选择提醒
截至 2026-05-03,OpenAI API 的 supported countries 页面是可用性依据,页面也提示在列表外访问或提供访问可能导致账号受限。DeepL 也单独维护付费计划可用国家/地区页面。面向国内团队,建议把“可访问性、合规付款、数据出境、客户素材授权”写进流程,而不是等字幕生产到一半才发现工具不可用。
低风险组合:本地或合规云端转写 + 可审计术语表 + 人工 QA + 平台官方格式验证。AI 负责提速,人负责最终可发布性。
内链建议
想把同一套教程同时发布中英双语?把这套流程和 POPMARS 内容工作流结合起来,按选题、翻译、图片和发布检查分工。
Sources
Quality note
工具价格、地区可用性、模型支持、平台字幕格式都可能变化。后续更新前需要复核 OpenAI、DeepL、YouTube、Vimeo 与 FFmpeg 官方页面。本文示例为 editorial test plan,配图为 POPMARS 自制 SVG,不使用供应商截图或第三方版权图。
Newsletter
把实用 AI 工作流发到你的邮箱。
每周获取 POPMARS 的 AI 工具、工作流拆解和可复用模板。