AI 教程

AI 视频字幕翻译工作流：从转写、本地化到字幕 QA 与导出

一套可落地的 AI 视频字幕翻译流程：先转写，再本地化，最后做字幕 QA，并导出 SRT、VTT 或平台版本。

发布于 May 3, 2026 ，作者：POPMARS Editorial

语言版本：中文 EN

AI 视频字幕翻译四步流程图：转写、本地化、QA、导出

AI 视频字幕翻译不要只把台词丢给翻译模型。真正能上线的流程，是先拿到可校对的逐字稿，再做术语一致的本地化，最后用字幕规则检查时轴、断句、可读速度和平台格式。

适用场景：YouTube / Vimeo / 官网课程 / 产品演示视频的中英双语字幕。本文示例为 editorial test plan，需要 POPMARS 自有测试视频跑一遍后再替换截图。

先定交付物：SRT、VTT，还是烧录字幕？

做字幕翻译前，先问一句：最终上传到哪里？YouTube 帮助文档建议新手优先使用 SubRip .srt 或 SubViewer，并说明字幕文件包含文本与时间码；YouTube 对 WebVTT 也有支持，但样式能力有限。Vimeo 官方帮助则支持 SRT 与 WebVTT，并推荐 WebVTT，同时要求 UTF-8 编码。WebVTT 是 W3C 的 timed text 格式，用于通过 HTML <track> 连接视频与外部文本轨。

实操建议：

YouTube 长视频：先导出 .srt，保留纯文本、纯时间码，避免平台忽略样式。
官网播放器：优先 .vtt，便于 HTML5 <track>、章节与更细的 cue 设置。
必须在剪辑软件里固定字幕样式：另存一版烧录字幕视频，但保留 sidecar .srt/.vtt 便于 SEO、无障碍和二次发布。

第一步：用 AI 转写，但不要跳过人工校音

转写阶段的目标不是“直接得到完美译文”，而是得到一份可追踪、可回放、可重排的源语言字幕。OpenAI Speech-to-text 文档显示，截至 2026-05-03，whisper-1 支持 json、text、srt、verbose_json、vtt 等响应格式；gpt-4o-transcribe 与 gpt-4o-mini-transcribe 支持 JSON 或纯文本。Amazon Transcribe 的字幕功能也可输出 WebVTT 和 SubRip，并会同时产出常规 transcript。

推荐流程：

抽取干净音频：降噪、去掉空白片头，统一采样率。
先转写源语言：不要直接“音频到译文字幕”，否则术语错了很难追溯。
保留 segment id：后续翻译、QA、导出都用同一个 cue id 对齐。
人工校音：重点查产品名、人名、数字、URL、代码命令、同音词。

# 源视频抽音频，保留单声道 wav 便于转写。
ffmpeg -i demo.mp4 -vn -ac 1 -ar 16000 demo.wav

第二步：本地化，不是逐句机器翻译

字幕本地化要控制三件事：术语、语气、长度。DeepL API 的 glossary 文档支持按语言对维护术语表，并可用 TSV 管理 entries；这类功能适合锁定产品名、功能名、品牌口径。LLM 也可以做风格改写，但应被限制在“保留 cue id、不改时间码、不合并句子”的任务边界内。

字幕本地化示例：英文源句、中文译文、术语表命中、长度警告

一个可复用的 prompt 模板：

你是视频字幕本地化编辑。请把 source_text 翻译为简体中文。
规则：
1. 不修改 cue_id、start、end。
2. 产品名按 glossary 保留或使用指定译名。
3. 每条字幕优先控制在两行以内；中文每行建议不超过 18 个汉字。
4. 不逐字硬译口头禅；保留演示步骤和界面按钮名。
5. 输出 JSON 数组，只返回 translated_text 与 qa_notes。

第三步：字幕 QA 要检查“看得懂”和“放得上去”

字幕 QA 至少分四层：文本、时间、版式、平台。Netflix 英文 timed text style guide 给了可参考的工程阈值：英文每行 42 字符，成人节目阅读速度上限 20 characters per second、儿童节目 17 characters per second。中文不应机械套用英文字符数，但可以用同一思路：每条 cue 的显示时长要足够读完，断句要顺口，双人对话不要挤在一行。

QA 清单：

文本：术语表命中率、数字和专有名词、界面按钮名、语气是否符合目标平台。
时间：cue 不重叠，开始/结束不越界；画面切换处避免字幕拖尾。
版式：中文建议两行以内；英文用 42 characters/line 作为硬警戒。
可读速度：英文按 Netflix 指南检查 CPS；中文可用“每秒 4-7 个汉字”作为编辑警戒线，再以人工观看为准。
平台：SRT 用逗号毫秒，VTT 用点毫秒；UTF-8；上传前跑 validator。

字幕 QA 检查表：术语、CPS、时间轴、格式、平台上传

第四步：导出和交付版本要分开

不要只交一个“最终字幕.srt”。建议每个视频保留 5 个文件：

source.en.srt：校过音的源语言字幕。
zh-CN.draft.srt：AI 初译版，仅供编辑。
zh-CN.final.srt：人工 QA 后版本。
zh-CN.final.vtt：官网/播放器版本。
qa-report.md：术语改动、未确认人名、平台上传结果。

FFmpeg 官方格式表显示 SubRip 与 WebVTT 都有 muxing/demuxing/encoding/decoding 支持。转换时仍要抽样检查，因为不同播放器对样式、换行和内嵌字幕轨的处理不同。

# SRT 转 VTT，转换后仍需人工抽查时间码与换行。
ffmpeg -i zh-CN.final.srt zh-CN.final.vtt

国内团队的工具选择提醒

截至 2026-05-03，OpenAI API 的 supported countries 页面是可用性依据，页面也提示在列表外访问或提供访问可能导致账号受限。DeepL 也单独维护付费计划可用国家/地区页面。面向国内团队，建议把“可访问性、合规付款、数据出境、客户素材授权”写进流程，而不是等字幕生产到一半才发现工具不可用。

低风险组合：本地或合规云端转写 + 可审计术语表 + 人工 QA + 平台官方格式验证。AI 负责提速，人负责最终可发布性。

内链建议

想把同一套教程同时发布中英双语？把这套流程和 POPMARS 内容工作流结合起来，按选题、翻译、图片和发布检查分工。

Sources

Source	Checked at	Used for	Risk note
https://developers.openai.com/api/docs/guides/speech-to-text	2026-05-03	转写模型与响应格式：`whisper-1` 可输出 SRT/VTT，`gpt-4o-transcribe` 支持文本/JSON	模型与格式支持可能更新，发布前复核
https://developers.openai.com/api/docs/supported-countries	2026-05-03	地区可用性与合规提醒	可用地区会变化
https://docs.aws.amazon.com/transcribe/latest/dg/subtitles.html	2026-05-03	WebVTT/SRT 输出与 transcript 交付说明	云服务区域与价格未在本文展开
https://developers.deepl.com/api-reference/multilingual-glossaries	2026-05-03	glossary、TSV entries、API Free/Pro endpoint 差异	语言对与套餐限制需发布前复核
https://support.deepl.com/hc/en-us/articles/360020016339-Countries-and-regions-where-DeepL-paid-plans-are-available	2026-05-03	付费计划地区可用性提醒	可用国家/地区会变化
https://support.google.com/youtube/answer/2734698?hl=en	2026-05-03	YouTube 支持的字幕格式、SRT/VTT 说明	平台上传策略可能更新
https://help.vimeo.com/hc/en-us/articles/21956884955537-How-to-add-captions-or-subtitles-to-my-video	2026-05-03	Vimeo 支持 SRT/WebVTT、UTF-8 要求	帮助中心 UI 文案可能更新
https://www.w3.org/TR/webvtt1/	2026-05-03	WebVTT 定义、HTML track、cue 概念	标准文本稳定，但实现差异需测试
https://www.ffmpeg.org/general.html	2026-05-03	SubRip/WebVTT 支持与转换依据	本地 FFmpeg 版本可能不同
https://partnerhelp.netflixstudios.com/hc/en-us/articles/217350977-English-USA-Timed-Text-Style-Guide	2026-05-03	42 characters/line、CPS 参考阈值、双人字幕规则	作为行业参考，不代表所有平台要求

Quality note

工具价格、地区可用性、模型支持、平台字幕格式都可能变化。后续更新前需要复核 OpenAI、DeepL、YouTube、Vimeo 与 FFmpeg 官方页面。本文示例为 editorial test plan，配图为 POPMARS 自制 SVG，不使用供应商截图或第三方版权图。