AI 教程

AI 视频字幕翻译工作流:从转写、本地化到字幕 QA 与导出

一套可落地的 AI 视频字幕翻译流程:先转写,再本地化,最后做字幕 QA,并导出 SRT、VTT 或平台版本。

AI 视频字幕翻译四步流程图:转写、本地化、QA、导出

AI 视频字幕翻译不要只把台词丢给翻译模型。真正能上线的流程,是先拿到可校对的逐字稿,再做术语一致的本地化,最后用字幕规则检查时轴、断句、可读速度和平台格式。

适用场景:YouTube / Vimeo / 官网课程 / 产品演示视频的中英双语字幕。本文示例为 editorial test plan,需要 POPMARS 自有测试视频跑一遍后再替换截图。

先定交付物:SRT、VTT,还是烧录字幕?

做字幕翻译前,先问一句:最终上传到哪里?YouTube 帮助文档建议新手优先使用 SubRip .srt 或 SubViewer,并说明字幕文件包含文本与时间码;YouTube 对 WebVTT 也有支持,但样式能力有限。Vimeo 官方帮助则支持 SRT 与 WebVTT,并推荐 WebVTT,同时要求 UTF-8 编码。WebVTT 是 W3C 的 timed text 格式,用于通过 HTML <track> 连接视频与外部文本轨。

实操建议:

第一步:用 AI 转写,但不要跳过人工校音

转写阶段的目标不是“直接得到完美译文”,而是得到一份可追踪、可回放、可重排的源语言字幕。OpenAI Speech-to-text 文档显示,截至 2026-05-03,whisper-1 支持 jsontextsrtverbose_jsonvtt 等响应格式;gpt-4o-transcribegpt-4o-mini-transcribe 支持 JSON 或纯文本。Amazon Transcribe 的字幕功能也可输出 WebVTT 和 SubRip,并会同时产出常规 transcript。

推荐流程:

  1. 抽取干净音频:降噪、去掉空白片头,统一采样率。
  2. 先转写源语言:不要直接“音频到译文字幕”,否则术语错了很难追溯。
  3. 保留 segment id:后续翻译、QA、导出都用同一个 cue id 对齐。
  4. 人工校音:重点查产品名、人名、数字、URL、代码命令、同音词。
# 源视频抽音频,保留单声道 wav 便于转写。
ffmpeg -i demo.mp4 -vn -ac 1 -ar 16000 demo.wav

第二步:本地化,不是逐句机器翻译

字幕本地化要控制三件事:术语、语气、长度。DeepL API 的 glossary 文档支持按语言对维护术语表,并可用 TSV 管理 entries;这类功能适合锁定产品名、功能名、品牌口径。LLM 也可以做风格改写,但应被限制在“保留 cue id、不改时间码、不合并句子”的任务边界内。

字幕本地化示例:英文源句、中文译文、术语表命中、长度警告

一个可复用的 prompt 模板:

你是视频字幕本地化编辑。请把 source_text 翻译为简体中文。
规则:
1. 不修改 cue_id、start、end。
2. 产品名按 glossary 保留或使用指定译名。
3. 每条字幕优先控制在两行以内;中文每行建议不超过 18 个汉字。
4. 不逐字硬译口头禅;保留演示步骤和界面按钮名。
5. 输出 JSON 数组,只返回 translated_text 与 qa_notes。

第三步:字幕 QA 要检查“看得懂”和“放得上去”

字幕 QA 至少分四层:文本、时间、版式、平台。Netflix 英文 timed text style guide 给了可参考的工程阈值:英文每行 42 字符,成人节目阅读速度上限 20 characters per second、儿童节目 17 characters per second。中文不应机械套用英文字符数,但可以用同一思路:每条 cue 的显示时长要足够读完,断句要顺口,双人对话不要挤在一行。

QA 清单:

字幕 QA 检查表:术语、CPS、时间轴、格式、平台上传

第四步:导出和交付版本要分开

不要只交一个“最终字幕.srt”。建议每个视频保留 5 个文件:

FFmpeg 官方格式表显示 SubRip 与 WebVTT 都有 muxing/demuxing/encoding/decoding 支持。转换时仍要抽样检查,因为不同播放器对样式、换行和内嵌字幕轨的处理不同。

# SRT 转 VTT,转换后仍需人工抽查时间码与换行。
ffmpeg -i zh-CN.final.srt zh-CN.final.vtt

国内团队的工具选择提醒

截至 2026-05-03,OpenAI API 的 supported countries 页面是可用性依据,页面也提示在列表外访问或提供访问可能导致账号受限。DeepL 也单独维护付费计划可用国家/地区页面。面向国内团队,建议把“可访问性、合规付款、数据出境、客户素材授权”写进流程,而不是等字幕生产到一半才发现工具不可用。

低风险组合:本地或合规云端转写 + 可审计术语表 + 人工 QA + 平台官方格式验证。AI 负责提速,人负责最终可发布性。

内链建议

想把同一套教程同时发布中英双语?把这套流程和 POPMARS 内容工作流结合起来,按选题、翻译、图片和发布检查分工。

Sources

SourceChecked atUsed forRisk note
https://developers.openai.com/api/docs/guides/speech-to-text2026-05-03转写模型与响应格式:whisper-1 可输出 SRT/VTT,gpt-4o-transcribe 支持文本/JSON模型与格式支持可能更新,发布前复核
https://developers.openai.com/api/docs/supported-countries2026-05-03地区可用性与合规提醒可用地区会变化
https://docs.aws.amazon.com/transcribe/latest/dg/subtitles.html2026-05-03WebVTT/SRT 输出与 transcript 交付说明云服务区域与价格未在本文展开
https://developers.deepl.com/api-reference/multilingual-glossaries2026-05-03glossary、TSV entries、API Free/Pro endpoint 差异语言对与套餐限制需发布前复核
https://support.deepl.com/hc/en-us/articles/360020016339-Countries-and-regions-where-DeepL-paid-plans-are-available2026-05-03付费计划地区可用性提醒可用国家/地区会变化
https://support.google.com/youtube/answer/2734698?hl=en2026-05-03YouTube 支持的字幕格式、SRT/VTT 说明平台上传策略可能更新
https://help.vimeo.com/hc/en-us/articles/21956884955537-How-to-add-captions-or-subtitles-to-my-video2026-05-03Vimeo 支持 SRT/WebVTT、UTF-8 要求帮助中心 UI 文案可能更新
https://www.w3.org/TR/webvtt1/2026-05-03WebVTT 定义、HTML track、cue 概念标准文本稳定,但实现差异需测试
https://www.ffmpeg.org/general.html2026-05-03SubRip/WebVTT 支持与转换依据本地 FFmpeg 版本可能不同
https://partnerhelp.netflixstudios.com/hc/en-us/articles/217350977-English-USA-Timed-Text-Style-Guide2026-05-0342 characters/line、CPS 参考阈值、双人字幕规则作为行业参考,不代表所有平台要求

Quality note

工具价格、地区可用性、模型支持、平台字幕格式都可能变化。后续更新前需要复核 OpenAI、DeepL、YouTube、Vimeo 与 FFmpeg 官方页面。本文示例为 editorial test plan,配图为 POPMARS 自制 SVG,不使用供应商截图或第三方版权图。