每日讯息!基于C++/FFmpeg的自动给静画为主的MMD生成字幕时间轴的土方法

我7月底刚接触翻译和字幕工作时，认识到做字幕第一步是调时间轴。不过，第一次用Aegisub打开视频时，我就注意到右上角似乎已经把视频分好段了：

如果直接使用这些分段，是不是就不用调时间轴了呢？

(资料图片仅供参考)

经过研究，Aegisub会自动将视频的关键帧标注在时间轴上。简要介绍一下，关键帧（keyframe）是视频压缩的核心原理之一。基于视频是每一帧连续变化的特点，即帧与帧之间的图像差别一般较小，只要适当地间隔选取一些帧完整记录下来，其他帧只需记录与前一帧的差别，就可以缩小视频体积，播放时也能复原出视频。

对于静画为主的MMD视频，画面多数时候是完全不变、一旦变化就是突变，因此关键帧的选取一般为突变后的第一帧，对于时间轴的调整帮助很大。Video选项卡中，可以直接导出关键帧：

保存的文件为纯文本，格式如下：

有了关键帧，就能据此初步做一个自动时间轴的程序。当时我直接采用最简单的字幕格式srt：

使用我最熟悉的C++写了一个简单的转换程序。输入文件中，把前三行去掉。Aegisub的这个功能有bug无法识别帧率（fps），因此要手动看一下。

生成的srt字幕效果如下：

但是仔细一看，字幕分开的地方是正确的，但是很多地方没有分开。比如18话，制作完成后，从131行字幕增加至251行。

原因在于，每一幅图片，都可能对应两三句台词。在说这两三局台词时，画面主体没变，只有下方的字幕改变了，因此基本不会被记录作关键帧。在实际翻译时，还要手动将这些台词分开。

不过，这样已经能够节省大约一半的时间轴工作量了。由于不了解视频格式和视频处理，当时我也只是顺手做一下节约体力的事，之后就暂时利用这个方法制作了几个视频。

方法改进的思路也很简单，就是使用程序检测出所有的突变并记录下来，代替视频自带的关键帧。只是涉及知识技术比较多，之前暂时没有学着做。

昨天去亲戚家吃饭的时候，由于没有事做，就开始着手学习使用c++的视频处理的技术。刚开始时毫无头绪，“简中互联网”的搜索引擎搜出来全是卖课程的，各种网站抄来抄去还抄不全。回家之后，看了一些日文网站和英文网站，决定使用FFmpeg的方法库，但刚理解了原理，还是难以下手。不过，偶然发现了已故大神雷霄骅2013年的博客：

链接： http://t.csdn.cn/HkZQk

系列教程循循善诱、深入浅出。阅读之后，真是醍醐灌顶，豁然开朗。并且，附带的工程样例也是简洁精炼，读懂代码也很容易。今天早晨起来之后，我直接在大神的播放器工程的基础上，去掉播放部分，加上简单的判断部分，实现了判断突变帧的功能，功能代码如下：

具体思路如下：

1. 在以静画为主的视频中，也有连续变化的部分，如淡入淡出。此时，需要判断视频是否处在连续变化之中，连续变化的部分只取开头，避免每一帧都分一段。

2. 由于视频压缩是有损的，因此看上去不变的画面，在压缩之后可能会出现部分变化。因此，不能简单地判断画面有无变化，我的初步解决方案是设定一个阈值（threshold），统计改变的像素数量超过阈值时，就判定画面发生变化。对于720p（1280*720）的视频，我设置为12800，即画面的1/72，使用24话试验（见头图），取得了很好的效果。

另外，输出格式对应之前的转换程序。

这个程序的缺点很明确，逐帧逐像素对比的土方法效率过低，使用i5-11400单线程处理10min 720p@30fps的视频需要十几秒（TLE）（迫真）；使用内存也达到了约500M（MLE）；阈值是我随便设的，这次效果很好，但下次可能会漏一些地方（WA）。改进的思路有：只对比视频的字幕部分、模糊比对、随机采样等等，有机会可能也会试验一下其他类型的视频。既然已经满足了需求，暂时就放在这里。

总之是现学现卖写出来的破烂。程序就我自用了，仅分享一下思路，如果有大佬可以改进，或者向我介绍一下有没有现成的轮子，非常感谢~

最后，感谢已故雷霄骅大神对音视频处理技术的无私分享，也怀念过去的中文互联网。虽然我很多时候倾向于在油管看视频、在其他国外平台学习知识，但毕竟是真真正正的国人，希望自己的微小的工作能让明天会更好。