既然把博客内容翻译成了英文,那么自动翻译博士论文有没有可能呢?我的博士论文有 200 多页,而且里面有很多图,AI 能自动把这么多 LaTeX 代码翻译得一字不差吗?论文里面的图怎么翻译?

首先,把原来翻译 Markdown 的 prompt 改成翻译 LaTeX 的。原来翻译 Markdown 的时候,我是把内容按行分隔,连续的几行凑够 2048 个字符,就请求一次 GPT-4。在翻译 LaTeX 的时候仍然这样做。

就像 Markdown 一样,GPT-4 输出的内容经常有前缀和后缀,好在设置为 temperature = 0.1 之后前缀和后缀都比较固定,可以写个后处理脚本直接给去掉。此外,GPT-4 对 LaTeX 中的转义字符不够了解,例如典型的下划线 _、美元符号 $ 和制表符 &,经常没有转义导致语法错误。这也是可以通过后处理脚本,用一些规则识别到底需不需要转义,如果需要转义就自动加上。

总的来说,GPT-4 的 LaTeX 能力是不错的,除了把一些 reference 给搞乱了导致引用变成问号了,其他的地方都没什么问题。经过后处理脚本后直接就可以编译了。

其次,为了翻译论文里面的图,我首先尝试了一些 PDF 翻译工具,发现没有一家能用,这些工具都只能翻译 PDF 中的大块文字,对于架构图,只会把整张图都搞得乱七八糟。因此,我用了图片翻译的方法。首先把 PDF 转成图片,然后调用有道图片翻译 API,如果识别出了中文字符,就把用翻译出的图片替换原来的 PDF;如果没有识别出任何中文字符(例如一些实验结果图),就保留原样。

其实有道图片翻译的原理也是先对图片做 OCR,把识别出的每个文字块逐个翻译,再用翻译后的文字块替换掉图片原来位置上的文字。我感觉对于 PDF,这也是可以做的,而且可以保持 PDF 仍然是矢量图。希望做 PDF 翻译工具的改进一下。

整个翻译花了半天时间,一些小问题也懒得修了。虽然翻译质量肯定不如手写的,尤其是图片翻译质量一般,但是基本上能看了。除了对 ustcthesis.cls 做了一些微调(例如把英文封面放在中文封面前面)以外,没有对翻译后的内容做任何人工修改。

AI 自动翻译的版本: High Performance Data Center Systems with Programmable Network Interface Cards (PDF, 8 MB)

中文原版: 基于可编程网卡的高性能数据中心系统 (PDF, 8 MB)

现在 arxiv 上面的 paper 都是有 LaTeX 源码的,按照这个方法,都可以直接翻译成中文论文了。希望哪天多模态模型能强到只需要 PDF,不要 LaTeX 源码,就能做翻译,这就厉害了。

Comments

2023-09-14