为何谷歌翻译对日本汉字的发音处理基本正确,但对罗马字转写常常有误

不是很清楚G家翻译TTS的pipeline,一般来说在文本处理阶段老老实实走形态素解析的路子的话,是可以把读音给注上的,毕竟10年前的mecab-ipadic也不会犯这种错误
$ echo \u0026#39;女子高生\u0026#39; | mecab女子高\t名詞,一般,*,*,*,*,女子高,ジョシコウ,ジョシコー生\t名詞,接尾,一般,*,*,*,生,セイ,セイEOSbtw, mecab的作者在Google已经做了好些年,不知道看了会不会默泪

罗马字注音的话,本来怀疑是找了份不靠谱的词典用最大正向匹配的,手贱自己在Google翻译的输入界面加点人工边界看了一下,orz
女子高生 Mesukōsei女 子高生 On\u0026#39;na-ko kōsei女子 高生 Joshi kōsei女子高 生 Joshikō-sei如果改成【女子大生】直接就没结果了

大概,词典里真的有那么一条完整粒度的【女子高生=Mesukōsei】吧。。。


■网友的回复
笑死了……
验证了一下,还真是如此……
其实谷歌在非英语国家真的不咋地。

为何谷歌翻译对日本汉字的发音处理基本正确,但对罗马字转写常常有误


■网友的回复
大概语音和拼音不是同一个系统做的吧TTS(文字转语音)是一套系统标罗马字拼音是另一套系统而不是先转换成拼音,再转成语音。这么做反而容易失去停顿、重音等朗读必需的信息。补充说明为什么可能会需要两个不同系统:要生成TTS,除了字的发音以外,还需要编码抑扬、连读、重音、速度变化等等信息,否则输出的声音就会像医院叫号系统一样像个机器人。而做罗马字的系统完全无法提供这些附加信息,所以如果是我,肯定不会先把日语转为罗马字再转为语音。TTS的训练语料也相对好找,只要找个人对着文字念就是了,现成语料也多,几乎是在不停地生产;相反,转罗马字的训练语料需要专门找人生产,还需要一定的专业性,还不是社会生活中会自然产生的。
■网友的回复
めす(mesu)是雌性的意思。
翻译软件在翻译的时候,不像人一样先理解整体句子意思然后再翻译,而是按词来翻译,最后拼出一句比较符合正常语境的翻译。所以庞大的语料库和准确的分词是十分重要的,另外还有深度学习和神经网络之类的技术。
女子→jyoshi,onnanoko,女→onna,mesu,emmm选哪个好呢?语料库里说是这个,但是好多人建议修改成那个耶,但到底是哪个嘛!算了不管了,先给一个再说→mesukousei。
所以用翻译软件翻出bug并不是什么稀奇的事情啊……

为何谷歌翻译对日本汉字的发音处理基本正确,但对罗马字转写常常有误