为何谷歌翻译对日本汉字的发音处理基本正确，但对罗马字转写常常有误不是很清楚

不是很清楚G家翻译TTS的pipeline，一般来说在文本处理阶段老老实实走形态素解析的路子的话，是可以把读音给注上的，毕竟10年前的mecab-ipadic也不会犯这种错误
$ echo \u0026#39;女子高生\u0026#39; | mecab女子高\t名詞,一般,*,*,*,*,女子高,ジョシコウ,ジョシコー生\t名詞,接尾,一般,*,*,*,生,セイ,セイEOSbtw, mecab的作者在Google已经做了好些年，不知道看了会不会默泪

罗马字注音的话，本来怀疑是找了份不靠谱的词典用最大正向匹配的，手贱自己在Google翻译的输入界面加点人工边界看了一下，orz
女子高生 Mesukōsei女子高生 On\u0026#39;na-ko kōsei女子高生 Joshi kōsei女子高生 Joshikō-sei如果改成【女子大生】直接就没结果了

大概，词典里真的有那么一条完整粒度的【女子高生=Mesukōsei】吧。。。

■网友的回复
笑死了……
验证了一下，还真是如此……
其实谷歌在非英语国家真的不咋地。

■网友的回复
大概语音和拼音不是同一个系统做的吧TTS（文字转语音）是一套系统标罗马字拼音是另一套系统而不是先转换成拼音，再转成语音。这么做反而容易失去停顿、重音等朗读必需的信息。补充说明为什么可能会需要两个不同系统：要生成TTS，除了字的发音以外，还需要编码抑扬、连读、重音、速度变化等等信息，否则输出的声音就会像医院叫号系统一样像个机器人。而做罗马字的系统完全无法提供这些附加信息，所以如果是我，肯定不会先把日语转为罗马字再转为语音。TTS的训练语料也相对好找，只要找个人对着文字念就是了，现成语料也多，几乎是在不停地生产；相反，转罗马字的训练语料需要专门找人生产，还需要一定的专业性，还不是社会生活中会自然产生的。
■网友的回复
めす（mesu）是雌性的意思。
翻译软件在翻译的时候，不像人一样先理解整体句子意思然后再翻译，而是按词来翻译，最后拼出一句比较符合正常语境的翻译。所以庞大的语料库和准确的分词是十分重要的，另外还有深度学习和神经网络之类的技术。
女子→jyoshi，onnanoko，女→onna，mesu，emmm选哪个好呢？语料库里说是这个，但是好多人建议修改成那个耶，但到底是哪个嘛！算了不管了，先给一个再说→mesukousei。
所以用翻译软件翻出bug并不是什么稀奇的事情啊……