为何谷歌翻译对日本汉字的发音处理基本正确,但对罗马字转写常常有误
不是很清楚G家翻译TTS的pipeline,一般来说在文本处理阶段老老实实走形态素解析的路子的话,是可以把读音给注上的,毕竟10年前的mecab-ipadic也不会犯这种错误
$ echo \u0026#39;女子高生\u0026#39; | mecab女子高\t名詞,一般,*,*,*,*,女子高,ジョシコウ,ジョシコー生\t名詞,接尾,一般,*,*,*,生,セイ,セイEOS
btw, mecab的作者在Google已经做了好些年,不知道看了会不会默泪
罗马字注音的话,本来怀疑是找了份不靠谱的词典用最大正向匹配的,手贱自己在Google翻译的输入界面加点人工边界看了一下,orz
女子高生 Mesukōsei女 子高生 On\u0026#39;na-ko kōsei女子 高生 Joshi kōsei女子高 生 Joshikō-sei
如果改成【女子大生】直接就没结果了
大概,词典里真的有那么一条完整粒度的【女子高生=Mesukōsei】吧。。。
■网友的回复
笑死了……
验证了一下,还真是如此……
其实谷歌在非英语国家真的不咋地。
■网友的回复
大概语音和拼音不是同一个系统做的吧TTS(文字转语音)是一套系统标罗马字拼音是另一套系统而不是先转换成拼音,再转成语音。这么做反而容易失去停顿、重音等朗读必需的信息。补充说明为什么可能会需要两个不同系统:要生成TTS,除了字的发音以外,还需要编码抑扬、连读、重音、速度变化等等信息,否则输出的声音就会像医院叫号系统一样像个机器人。而做罗马字的系统完全无法提供这些附加信息,所以如果是我,肯定不会先把日语转为罗马字再转为语音。TTS的训练语料也相对好找,只要找个人对着文字念就是了,现成语料也多,几乎是在不停地生产;相反,转罗马字的训练语料需要专门找人生产,还需要一定的专业性,还不是社会生活中会自然产生的。
■网友的回复
めす(mesu)是雌性的意思。
翻译软件在翻译的时候,不像人一样先理解整体句子意思然后再翻译,而是按词来翻译,最后拼出一句比较符合正常语境的翻译。所以庞大的语料库和准确的分词是十分重要的,另外还有深度学习和神经网络之类的技术。
女子→jyoshi,onnanoko,女→onna,mesu,emmm选哪个好呢?语料库里说是这个,但是好多人建议修改成那个耶,但到底是哪个嘛!算了不管了,先给一个再说→mesukousei。
所以用翻译软件翻出bug并不是什么稀奇的事情啊……
- 《春江花月夜》为何能孤篇压全唐
- 东京食尸鬼。应该说第一部比第二部更加血腥。为何广电总局却以血腥暴力的理由禁播第二部却不禁播第一部
- 动画字幕组为啥要把「先輩」翻译成「前辈」
- 《风云雄霸天下》为何不翻拍
- 为何中国的地域文化差异强调南北而不是东西
- 辽金等朝代的文化成就有啥,为何我们没有学过
- 日本祭拜时为何向石碑上浇水
- 3D电影是电影发展的趋势还是电影发展的鸡肋为何
- 《堀与宫村》为何只有出ova,却没有出番剧
- 为何说DC电影宇宙的第一部电影是《超人-钢铁之躯》,而不是更早的《绿灯侠》和蝙蝠侠三部曲