语言亲密度|让陌生人相爱的36个问题，为什么在现实中却不适用？中却|reddit|现实|相爱

文章插图
作者：Pedro，头图来源：《爱在黎明破晓前》
语言有亲密度吗？如何量化并测量语言亲密度？性别、社交距离和匿名性又是如何影响人际交流的？密歇根大学的研究者希望使用自然语言处理和数据科学技术来回答这些问题。相关工作“Quantifying Intimacy in Language”已发表于自然语言处理旗舰会议EMNLP 2020。本文为科普性质，技术细节及已开源的数据、模型请见文末项目主页。
让陌生人相爱的36个问题
1997年，美国心理学家阿瑟·亚伦(Arthur Aron)等人发表了一项研究，他们发现彼此询问一些特别亲密的问题，可以快速增强两个陌生人之间的亲密度。

文章插图
这一研究在被纽约时报报道后，也在中文互联网上被广泛转载，并被宣传为快速让心上人爱上你的良方。

文章插图
然而当人们在现实生活中面对心上人的时候，却会对这些问题大失所望，因为就像知乎上最高赞的评论所言，这些在实验室中效果良好的问题，在真实的生活中却很难找到合适的场景或契机。

文章插图
这些问题究竟有什么奥秘？他们同其他稀松平常的诸如“吃了没”这样的寒暄有什么区别？又究竟有哪些因素最终影响着人们在日常生活中的语言表达呢，本文将通过作者在EMNLP 2020上的一项最新研究，试图从语言亲密度和社会约束的角度来回答这些问题。
我们的研究
就像是人和人之间的关系一样，我们在人际交流中所使用的语言也具有亲密度 (intimacy) 的属性。语言亲密度受到了广泛的社会和个体因素的约束，而违反这样的约束则往往会造成尴尬，或者带来更严重的后果。中国有一句古话叫做“交浅而言深者，愚也”，意思是说与交情浅的人深谈，是人际交往之中的大忌，这反映了社会文化中关系远近对于语言亲密度的约束。
在这一研究中，作者提出了一套量化语言亲密度的数据标注方法和一个用于测量语言亲密度的NLP模型，并使用八千万 Reddit, Twitter, 书籍和电影对话数据研究了性别、社交距离和匿名性对于人际交流中语言亲密度的影响。

文章插图
语言亲密度 ( Intimacy in language )
亲密度这一概念来源于社会心理学，主要被用来描述人和人之间关系 (e.g. 朋友) 或者互动 (e.g. 亲吻) 的亲密程度。在这里作者将这一概念沿用到了语言中，用来描述人际交流中所使用语言的亲密程度，比如“我今天心情真的好差”比“吃了吗”一般来说具有更高的语言亲密度，因为它涉及到了更个体化的情绪表达；而“你最糟糕的童年回忆是什么”则比“你觉得新的苹果手机怎么样”要更加亲密，因为它过于私密和个人化。
那么我们是否能够量化语言亲密度呢，答案是肯定的。作者主要使用Best-Worst-Scaling这一方法来标注人们在对话中所使用问题的亲密度，并最终得到了2397条标注有亲密度 (分值在-1到1之间) 的文本数据，具体细节请见论文。

文章插图
测量语言亲密度
【 语言亲密度|让陌生人相爱的36个问题，为什么在现实中却不适用？】
使用NLP模型测量语言亲密度是一个回归任务，简单来说就是对输入的文本，本文的模型可以自动地得出一个介于-1和1之间的亲密度分值。作者在标注好的亲密度数据上微调 (fine-tune)了 RoBERTa模型，最终在基于Reddit上的测试集上得到了0.87的相关系数 (Pearson's)，说明我们可以使用微调过的语言模型来准确地测量语言中的亲密度。使用这一模型，作者测量了来自Reddit, Twitter, 书籍和电影的八千万条对话数据的亲密度。

文章插图
主题分析
有哪些话题更亲密呢？如下图所示，涉及到家庭、亲密关系等个人化的内容往往会比生活常识性的话题更加亲密，但同时值得注意的是，一个话题的亲密度往往有很大的跨度，这也说明了仅仅使用主题是无法准确地测量语言的亲密度的。

文章插图