武林外传 (武林外传电影版, My Own Swordsman The Movie, My Own Swordsman) – Download ...
tutuxi 2025-05-22 12:56 4 浏览
在人际交谈中,特别是在使用中文这样博大精深的语言时,人们往往不会直接回答问题,而是采用含蓄、隐晦或间接的表达方式。
人类根据以往的经验或是对说话者的了解可以对一些言外之意做出准确的判断,比如我们小时候经历过无数次的对话情景:
“妈妈,我的书放哪啦?”
“在我手上,来拿嘛!”
又或是:
“妈妈,今天我想吃红烧肉可以吗?”
“你看我像不像红烧肉。”
面对妈妈给出的看似回答了又什么都没有说的回应,我们能迅速get到妈妈不想搭理我们的心情。那LLMs在面对类似的会话隐喻(conversational implicature)时能理解到说话人真正的含义吗?
GPT-研究测试:
https://hujiaoai.cn
GPT-4研究测试:
https://higpt4.cn
Claude-3研究测试(全面吊打GPT-4):
https://hiclaude3.com
上交最近从经典情景喜剧《武林外传》中提取出首个针对会话隐喻的中文多轮对话数据集,挑选出个精心设计的符合会话隐喻的问题,并对八个LLMs进行了多项选择题任务和隐喻解释两项任务的测试。结果显示会话隐喻这一任务对LLMs来说仍然充满挑战。
论文标题:
Do Large Language Models Understand Conversational Implicature – A case study with a Chinese sitcom
论文链接:
https://arxiv.org/pdf/
数据集构造
本文选取了在中国广受欢迎的情景喜剧《武林外传》作为数据源。该剧不仅包含了大量富有深意的对话,而且对话文笔优美,均基于自然发生的场景,质量上乘,十分适合用于评估语言模型在理解和推断中文对话深层含义方面的能力。
数据集构造原则
合作原则(The Cooperative Principle)是语言学中的一个重要理论,是由牛津大学的美国语言哲学家Grice于年的“逻辑与会话”的演讲中提出的。合作原则包括四个范畴,每个范畴又包括一条准则和一些次准则,即:
- 质的准则(Quality)
a)不要说自知是虚假的话(Do not say what you believe is false);
b)不要说缺乏足够证据的话(Do not say that for which you lack adequate evidence); - 量的准则(Quantity)
a)所说的话应该满足交际所需的信息量(Make your contribution as informative as is required);
b)所说的话不应超出交际所需的信息量(Do not make your contribution more informative than is required); - 关系准则:说话要相关 (Be relevant)
例如:当被问到“约翰在办公室吗?”时,山姆回答:“今天是周六,你知道的”。这违反了关系准则,因为回答与问题不直接相关,从而产生了隐含含义:“约翰周末从不工作,所以他不在办公室”。 - 方式准则:说话要清楚、明了 (Be perspicuous)
a)避免晦涩 [Avoid obscurity];
b)避免歧义 [Avoid ambiguity];
c)简练[Be brief (avoid unnecessary prolixity)];
d)井井有条 [Be orderly]。
然而,人们在实际言语交际中,并非总是遵守“合作原则”,出于需要,人们会故意违反合作原则。Grice把这种通过表面上故意违反“合作原则”而产生的言外之意称为“conversational implicature(会话隐喻)”。这解释了听话人是如何透过说话人话语的表面含义而理解其言外之意的,由此来表达另外一种意思,幽默也就时常在这时产生。
本文正是通过以上这些原则来挑选出对话制作针对会话隐喻的多轮对话中文数据集。
隐喻的识别与分类
三位作者从《武林外传》脚本中通过判断是否违反了会话原则而挑选出包含会话隐喻的对话,为了进行更细致的分类,使用子准则作为标准,评估目标句子是否满足每个要求。如果一句话违反了子准则,就认为它违反了该准则。对话可能根据违反的子准则属于多个类别。一个示例数据条目,包括对话、四种解释和类别,如下图所示:
接下来构建对话的四种解释:
- 语用解释(the pragmatic interpretation),也就是正确答案;
- 字面解释(the literal interpretation);
- 两个与上下文相关的干扰项(distractors)
基于以上解释构建了选择题,聘请塞纳名语言学博士作答,并讨论错误答案和推理过程。这个验证过程确保提供的语用理解与常识直觉紧密一致,并能从有限的上下文中推断出来。对话开头补充了必要的信息,如人物关系、性格、社会背景和多模态信息。
人类评分
为了与人类表现进行比较, 邀请了位母语者随机回答了数据集中抽取的个问题,平均准确率为%。问卷中各类问题(即对话中违反格赖斯准则的情况)的数量相同。
最终的SwordsmanImp语料库包含个经过精心挑选的问题,按照合作原则分为四类,如下表所示。每个条目包含多轮对话和四个目标句子的解释作为选择项。
实验一:LLM做多选题
实验设置
在这个实验中,模型将看到对话及手动创建的四种解释。任务是针对包含言外之意的语句选择正确的解释。
作者测试了八种模型。包括开源与闭源模型,使用零样本提示来模拟人类日常遇到这些暗含言外之意的真实场景。
对于开源模型,遵循LLM评估的既定做法,即计算“ A”、“B”、“C”、“D”这四个Token在生成后得到的logits,选择具有最高logit值的一个 作为模型预测;对于闭源模型,让它生成答案,然后人工检查生成的文本以确定选择了哪个解释。
实验结果
实验结果如下表所示,GPT-4的准确率高达%,其表现与人类相当,显示出强大的能力。紧随其后的是CausalLM (14B),其准确率为%,也表现出不俗的性能。
然而其他模型面临了较大困难,它们的准确率普遍在%到%之间。特别值得注意的是Textdavinci-的准确率甚至未能达到随机水平(%),这表明测试模型在理解隐含意义方面仍有很大的提升空间。
下表详细展示了不同模型在违反不同会话准则中的表现:
总体来看,模型们在不同准则上的表现各有千秋,没有一个模型在所有准则上都展现出一致的强项或弱点。人类的回答也显示了这种多样性。
在开源模型中,CausalLM (14B)的准确率接近人类水平,在所有开源模型中表现最佳,显示出其强大的对话理解能力。
而GPT-4在所有模型中的表现最为突出,其准确率在所有类别问题中都超过了%,再次证明了其在NLP领域的领先地位。
下图展示了模型在解释选择上的分布情况。红色代表模型选择了正确的答案,即语用解释;黄色代表选择了字面含义;而绿色则代表选择了两个干扰项。
可以看到两个13B模型在选择干扰项上的频率较高,这可能暗示它们较易受到上下文中非相关信息的干扰。
另外,随着GPT模型的不断演进,它们逐渐能够更好地区分字面含义与隐含含义。特别是GPT-4,在解释选择中,对字面理解的比例显著降低,这进一步验证了模型在理解复杂语言现象方面的进步。
实验二:评估LLM生成解释的质量
作者设计了开放性问题,要求模型生成对言外之意的解释,然后由中文母语者根据生成解释的合理性(reasonability)、逻辑性(logic)和流畅性(fluency)进行人工评估。结果如下表所示:
GPT-4在所有三个维度上的得分均位居榜首,且其得分的方差最小,显示出稳定且卓越的性能。GPT--Turbo的评分虽然也较高,但标准差较大,这反映出其性能存在一定的不稳定性。其他三个模型的评分则相对接近,统计检验显示它们之间没有显著差异。
然而,值得注意的是CausalLM(14B)的得分低于GPT--Turbo,这与在实验1中的观察结果并不一致。这一发现揭示了模型在特定任务(如从四个选项中选择答案)上的优秀表现,并不一定能保证它们在其他任务(如提供连贯的隐含意义解释)中同样出色。这进一步说明了模型在处理不同任务时可能存在的性能差异。
下图呈现了一个模型生成的典型对话示例。
通过分析湘玉的话语中的隐含意义,我们可以理解到她实际上是在传达石头不宜再饮酒的警示,同时她的言辞中还透露出对石头的讽刺和不满情绪。
在示例中,GPT-4虽然给出了与参考解释相近的简洁说明,但它却错误地理解了讽刺的语气,将其解读为对石头酒量的质疑。
CausalLM(14B)虽然在总体上提供了正确的解释,但答案的质量受到了流畅度不佳的影响,出现了英文单词和无意义的字符序列“NST”。值得注意的是,“forgot his place.”这一表达实际上蕴含了正确的含义,可以将其视为语言代码的切换,而非无意义的输出。
Openbuddy-Llama2(13B)的回应则显得冗长且内容与问题不相关。
分析:LLM理解中文隐喻的能力到底如何?
实验一的结果表明,GPT-4在本文设定的基准测试中展现出了与人类相媲美的表现,而其他模型至少落后了分,其中包括GPT--turbo。
这表明,虽然理论上最先进的LLMs有能力学习并理解中文隐喻,但对于大多数LLMs来说,这仍然是一项具有挑战性的任务。
实验二的结果揭示:一个在多项选择题中表现出色的模型(如CausalLM-14B),在自由文本生成任务中,即当需要自行解释言外之意时,可能会失败。这一发现让我们认识到,仅仅依赖多项选择题并不足以全面评估语言模型的语言能力。未来可以设计更复杂方法,以更好地量化模型对会话隐喻的自由形式的解释。
结论
本文构建了SwordsmanImp,这是首个用于评估LLMs对会话隐喻理解的细粒度中文数据,并进行了多项选择和自由生成解释两项任务评估LLMs对中文会话隐喻的理解能力。GPT-4在所有的对比模型中仍然是最能打的,甚至在多选题回答上达到了人类水平。
相关推荐
- 女朋友天天说爱我,爱为什么要天天说?
-
天天说爱你然后偶尔给惊喜如果是真爱那么恭喜你坚持下去这菇凉会在你家户口本的对象每天都会说一句我爱你,他是男生的话,不是非常浪漫就是非常爱你,人在热恋的时候会感觉自己的每一个细胞都在歌唱,看...
- 夏家三千金剧情介绍分集(1-40大结局)-电视指南
-
夏天美,杨真真是夏家千金,而夏友善是养女,本电视剧是围绕她们三个人展开的! 夏正松和于靓夫妻,有养女友善,亲生女天美,和睦的家庭。友善遇到了心仪的对象皓天,但皓天已有青梅竹马的女友杨真真,友善却用...
- 51部经典古装武侠电影,每一部都是你儿时的回忆,排名不分先后
-
《小李飞刀之多情剑客》简介:少年剑客飞(黄元申)一心想扬名天下,机缘巧合,与被誉为「小李飞刀,例不虚发」的李寻欢(朱江)成为莫逆之交。欢因误伤义兄龙啸云之子,重遇阔别廿年的龙和已成为龙妻的旧情人林诗音...
- 大海 (Live) - 小沈阳 - 单曲 - 网易云音乐
-
他的难度应该说对于一个二人转演员来说唱E6这样的音高是比较大的!这首歌原来的最高音也就是“换”“你”“带”这三个字的音是降音B而他把第三个“带”字番到了上面的E难度比较大但音质确实...
- 《金鱼注意报》全集免费在线观看-樱花动漫
-
需要注意的是,不能一直喂金鱼吃红虫。因为红虫虽然对大部分观赏鱼的诱食性比较强,也有利于观赏鱼的发色,但是它毕竟缺乏一些其他的营养成分,相比较观赏鱼饲料,红虫的营养成分就显得比较单一。喂观赏鱼最好就是以...
- 十二生肖-十二生肖在线观看-电影-星空影视
-
你好,我是【用户6439498513426】,很高兴为你解答。猩猩 后面一个忘记了更多专业的科普知识,欢迎关注我。如果喜欢我的回答,也请给我赞或转发,你们的鼓励,是支持我写下去的动力,谢谢大家。应该是...
- 夏日甜心_夏日甜心_单曲在线试听_酷我音乐
-
最好的是找到宝物“禁魔球”,找不到的话“禁摩披风”也行。不过宝物不是很好找,可以从既能方向考虑,升级抗魔,配合宝物抗魔靴,抗魔披风,抗魔项链也不错。有个独角兽在旁边也能提升抗魔效果20%。另既能,升...
- 最忆是杭州-mp3在线免费下载-歌曲宝-找歌就用歌曲宝-MP3音乐高品质在线免费下载
-
???最近杭州温度?今天零下5度,很冷。主要是风很大很大。吹你受不了在《逆水寒》中,想要获得杭州称号“最忆”需要完成一系列任务。以下是获得该称号的大致步骤:1.完成主线剧情任务:首先,你需要完成逆水...
- 【動畫】小魔女DoReMi 童年秘密篇 - 巴哈姆特
-
结局是羽月(初季)去了音乐学院,爱子跟她已经复婚的父母回了大阪,音符去了外地,桃子回了美国,小花和魔女青蛙`拉拉回了魔法界DOREMI考去了美空中学.大结局那一集是开毕业典礼的那一天,DOREMI...
- 2003香港剧《牛郎织女国语》-高清全集在线观看-茶杯狐
-
《牛郎织女》是由香港无线电视出品,庄伟健执导,温兆伦、郭羡妮、欧锦棠、唐宁等主演的古装神话电视剧,于2003年9月18日在香港首播。该剧根据古代民间故事牛郎织女改编而成,讲述了织女为寻“云梭”下凡遇见...
- 恶作剧之吻韩版_在线观看-韩剧-恶作剧之吻韩版全集免费_韩剧h9t
-
韩剧《恶作剧之吻》主要讲述了IQ200的天才白胜兆和喜欢他的高中生荷妮不得已变为同居关系,以从而发生在他们身上的浪漫爱情故事。 不仅有着让女生都羡慕的完美外表的白胜祖,而且IQ超高,学习成绩全校第...
- 林志颖婚礼的视频 - 抖音(林志颖婚纱照视频直播)
-
林志颖35岁的时候宣布喜讯。林志颖老婆陈若仪2009年10月15日,林志颖在他35岁的庆生会上公开宣布喜讯,承认已和有“小林志玲”之称的名模女友陈若仪有一子。2009年9月底,网络上爆出这一震撼消息...
- 乱世丽人行 - 维基百科,自由的百科全书
-
《乱世丽人行》是2015年拍摄的。由韩雪、付辛博、张丹峰、毛林林、高雄、李泽锋等明星主演,华录百纳影视、上海青苹果影视联合出品的年代大戏《乱世丽人行》2015年3月在东阳横店正式开机。付辛博、毛林林、...
- 有一种鸟叫知更鸟,有一种蓝叫“知更鸟蓝”_Robin - 搜狐
-
瑞豹知更鸟是款运动自行车。Xs码一般适合160cm~170cm身高的人使用。瑞豹知更鸟更推荐圈刹,高档公路车用圈刹更适合,风阻小。
- 舞蹈《高原红》 正面演示 背面演示 分解教学_舞蹈高原红_广场舞_糖豆广场舞-糖豆视频
-
高原红是一种特殊的石头,是死火山岩石的一种,并不是玉石。因此,高原红手串不属于玉石。高原红的成分是白云母和角闪石,它的主要颜色是红色,但它也有一些其他颜色,如黄色、粉色、绿色等。不同的颜色取决于其矿物...
- 一周热门
- 最近发表
- 标签列表
-