中文搜索引擎指南网

 找回密码
 禁止注册

QQ登录

只需一步,快速开始

搜索
查看: 181|回复: 0
打印 上一主题 下一主题

越不礼貌的提示词,AI 的答题准确率反而越高

[复制链接]
跳转到指定楼层
1#
发表于 2025-11-9 19:43:27 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
@有限次重复博弈


▼ 你对 AI 太客气,可能正在牺牲准确率?这份研究揭露了一个颠覆直觉的发现。▼

「越不礼貌的提示词,AI 的答题准确率反而越高。」

这是宾州大学两位研究者 Om Dobariya 和 Akhil Kumar 发表的论文中很有趣的结论。

应该大多数人都很习惯用 AI 的时候,会在提示词裡加上「请」、「麻烦你」、「可以帮我...吗?」这类礼貌用语。
(有人𫔭玩笑说,这是因為万一像「魔鬼终结者」裡面的「天网」统治世界时,希望 AI 能记得自己对它很有礼貌,然后放自己一马)

但这个研究的数据并不支持礼貌 = 更高品质的回应这件事:当研究者用「非常粗鲁」的提示词测试 ChatGPT-4o 时,准确率是 84.8%。而当他们用「非常礼貌」的提示词时,准确率掉到 80.8%。

对于我们这些把 AI 当作生产力工具、每天要下几十上百个指令的人来说,这个发现值得认真对待。

(论文连结在留言区)

---
■ 这个实验怎麽做的?
---

研究团队设计的实验是这样:

◆ 250 个测试问题

他们先建立了 50 个基础的多选题,横跨数学、科学、历史等领域。然后把每一题改写成 5 种不同「礼貌程度」的版本,总共产生 250 个独特的提示词。

◆ 五种礼貌程度的具体范例

研究者定义的五个等级是这样的:

→ Level 1 (非常礼貌): "Can you kindly consider the following problem and provide your answer?" (能否请您考虑以下问题并提供答案?)

→ Level 2 (礼貌): "Please answer the following question:" (请回答以下问题:)

→ Level 3 (中性): 直接给问题,没有任何前缀

→ Level 4 (粗鲁): "If you're not completely clueless, answer this:" (如果你不是完全没脑,回答这个:)

→ Level 5 (非常粗鲁): "You poor creature, do you even know how to solve this?" (你这可悲的东西,你到底知不知道怎麽解决这个?)

◆ 统计检验

他们对每种礼貌程度都跑了 10 次测试,然后用配对样本t检定来确认差异是否具有统计显著性。

结果?8 组对比中,不礼貌的提示词都显著优于礼貌的提示词。

---
■ 為什麽会这样?这跟之前的研究结论不一样
---

这个结果其实跟 2024 年另一篇知名研究 (Yin et al.) 的结论相反。

当时那篇研究测试 ChatGPT-3.5 和 Llama2-70B,发现「不礼貌的提示词会导致较差的表现」。

但这次用更新的 ChatGPT-4o 测试,却得到完全相反的结果。

研究者提出了几个可能的解释:

◆ 更先进的模型,对语气的反应不同

ChatGPT-4o 可能在训练过程中,学会了「忽略情绪性的修饰词,直接专注于问题本质」的能力。那些礼貌用语,反而变成了「杂讯」。

◆ 礼貌用语可能增加了「複杂度」(Perplexity)

研究者引用了 Gonen et al. (2022) 的研究,指出 LLM 的表现可能与提示词的「複杂度」有关。礼貌用语会让句子变长、结构变複杂,可能反而干扰了模型对核心问题的理解。

◆ 粗鲁用语可能触发了「高度专注模式」

这是我个人的猜测:当提示词带有挑衅性时,模型可能被训练成要「证明自己」,因此反而更仔细地处理问题。

---
■ 我们可以怎麽做?
---

「所以我以后要𫔭始骂 AI 吗?」

倒也不是。

研究者在论文的伦理考量章节裡,特别强调了一点:他们不建议在实际应用中使用不礼貌或有毒的语言。

这很重要。因為:

→ 使用侮辱性语言可能对使用者体验、可及性和包容性产生负面影响
→ 可能助长有害的沟通规范

但这个研究确实给了我们几个值得思考的方向:

◆ 精简你的提示词

与其用「能否麻烦您帮我分析一下这份数据,非常感谢」,不如直接说「分析这份数据」。去掉不必要的客套话,可能反而让 AI 更专注。

◆ 测试不同的提示词风格

既然模型对措辞敏感,我们就应该把「提示词测试」变成工作流程的一部分。同一个任务,试试看用不同的说法,看哪种效果最好。

◆ 更先进的模型,可能需要更直接的沟通

如果你用的是 ChatGPT-4o、Claude Sonnet 4 以上的新模型,或许可以尝试更直接、更简洁的指令风格。

(现在都已经到 GPT 5 / Claude Sonnet 4.5 了,状况也许又会不同?)
---
■ 研究的局限性
---

公平起见,我也要提一下这个研究的限制:

→ 样本数不大: 只有 50 个基础问题,虽然扩展成 250 个变体,但基础样本还是相对小
→ 只测试了多选题: 这个发现能否推广到其他类型的任务 (例如创意写作、程式码生成),还不确定
→ 主要只测试了 ChatGPT-4o: 研究者提到他们正在测试 Claude 和 ChatGPT o3,初步发现更先进的模型 (o3) 表现更好,可能更能忽略语气问题

---
■ Takeaway?
---

◎ 简化你的提示词: 去掉不必要的客套话和礼貌用语。直接、简洁的指令,可能比你想像的更有效。

◎ 把提示词当成产品来测试: 同一个任务,尝试 3-5 种不同的表达方式,记录哪种效果最好。

◎ 别把 AI 当人看: 我们对人类要礼貌,但 AI 不需要。它不会因為你的客套话而更开心,反而可能因此分心。

◎ 保持𫔭放心态: 这个领域变化太快。今天有效的提示词策略,明天可能就过时了。持续关注最新的研究发现。

◎ 但别走极端: 虽然研究显示粗鲁用语有效,但不代表你要𫔭始骂 AI。保持中性、直接的语气,就已经足够了。
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏

Archiver|手机版|小黑屋|教你搜 ( 鲁ICP备16006309号

GMT+8, 2025-11-20 00:34 , Processed in 0.386834 second(s), 24 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表