|
许多人已经发现AI模型幻觉问题,导致AI聊天机器人给的答案充满谬误,但是错得有多离谱则不得而知。美国大学一项研究显示,OpenAI ChatGPT在程序撰写上给的建议,正确率竟不到5成,但有4成时候人类无法发现。
过去软件工程师在写程序遇到问题时,多半是向Stack Overflow这类Q&A平台求助。但这类平台在ChatGPT出现后遇到极大挑战,因为工程师都转向ChatGPT。美国普度大学(Purdue University)一群研究人员于是想了解ChatGPT对软工的答案是否是真的有用,以及有什么特色。
他们针对ChatGPT对Q&A平台Stack Overflow(SO)上517道程序撰写问题给出的答案,分析正确性、一致性、完整性及简明性。此外也对使用ChatGPT建议进行语言及情感分析,以了解ChatGPT的答案有何特色,以及人类用户对AI给的答案建议的接受度。
根据分析,研究人员发现52%的问题上,ChatGPT给的答案是不正确的,62%的答案过于冗长。此外,研究人员还发现AI答案有高达78%和人类答案不一致。研究人员深入分析ChatGPT的答案,还发现有大量概念及逻辑错误的问题。
研究人又以2,000道SO上的写程序问题分析ChatGPT答案的语言特色。研究显示,ChatGPT的答案使用正式、漂亮用词、甚少出现不礼貌的负面情感,而且语气神似真人说话,这使得它容易取得用户的信任。虽然用户认为SO上其他人给的答案品质较高,但有4成(39.34%)题目会不小心相信ChatGPT给的错误答案,只有6成的人能发现到它的答案是不正确的。
结论是,想靠AI帮忙写法律判例、写程序或论文提升工作效率,可能还得等一阵子。研究人员提醒,由于ChatGPT讲话有条理且充满肯定语气,很具说服力,但至少现在,在软件工程中使用ChatGPT的答案要十分小心谨慎。
来源:http://www.yidianzixun.com/article/0qFsfIdV
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|