ChatGPT寫程式錯誤率超過 50％

2023-08-11

編譯／夏洛特

美國普渡大學最近進行的一項研究顯示，在寫程式的能力上，ChatGPT 不但有超過一半的答案是錯誤的，而且其擁有高級語言的能力還誤導很多用戶。該大學的研究團隊根據來自 Stack Overflow 的 517 個程式設計問題，評估ChatGPT 的回答，包括正確性、一致性、全面性和簡潔性。而評估結果令人失望，因為ChatGPT所提供的答案中，不但有52％不準確，還有77％的答案過於冗長。

96140159 fb link normal none — 在寫程式的能力上，ChatGPT 不但有超過一半的答案是錯誤的，而且其擁有高級語言的能力還誤導很多用戶。（示意圖／123RF）

據外媒報導，更令人擔憂的是，AI有條理的語言風格經常讓用戶無法分辨真假。只有在錯誤非常明顯的情況下，用戶才會發現答案有問題。此外，還有近 40％的用戶會採用 ChatGPT 的答案，但在這些答案中，有 77％被證明是錯誤的。研究人員表示，許多錯誤都源於 ChatGPT 無法掌握問題的上下文細微差別。

更多新聞：美國舉辦AI網路挑戰賽　Google、OpenAI 與白宮聯手應對AI網路安全

這些發現也點出一個嚴重的問題：當前的生成式AI可能不是一個用來幫人們寫程式的好工具，甚至可能會適得其反。而這也不是專家們第一次對AI的錯誤問題提出警告，早先，Google、蘋果、亞馬遜和三星等多家科技巨頭，就已對使用生成式AI寫程式的錯誤率發出警告或實施禁令。

為了讓大型語言模型可以給出正錯的回應，不論是OpenAI還是Google都一直在尋找解決方案。不過，因為數據被模型消化的方式不可預測，因此AI創造出非事實回應的「幻覺」問題到目前都還無法解決。OpenAI 研究人員表示：「即使是最先進的模型也容易出錯，它們還有捏造事實的傾向。而在需要多步驟推理的領域，如寫程式上，這些幻覺問題又更嚴重，因為只要有一個邏輯錯誤，就可能會破壞整個回答。」

參考資料：gizmochina、CNBC

※更多ChatGPT相關訊息，請參考【生成式AI創新學院】。