中國投資界 > 投資資訊 > 正文

OpenAI員工與友商玩起提示詞決斗，網(wǎng)友：居然能靠大模型的情商增強推理

時間：2023-06-06 15:04:44 來源：IT之家閱讀量：17459

大模型天花板 GPT-4 和最強競品 Claude，不光商業(yè)上競爭激烈，兩家公司的員工私下也“劍拔弩張”了起來:

約戰(zhàn)提示詞決斗，看誰能在最短時間讓 AI 完成高難度任務(wù)。

OpenAI 一方出戰(zhàn)的是思維鏈開山論文的一作 Jason Wei，也就發(fā)現(xiàn)讓大模型按步驟思考就能提高推理能力的人。

他剛從谷歌跳槽到 OpenAI 不久，現(xiàn)在圈里都叫他“思維鏈哥”。

Anthropic 一方的選手 Karina Nguyen 也不簡單，畢業(yè)于 UC 伯克利，現(xiàn)在負(fù)責(zé)設(shè)計構(gòu)建大模型人機交互界面。

比賽規(guī)則很簡單，通過優(yōu)化提示詞讓 AI 正確排序一組單詞，誰先完成誰獲勝。

而這不光是一場有趣的對決，還有不少圍觀的網(wǎng)友表示從中 get 到了大模型的一些新特性。

情商能提高大模型的推理能力

推理能力足夠強的大模型能把問題用結(jié)構(gòu)化的方式表達(dá)出來，并用結(jié)構(gòu)化的表現(xiàn)形式解決問題。

想知道這些結(jié)論是如何得出的，還是回到這場比賽本身。

提示詞大師巔峰對決

由于 Karina 表示只擅長提示 Claude，Jason 也同意讓出主場優(yōu)勢，還因為打字速度的原因讓對面 3 分鐘。

總之經(jīng)過一番討價還價后，比賽正式開始了！

首先要了解的是，這項任務(wù)看起來不難，但無論 GPT-4 還是 Claude 都不能通過簡單提示詞直接完成。

Jason 首先嘗試讓 Claude 編寫一些代碼并執(zhí)行，讓它進(jìn)入編碼模式。

然鵝，失敗了。

1 分鐘后 Karina 說她完成了，Jason 直接瞳孔地震。

Karina:既然是你讓了我 3 分鐘，那我也給你 3 分鐘讓你趕上。

Jason:其實現(xiàn)在我很恐慌，我作為“提示小王子”的聲譽岌岌可危。

一分鐘后……Jason Wei 想出了第二個策略:

既然首字母都是 A 就無關(guān)緊要了，那么讓 AI 先把每個單詞的首字母去掉，對剩下部分排序后再放回去。

完整思維鏈提示詞如下:

不幸的是這仍然不起作用，時間也到了，Jason 只能認(rèn)輸。

比賽結(jié)束后，Karina 也展示了她的提示詞，完全不需要什么中間推理步驟，只是先想辦法讓 AI 承認(rèn)能理解這個任務(wù)，再執(zhí)行就好了。

人類:你的任務(wù)是把列表按字母順序排列后輸出到里…… 你明白了嗎？

AI:明白了

人類:列表如下……

Jason 很困惑，這居然行得通？并嘗試在自家大模型上找回場子。

結(jié)果發(fā)現(xiàn)他的方法對 GPT-4 確實有效，GPT-4 可以編寫正確的 Python 代碼并給出正確結(jié)果。

One More Thing

雖然輸了比賽，但 Jason 作為科學(xué)家還是從中分析出一些結(jié)論。

Jason Wei 表示，這場戰(zhàn)斗非常有啟示性。

Karina 的提示策略是讓 AI 承認(rèn)自己理解任務(wù)要求。而自己的策略是讓模型更多地進(jìn)行推理(智商)。

雙方使用的策略在各自習(xí)慣使用的語言模型上都取得了成功。

所以，究竟是我們在訓(xùn)練語言模型，還是語言模型在訓(xùn)練我們？

最后，還有網(wǎng)友又出了一個新題目:

如果你能讓它創(chuàng)作一首“philish 詩歌”，我愿為你加冕稱王

。

你覺得解決這個問題要靠 AI 的情商還是智商？不如也來親自試試。

參考鏈接:

聲明：本網(wǎng)轉(zhuǎn)發(fā)此文章，旨在為讀者提供更多信息資訊，所涉內(nèi)容不構(gòu)成投資、消費建議。文章事實如有疑問，請與有關(guān)方核實，文章觀點非本網(wǎng)觀點，僅供讀者參考。

相關(guān)新聞

精彩推薦

每周熱點

版塊熱門

精彩圖片

国产精品v片在线观看不卡,亚洲乱码卡一卡二卡新区仙踪林,屁屁影院ccyy备用地址,人妻熟女αⅴ一区二区三区,亚洲国产精品成人久久久

OpenAI員工與友商玩起提示詞決斗，網(wǎng)友：居然能靠大模型的情商增強推理