新版Claude3.5的測試 - Q版傻蛋的網誌

字體：小中大

新版Claude3.5的測試

2024/06/21 19:41:05瀏覽697｜回應0｜推薦7

看到新聞，Antrophic的Claude3.5 Sonet推出了，大殺四方，並支援新功能Artifacts可以寫可預覽的小遊戲。

這個服務是免費的，之前有些問題，Google查不出好結果的，傻蛋都是問這個免費的大模型。

還真別說，是有用的。

對比免費的ChatGPT，免費的Claude3.5更靠譜一點，偶爾需要用到都是用它。

進化了，當然來試一下看看。

傻蛋讓它寫一個簡單的五子棋遊戲。

它很快就寫一個Python的版本的五子棋。

執行起來是可以玩，就輪流輸入兩個玩家的落子座標這樣，經測試，勝利條件判斷是有效的，基本上是一個完成的作品。

缺點，就是橫向X軸的落子位置與上方的欄位定位沒對齊，所以不好操作。

疑，沒有使用Artifacts新功能?

就追問，然後呢，這個AI馬上就再弄了一個React版本的Artifacts五子棋，就在畫面右邊，可以用點擊互動操作，遠勝之前那個Python的遊戲介面。

一次就把代碼寫出來並且可以執行，這個真的厲害。

它還繼續給建議，可以加各種功能喔。

然後傻蛋沒聽它的推薦，直接給它新的挑戰，能不能做一個3D的五子棋呢?

它還真的搞一個出來。

不過有缺陷，原本平面是15x15的棋盤，3D的版本卻變成1x15x15，高度是用一個層數切換的UI來實現，雖不驚豔但是可接受的解法。

只是X軸只有1，所以每一層只有一條15個格子可以下，等於和原本2D是一樣的。

點擊操作流程，勝負判定一樣有效，不同層的有做殘影，其實不錯了，就是X軸只有1所以看起來拉垮。

接下來就互動了好幾次，它重寫了好幾個版本，碰到各種問題，每次都差一些沒完成。

最後聊天內容超過上限，必須得產生新聊天，沒辦法繼續測試完成。

測試結果呢，感覺是，有再變聰明一點了，寫的代碼與解釋都有條理。

但想依賴AI把自己都沒想清楚的需求給開發出來，還是不靠譜的。

傻蛋猜五子棋早就在訓練資料裡，這個模型早就有經驗了，所以前兩次出手都一次就完成，但追加新要素後就沒辦法一次OK了。

另外問題越複雜思考轉圈圈等待的時間就越久，前兩個有成功完成的任務，基本上我的需求輸完等不到五秒鐘就開始回答與寫代碼，兩下子就完成了。

後面的需求思考時間就變長，常常要想十秒以上才會開始產生回答，還有失敗需要重新送出的情況，而AI還是較缺乏人類的常識。

例如，我在第三次的生成，也就是那個只有3D但只有一條的那個版本後面反饋說它有部分完成任務，但是是一個1x15x15的作品，結果呢，AI的反應是用1x15x15當需求再做改進做了另外一版，而沒意識到這是個Bug。

後面再說需求是15x15x15，1x15x15的3D沒意義，AI模型才知道並重新用15x15x15的需求修正代碼。

還有對話歷程越長時表現好像也越差，後面幾次失誤機率就變高了，寫出來的代碼常常不能執行，會無法點擊那樣。

所以如果要依賴AI寫複雜的大型應用程式可能還是缺乏效率的，但如果切割成小單位，整個架構先設計好，讓AI逐個完成小部分，那應該可行，有性價比吧。

說實在的，學習寫程式這件事，真的需要學的，大部分是和程式邏輯沒關係的一堆設定或工具與框架的用法。

程式語言邏輯本身沒有什麼複雜神奇的，就是爛設計可以讓簡單的意圖變得很難讀懂而已。

最高階的任務是從行銷面，業務面，管理面去思考需求，找出有價值的解決方案策略。

再來是分解需求，做可行性評估，拆解成可以被實現的結構，這樣的整體架構分析設計。

接著要選型，選擇工具，語言，框架，存儲的策略，與方便現成使用的函式庫等。

最後一段，才是具體把代碼寫出來，然後單元測試與整合測試。

最後一段應該相當程度上可以讓AI代勞，甚至受過良好訓練的AI表現其實比一般菜鳥工程師可能都更好。

但源頭的需求與架構呢，現況可能就不能依賴AI了。

事實上常常連人都做不好的事，怎樣才算好都沒有清楚標準，想一股腦丟給AI，確實是太過一廂情願。

越低階的任務，越容易管理的任務，讓AI接手，成本效益比人執行可能更好。

但高階任務，需要思考與判斷的，目前還是需要人。

所以老掉牙的，以前人力資源常常在推的，需要訓練人才的批判性思考能力，獨立思考能力，這些能力，即使在AI時代還是很重要，不但不會被直接取代，甚至會更有價值。

所以呢，是否該是到了徹底結束填鴨教育的，與奴才養成的時刻了嗎？

有優秀主觀思考能力的人才是下個世代裡有價值的人力資源吧？