網路城邦
上一篇 回創作列表 下一篇   字體:
新版Claude3.5的測試
2024/06/21 19:41:05瀏覽669|回應0|推薦7

看到新聞,AntrophicClaude3.5 Sonet推出了,大殺四方,並支援新功能Artifacts可以寫可預覽的小遊戲。

 

這個服務是免費的,之前有些問題,Google查不出好結果的,傻蛋都是問這個免費的大模型。

還真別說,是有用的。

對比免費的ChatGPT,免費的Claude3.5更靠譜一點,偶爾需要用到都是用它。

進化了,當然來試一下看看。

 

傻蛋讓它寫一個簡單的五子棋遊戲。

它很快就寫一個Python的版本的五子棋。

執行起來是可以玩,就輪流輸入兩個玩家的落子座標這樣,經測試,勝利條件判斷是有效的,基本上是一個完成的作品。

缺點,就是橫向X軸的落子位置與上方的欄位定位沒對齊,所以不好操作。

疑,沒有使用Artifacts新功能?

就追問,然後呢,這個AI馬上就再弄了一個React版本的Artifacts五子棋,就在畫面右邊,可以用點擊互動操作,遠勝之前那個Python的遊戲介面。

一次就把代碼寫出來並且可以執行,這個真的厲害。

它還繼續給建議,可以加各種功能喔。

然後傻蛋沒聽它的推薦,直接給它新的挑戰,能不能做一個3D的五子棋呢?

它還真的搞一個出來。

不過有缺陷,原本平面是15x15的棋盤,3D的版本卻變成1x15x15,高度是用一個層數切換的UI來實現,雖不驚豔但是可接受的解法。

只是X軸只有1,所以每一層只有一條15個格子可以下,等於和原本2D是一樣的。

點擊操作流程,勝負判定一樣有效,不同層的有做殘影,其實不錯了,就是X軸只有1所以看起來拉垮。

接下來就互動了好幾次,它重寫了好幾個版本,碰到各種問題,每次都差一些沒完成。

最後聊天內容超過上限,必須得產生新聊天,沒辦法繼續測試完成。

 

測試結果呢,感覺是,有再變聰明一點了,寫的代碼與解釋都有條理。

但想依賴AI把自己都沒想清楚的需求給開發出來,還是不靠譜的。

傻蛋猜五子棋早就在訓練資料裡,這個模型早就有經驗了,所以前兩次出手都一次就完成,但追加新要素後就沒辦法一次OK了。

另外問題越複雜思考轉圈圈等待的時間就越久,前兩個有成功完成的任務,基本上我的需求輸完等不到五秒鐘就開始回答與寫代碼,兩下子就完成了。

後面的需求思考時間就變長,常常要想十秒以上才會開始產生回答,還有失敗需要重新送出的情況,而AI還是較缺乏人類的常識。

例如,我在第三次的生成,也就是那個只有3D但只有一條的那個版本後面反饋說它有部分完成任務,但是是一個1x15x15的作品,結果呢,AI的反應是用1x15x15當需求再做改進做了另外一版,而沒意識到這是個Bug

後面再說需求是15x15x151x15x153D沒意義,AI模型才知道並重新用15x15x15的需求修正代碼。

還有對話歷程越長時表現好像也越差,後面幾次失誤機率就變高了,寫出來的代碼常常不能執行,會無法點擊那樣。

所以如果要依賴AI寫複雜的大型應用程式可能還是缺乏效率的,但如果切割成小單位,整個架構先設計好,讓AI逐個完成小部分,那應該可行,有性價比吧。

 

說實在的,學習寫程式這件事,真的需要學的,大部分是和程式邏輯沒關係的一堆設定或工具與框架的用法。

程式語言邏輯本身沒有什麼複雜神奇的,就是爛設計可以讓簡單的意圖變得很難讀懂而已。

最高階的任務是從行銷面,業務面,管理面去思考需求,找出有價值的解決方案策略。

再來是分解需求,做可行性評估,拆解成可以被實現的結構,這樣的整體架構分析設計。

接著要選型,選擇工具,語言,框架,存儲的策略,與方便現成使用的函式庫等。

最後一段,才是具體把代碼寫出來,然後單元測試與整合測試。

最後一段應該相當程度上可以讓AI代勞,甚至受過良好訓練的AI表現其實比一般菜鳥工程師可能都更好。

但源頭的需求與架構呢,現況可能就不能依賴AI了。

事實上常常連人都做不好的事,怎樣才算好都沒有清楚標準,想一股腦丟給AI,確實是太過一廂情願。

越低階的任務,越容易管理的任務,讓AI接手,成本效益比人執行可能更好。

但高階任務,需要思考與判斷的,目前還是需要人。

所以老掉牙的,以前人力資源常常在推的,需要訓練人才的批判性思考能力,獨立思考能力,這些能力,即使在AI時代還是很重要,不但不會被直接取代,甚至會更有價值。

所以呢,是否該是到了徹底結束填鴨教育的,與奴才養成的時刻了嗎?

有優秀主觀思考能力的人才是下個世代裡有價值的人力資源吧?

( 不分類不分類 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=pondin&aid=180740078