字體:小 中 大 | |
|
|
2024/05/23 15:27:56瀏覽273|回應0|推薦3 | |
最近大語言模型有兩個炸場的演示。 OpenAI的GPT-4o與Google的Project Astra。 可以即時語音互動,兼具視覺與聽覺的理解能力,效果看起來十分驚人。 之前也能做到類似的應用,但需要先語音轉文字,文字再去調用語言模型生成,生成的文字再調用文字轉語音,就耗時不順暢。 而且中間經過文字,無法在文字內表示的資訊就不見了,情緒語調那些,或是看到對方正在流汗可能壓力很大這類細微的訊息,如果要經由文字轉述表達,那中間這層文字就得更加複雜,才能涵蓋這些額外的資訊。 更麻煩的是,還要判斷何時該插嘴,何時可以打斷,這需要持續的判斷。 運用之前的語言模型的API調用,不是不能做,只是成本高,體驗很難好。 而這個新的原生多模態的語言模型,或許也不能叫語言模型,可以改叫智能模型吧,或許是跳脫必須使用語言當媒介與生成的機制,可以直接輸入聲音,輸出聲音,然後直接用聲音學習,也能直接用聲音輸出,於是才有效率的根本改革,所以才有這個炸裂的演示。 以文字為主的語言模型坦白說想像空間就那樣了,大家也發現AI的突破沒之前快,對OpenAI的期待也失望居多,但這個原生多模態似乎一下子打破大家想像空間了,又活了。
坦白說,看到OpenAI的語音演示時,傻蛋的感覺是,這個造假的機率好像有點高的說。結合之前那個Sora的紀錄,會讓人對OpenAI感到相當的疑慮,該不會是先做個假的來誤導其他競爭對手,如果競爭對手真的做得出來再來抄? 而且新模型果然沒有馬上開放,開放的部分果然不包含語音互動的炸裂原生多模態,更可疑了。 但google隔天的演示,雖然鋒芒被OpenAI蓋過去,但我們知道Google臉皮沒那麼厚,交出來的作業總有幾分實在的。 Google版本的Sora有了,而Project Astra基本上也對標GPT-4o的原生多模態,這反而變相為OpenAI背書了。 應該是有這樣的技術的,只是沒開源,大家只能猜。 之前大語言模型的技術其實大家都摸透透,有開源的源代碼,訓練數據與參數權重都能找到,要搞就是資源燒錢罷了。 但這新東西出來,好像是新技術耶,怎麼實現的,大家好像又沒底了。
我們來猜猜看吧。 反正這些智能模型就是模擬人腦的學習機制,用虛擬的神經元模擬人腦,用數據當入接受的刺激,然後更新神經元的狀態來達成學習感知的效果吧,多模態也不過就是把原本只使用文字當作輸入,直接一口氣升級到,輸入就是和人差不多的五感那樣。 用連續的視覺加聽覺取代原本只是連續的文字,或許就是撬開那個原生多模態的基本操作吧。 之前不是也有新聞嗎,說OpenAI大量使用Youtube的影片來做訓練,或許就是改用影片來當訓練資料,來實現這個原生多模態的新智能模型吧。 而能輸出影片,就能只輸出其中的語音,也能只輸出其中的某些畫面,當然也能只輸出其中的文字,後面更彈性,所以就效率上來說,有可能是改變遊戲規則的破壞者。
好,那問題來了,如果這是新遊戲規則,那要從哪去生那麼多的訓練資料? 沒有足夠的資料,就訓練不出像樣的東西吧。 數據從哪來?用買的嗎? 數據的品質又如何確保? 之前的努力,那些都是文字數據,不能用了嗎? 其實想想,這個原生多模態的訓練數據,應該是不難搞。 把文字透過文字轉語音,就是語音了,再配合上只有字幕的空白背景,那不就是原生影音的多模態訓練資料了嗎? 要多少有多少吧。 可以再搭配最近微軟很熱衷的,小模型加教科書品質數據來訓練智能模型的概念,或許可以專門為原生多模態的智能模型,編一套原生多模態的學習訓練數據喔。 可以直接去對學校真人教學的場景錄影,這樣就是相當真實的經驗數據。 希望智能模型學會什麼,就收集或乾脆錄製相關的教學影片,通用人工智慧或許就這樣被鍊出來了。
當然還有很多問題,如記憶,原本的語言智能模型就是沒有記憶的,也不具備即時學習更新認知記憶的能力,所以基本上,安全問題是有限的。 但要能高效率的即時互動,聽人說話,隨時根據現場最新狀況做合適的互動回應,這就不單單只是原生訓練素材形式的問題。 如果要繼續維持之前的無狀態無記憶的模型,同時要維持隨時就緒可以回話互動的狀態,就要持續重新生成,並持續一直累積外掛的記憶。 外掛的記憶在無記憶的語言模型的實現是,每次都重新把之前的所有歷程記憶當作新輸入,效率是會越來越低的。 若是為了提高效能,允許模型有快取記憶,過程可以累積一些狀態,直接提供原生的短期記憶,那,這個記憶該有多長? 如果可以允許一天的記憶,那十天行不行,那一個月行不行? 以硬體技術來說,提供一個模型的記憶的上限,可以是幾百年,幾千年都行喔,只要砸資源就行了。 一個沒有記憶能力的模型我們可以說那只是個工具,因為它沒有存在,它只是一個一時的狀態,但,如果智能模型能擁有數十年比擬人類壽命的記憶,那恐怕就會產生很麻煩的道德問題了。 而這種智能,還是可以複製的,其複雜度恐怕不是我們現在可以想像。 就留給其他專家去傷腦筋了吧。 |
|
( 不分類|不分類 ) |