關於原生多模態人工智能的一些猜想 - Q版傻蛋的網誌

字體：小中大

關於原生多模態人工智能的一些猜想

2024/05/23 15:27:56瀏覽293｜回應0｜推薦3

最近大語言模型有兩個炸場的演示。

OpenAI的GPT-4o與Google的Project Astra。

可以即時語音互動，兼具視覺與聽覺的理解能力，效果看起來十分驚人。

之前也能做到類似的應用，但需要先語音轉文字，文字再去調用語言模型生成，生成的文字再調用文字轉語音，就耗時不順暢。

而且中間經過文字，無法在文字內表示的資訊就不見了，情緒語調那些，或是看到對方正在流汗可能壓力很大這類細微的訊息，如果要經由文字轉述表達，那中間這層文字就得更加複雜，才能涵蓋這些額外的資訊。

更麻煩的是，還要判斷何時該插嘴，何時可以打斷，這需要持續的判斷。

運用之前的語言模型的API調用，不是不能做，只是成本高，體驗很難好。

而這個新的原生多模態的語言模型，或許也不能叫語言模型，可以改叫智能模型吧，或許是跳脫必須使用語言當媒介與生成的機制，可以直接輸入聲音，輸出聲音，然後直接用聲音學習，也能直接用聲音輸出，於是才有效率的根本改革，所以才有這個炸裂的演示。

以文字為主的語言模型坦白說想像空間就那樣了，大家也發現AI的突破沒之前快，對OpenAI的期待也失望居多，但這個原生多模態似乎一下子打破大家想像空間了，又活了。

坦白說，看到OpenAI的語音演示時，傻蛋的感覺是，這個造假的機率好像有點高的說。結合之前那個Sora的紀錄，會讓人對OpenAI感到相當的疑慮，該不會是先做個假的來誤導其他競爭對手，如果競爭對手真的做得出來再來抄？

而且新模型果然沒有馬上開放，開放的部分果然不包含語音互動的炸裂原生多模態，更可疑了。

但google隔天的演示，雖然鋒芒被OpenAI蓋過去，但我們知道Google臉皮沒那麼厚，交出來的作業總有幾分實在的。

Google版本的Sora有了，而Project Astra基本上也對標GPT-4o的原生多模態，這反而變相為OpenAI背書了。

應該是有這樣的技術的，只是沒開源，大家只能猜。

之前大語言模型的技術其實大家都摸透透，有開源的源代碼，訓練數據與參數權重都能找到，要搞就是資源燒錢罷了。

但這新東西出來，好像是新技術耶，怎麼實現的，大家好像又沒底了。

我們來猜猜看吧。

反正這些智能模型就是模擬人腦的學習機制，用虛擬的神經元模擬人腦，用數據當入接受的刺激，然後更新神經元的狀態來達成學習感知的效果吧，多模態也不過就是把原本只使用文字當作輸入，直接一口氣升級到，輸入就是和人差不多的五感那樣。

用連續的視覺加聽覺取代原本只是連續的文字，或許就是撬開那個原生多模態的基本操作吧。

之前不是也有新聞嗎，說OpenAI大量使用Youtube的影片來做訓練，或許就是改用影片來當訓練資料，來實現這個原生多模態的新智能模型吧。

而能輸出影片，就能只輸出其中的語音，也能只輸出其中的某些畫面，當然也能只輸出其中的文字，後面更彈性，所以就效率上來說，有可能是改變遊戲規則的破壞者。

好，那問題來了，如果這是新遊戲規則，那要從哪去生那麼多的訓練資料？

沒有足夠的資料，就訓練不出像樣的東西吧。

數據從哪來？用買的嗎？

數據的品質又如何確保？

之前的努力，那些都是文字數據，不能用了嗎？

其實想想，這個原生多模態的訓練數據，應該是不難搞。

把文字透過文字轉語音，就是語音了，再配合上只有字幕的空白背景，那不就是原生影音的多模態訓練資料了嗎？

要多少有多少吧。

可以再搭配最近微軟很熱衷的，小模型加教科書品質數據來訓練智能模型的概念，或許可以專門為原生多模態的智能模型，編一套原生多模態的學習訓練數據喔。

可以直接去對學校真人教學的場景錄影，這樣就是相當真實的經驗數據。

希望智能模型學會什麼，就收集或乾脆錄製相關的教學影片，通用人工智慧或許就這樣被鍊出來了。

當然還有很多問題，如記憶，原本的語言智能模型就是沒有記憶的，也不具備即時學習更新認知記憶的能力，所以基本上，安全問題是有限的。

但要能高效率的即時互動，聽人說話，隨時根據現場最新狀況做合適的互動回應，這就不單單只是原生訓練素材形式的問題。

如果要繼續維持之前的無狀態無記憶的模型，同時要維持隨時就緒可以回話互動的狀態，就要持續重新生成，並持續一直累積外掛的記憶。

外掛的記憶在無記憶的語言模型的實現是，每次都重新把之前的所有歷程記憶當作新輸入，效率是會越來越低的。

若是為了提高效能，允許模型有快取記憶，過程可以累積一些狀態，直接提供原生的短期記憶，那，這個記憶該有多長？

如果可以允許一天的記憶，那十天行不行，那一個月行不行？

以硬體技術來說，提供一個模型的記憶的上限，可以是幾百年，幾千年都行喔，只要砸資源就行了。

一個沒有記憶能力的模型我們可以說那只是個工具，因為它沒有存在，它只是一個一時的狀態，但，如果智能模型能擁有數十年比擬人類壽命的記憶，那恐怕就會產生很麻煩的道德問題了。

而這種智能，還是可以複製的，其複雜度恐怕不是我們現在可以想像。

就留給其他專家去傷腦筋了吧。