1. <ruby id="2nt17"><table id="2nt17"></table></ruby><listing id="2nt17"><thead id="2nt17"></thead></listing>
    <ruby id="2nt17"><table id="2nt17"></table></ruby>
    <strong id="2nt17"></strong>
    <li id="2nt17"></li>

        1. Sora 證明馬斯克是對的,但特斯拉和人類可能都輸了

          摘要

          Sora 證明特斯拉的思路是對的,而特斯拉證明 Sora 的價值不止是生成視頻。

          Sora 推出,馬斯克可能是心情最復雜的一個。不僅因為其本人與 OpenAI 早年的糾葛,更因為 Sora 實現的其實是特斯拉早幾年間一直在探索的方向。

          2 月 18 日,馬斯克在科技主播 @Dr.KnowItAll 一條主題為「OpenAI 的重磅炸彈證實了特斯拉的理論」的視頻下留言,稱「特斯拉已經能夠用精確物理原理制作真實世界視頻大約一年了」。

          隨后他在 X 上轉發了一條 2023 年的視頻,內容是特斯拉自動駕駛總監 Ashok Elluswamy 向外界介紹特斯拉如何用 AI 模擬真實世界駕駛。視頻中,AI 同時生成了七個不同角度的駕駛視頻,同時只需要輸入「直行」或者「變道」這樣的指令,就能讓這七路視頻同步變化。

           

          當然,這不意味著特斯拉早在一年前就掌握了 Sora 的技術,畢竟特斯拉的生成技術只用于模擬車輛行駛,而 Sora 能夠處理的環境、場景、Prompt、物理規律等信息更加復雜,二者在難度上不可同日而語。

          但特斯拉 AI 和 Sora 訓練的思路是一致的:并不是訓練 AI 如何生成視頻,而是訓練 AI 理解和生成一個真實的場景或者世界,視頻只是從某一個視角觀察這個場景的一段時空。這是兩家在現有業務上完全不同的公司,以彼此不同的方法來感知真實世界,而他們共同希望通向的,都是 AGI(通用人工智能),甚至更具體一些,就是具身智能和智能體。

          理解這個觀點的核心,是理解 OpenAI 為 Sora 賦予的使命,并不只是替代視頻生成的創作者,而是將視頻生成作為幫助 AI 理解真實世界的「模擬器」。如果說特斯拉數以百萬計的車輛仍然需要用「肉身」感受這個世界,那么 Sora 則是單純依靠數據的輸入,建立起對世界的認知。

           


           

           

          OpenAI 官網上,關于 Sora 的這篇研究論文名為《把視頻生成模型作為世界模擬器》。請注意「世界模擬器」(world simulators)這個關鍵詞,它是比生成視頻更關鍵的核心所在。

          其實,早在特斯拉發布 FSD V12 的時候,這家以汽車為主要消費產品的人工智能公司,就已經展示了類似的能力。

          如何理解呢?首先,在 FSD V12 上,工程師刪除了超過 30 萬行定義駕駛規則的代碼,系統將從被「投喂」的駕駛視頻中,學習如何應對真實的駕駛場景,而不是向過往那樣,按照寫好的規則,在某個特定場景下執行某一個具體的命令。

          當然,和作為「生成式模型」的 Sora 不同,FSD 的目標是實現自動駕駛,所以它并不需要真正生成一個具體的視頻。你可以想象成一個人(或者智能體)正在進行「防御性駕駛」,基于過往經驗,可以對周圍環境中交通參與者的下一步移動趨勢做出判斷。這個判斷存在在頭腦里就行了,不需要真正把它畫在紙上。因此,特斯拉的 FSD 也不需要把對未來的想象,生成為一個真實視頻,并呈現在車輛的某一個屏幕上。

          所以,現在有 OpenAI 和特斯拉兩家完全不同的公司,用截然不同的方式和路徑,實現「通過視頻生成,讓 AI 理解物理世界」這個相同的目標。

          簡單了解一下 Sora 的運行邏輯:OpenAI 表示,Sora 結合了 Transformer 和 Diffusion 兩個過去幾年最重要的模型。ChatGPT、Gemini、LLaMA 等語言模式都是基于 Transformer 模型,它對詞語進行標記,并生成下一個單詞;Diffusion 模型則是「文生圖」的代表。

          如果從「理解世界」的角度來審視 Sora,那么某一幀圖像的畫質、畫面關系絕不是模型質量高低的評判標準,甚至官網釋出的 60 秒一鏡到底視頻也不是最核心的部分。重要的是這個生成的視頻可以被剪輯——在不同的機位下,無論是廣角、中景、近景、特寫,視頻中人物和背景的關系都保持著高度的「一致性」。這才是 Sora 遙遙領先并接近真實的地方。

           

          Sora生成的視頻,在不同機位下呈現出的「一致性」 | OpenAI官網截圖

           

          這一點和特斯拉在 FSD 上采取「純視覺」方案可以結合理解。簡單來說,99% 的車企或者智駕團隊都會在車輛上保留激光雷達,通過激光束的發射和接收,輔助計算周圍物體和車輛間的距離關系。但馬斯克不僅刪除了 30 萬行代碼,還移除了雷達,只依靠高清攝像頭采集和神經網絡學習來判斷距離關系。

          無論是對特斯拉,還是對 OpenAI,這都是巨大的挑戰。畢竟輸入的畫面是 2D 的,但輸出的結果(無論是駕駛指令還是視頻)都需要基于對 3D 世界的深刻理解。

          規模和質量是訓練模型的核心。特斯拉的數據來源于真實道路上,搭載了傳感器的車輛;而 OpenAI 的大量數據,從目前的公開信息來看,來源于網絡。在質量的維度,在《馬斯克傳》里,作者艾薩克森寫道特斯拉通過和 Uber 合作,獲取「五星司機」的素材訓練 FSD;而從規模出發,奧特曼最近希望籌集萬億規模的資金,就是重注算力和規模的具體體現。

           

          計算資源會直接影響生成的視頻質量,從左往右分別是1倍資源、4倍資源、16倍資源的生成效果 | 視頻播客截圖

           

          最后,回到一開始的那個問題,為什么我們會認為 Sora 和 FSD v12 是相似的?Sora 和 OpenAI 未來的想象空間又是什么呢?它們和 AGI 又有什么關系?

          在馬斯克看來,當人工智能可以真正解決一個問題(物理、數學、化學等等)的時候,AGI 就到來了。不過還有另外一個理解維度,那就是具身智能。畢竟現實世界里,并不是只有數學公式和文字規則,擁有一定的智商的小貓小狗也可以依靠運動真實地和物理世界進行互動。

          這點對于過去只能輸入二維信息的 AI 來說很難做到。這也是為什么馬斯克看到 Sora 后在 X 上評價是「GG Humans」,在他看來 Sora 今天做到的,已經打破了過去的次元壁,而能理解真實世界并繼續學習,AI 也就有了更進一步影響真實世界的能力。

          而就像特斯拉把這種生成能力用于訓練車輛,Sora 的價值也不僅僅是生成一個難以讓人區分真假的視頻,用作影視創作者的生產力工具(盡管這是一個非常困難且剛需的場景)。就像周鴻祎所說,「Sora 只是小試牛刀,它展現的不僅僅是一個視頻制作的能力,而是大模型對真實世界有了理解和模擬之后,會帶來新的成果和突破?!?/p>

          最新文章

          極客公園

          用極客視角,追蹤你不可錯過的科技圈.

          極客之選

          新鮮、有趣的硬件產品,第一時間為你呈現。

          張鵬科技商業觀察

          聊科技,談商業。

          国产精品久久久久一区二区三区,美女禁区a级全片免费观看,一个人看的www视频免费下载,亚洲精品国产精品乱码不99

          1. <ruby id="2nt17"><table id="2nt17"></table></ruby><listing id="2nt17"><thead id="2nt17"></thead></listing>
            <ruby id="2nt17"><table id="2nt17"></table></ruby>
            <strong id="2nt17"></strong>
            <li id="2nt17"></li>