AI 模型特性
在大模型出現之前,人工智能通常需要針對特定的任務和場景設計專門的算法模型,能够執行的也是訓練數據範圍內的單一任務。大模型的突破,關鍵在于展現出了類人的通用智能“涌現”能力,能够學習多個領域知識、處理多種任務,因此也被稱爲通用大模型。具體而言,大模型具備以下特點:
參數規模大
泛化能力强
支持多模态
參數規模大
大模型的參數規遠大于傳統深度學習模型。大模型發展呈現“規模定律”(Scaling Law)特徵即:模型的性能與模型的規模、數據集大小和訓練用的計算量之間存在幂律關係,性能會隨著這三個因素的指數增加而綫性提高,通俗而言就是“大力出奇迹”。
不過“大”幷沒有一個絕對的標準,而是一個相對概念。傳統模型參數量通常在數萬至數億之間,大模型的參數量則至少在億級,幷已發展到過萬億級的規模。
如OpenAl的GPT-1到GPT-3,參數量從1.1億大幅拉升到1750億,GPT-4非官方估計約達1.8萬億。
2.泛化能力强
大模型能够有效處理多種未見過的數據或新任務。基于注意力機制(Attention),通過在大規模、多樣化的無標注數據集上進行預訓練,大模型能够學習掌握豐富的通用知識和方法,從而在廣泛的場景和任務中使用,例如文本生成、自然語言理解、翻譯、數學推導、邏輯推理和多輪對話等。
大模型不需要、或者僅需少量特定任務的數據樣本,即可顯著提高在新任務上的表現能力。如OpenAl曾用GPT-4參加了多種人類基準考試,結果顯示其在多項考試中成績都超過了大部分人類(80%以上),包括法學、經濟學、歷史、數學、閱讀和寫作等。
3.支持多模態
大模型可以實現多種模態數據的高效處理。傳統深度學習模型大多只能處理單一數據類型(文本、語音或圖像),大模型則可以通過擴展編/解碼器、交叉注意力(Cross-Attention)、遷移學習(Transfer learning)等方式,實現跨模態數據的關聯理解、檢索和生成。
多模態大模型(LMMs, Large Multimodal Models)能够提供更加全面的認知能力和豐富的交互體驗,拓寬AI處理複雜任務的應用範圍,成爲業界探索邁向通用人工智能的重要路徑之一。典型如OpenAl的Sora模型推出,掀起了全球多模態大模型的發展新熱潮。
Comments