行業大模型的構建和應用中,由于需求和目標不同,技術實現複雜性差异也較大。通過調研總結,目前機構在使用大模型適配行業應用過程中,從易到難主要有提示工程、檢索增强生成、精調、預訓練四類方式。
在機構的具體實踐中,通常不會只用一種方式,而會組合使用,以實現最佳效果。例如,一個高質量的智能問答系統,會綜合使用提示工程、檢索增强生成和精調等方式。
1. 提示工程(Prompt Engineering)指通過針對性地設計提示詞(prompt),來引導大模型産生特定應用場景所需的輸出。
提示工程上手相對簡單,不需要批量采集與構建數據集,更不需要調整或訓練模型本身,很多企業剛接觸大模型時會采用這種方式來快速探索應用。
通用大模型的能力雖然强大,較少的輸入也可以生成內容,但隨意輸入可能産生無效或錯誤的輸出。通過系統設計提示詞,規範模型的輸入輸出方式,企業能够快速得到更準確和實用的結果。
提示工程成爲持續優化大模型應用的基本方法。通過構建提示庫幷不斷更新,企業的大模型應用開發人員能够在不同場景中重複使用這些提示詞,再將用戶的開放式輸入封裝到提示詞中傳給模型,使模型輸出更相關、更準確的內容,避免用戶反復試驗從而提升體驗。
任務的複雜度决定了提示工程的技術方式選擇。簡單任務可以用零樣本提示、少樣本提示的方式,不提供或少量提供示例給模型,讓模型能快速輸出結果,比如對某個文本進行正面或負面的評判。複雜任務則大多需要拆解爲若干步驟、提供更多示例,采取思維鏈提示等方式,讓模型能逐步推理輸出更精准的結果,例如對一個複雜的工程問題進行數學求解。
2.檢索增强生成(RAG,Retrieval-Augmented Generation) 指在不改變大模型本身的基礎上,通過外挂知識庫等方式,爲模型提供特定領域的數據信息輸入,實現對該領域更準確的信息檢索和生成。
RAG能有效幫助企業快速利用大模型處理私有數據,已經成爲企業部署行業大模型應用的主流選擇,特別適用于數據資源基礎較好的企業、需要準確引用特定領域知識的場景,如客服問答、內容查詢與推薦等。
主要優點有:
提高模型應用的專業準確性
讓模型能基于特定數據生成內容、降低幻覺;
滿足企業自有數據所有權保障的需要
模型本身只會查找和調用外挂的數據,不會吸收數據幷訓練成模型內含的知識;
具備較高的性價比底層大模型本身不做調整,不用投入大量算力等資源做精調或預訓練,能够更快速開發和部署應用。
RAG的能力核心是有效結合了「檢索」和「生成」兩種方法。
基本思路是把私有數據進行切片,向量化後通過向量檢索進行召回,再作爲上下文輸入到通用大模型,模型再進行分析和回答。
具體應用時,當用戶提出一個問題或請求,RAG首先檢索私有數據,找到與問題相關的信息。這些信息接著被整合到原始問題中,作爲額外的上下文信息和原始問題一起輸入大模型。
大模型接到這個增强的提示後,將其與自己內部知識進行綜合,最後生成更準確的內容。
向量化成爲RAG提升私有數據調用效率的普遍手段。
通過將各種數據統一轉化成向量,能更高效地處理各類非結構化數據,進行相似性搜索,從而在大規模數據集中快速找到最相似向量,特別適合大模型檢索和調用各種數據的需要。
3.精調(FT,Fine-tuning)也常稱爲“微調”,
是在已經預訓練好的大模型基礎上,基于特定數據集進一步調整大模型的部分參數,使模型能更好地適應業務場景、准確高效地完成特定任務。精調也是目前較爲常用的行業大模型構建方法。
「精調適用于特定領域對大模型有更高性能要求的場景。」
在行業應用中,當通用大模型不能準確理解或生成專業的內容時,可以通過精調的方式,提升大模型在理解行業特定術語和正確應用行業知識的能力,幷確保大模型的輸出符合特定的業務規則或邏輯。
例如,在零售的智能客服場景中,大模型需要理解商品的知識,幷按照公司的故障排查流程來提問和回應。
「精調會將行業知識內化到大模型的參數中。」
精調後的大模型不僅保有通用知識,還能較爲準確地理解和使用行業知識,能更好地適應行業內的多樣化場景,提供更加貼合實際需求的解决方案。
例如,用醫療領域數據精調的醫療大模型,能够更準確解讀專業的醫學文獻和病歷報告,達到爲醫生提供輔助診斷的要求。
3. 「精調是對大模型定制優化和成本投入的折中選擇。」
精調往往涉及大模型權重參數或模型結構的調整,幷且需要多次迭代才能達到性能要求,因此相對提示工程、RAG等不改變模型本身的方式,會需要較長時間和較多的計算資源。
當然,與從頭預訓練大模型相比,精調還是一種更爲經濟高效的方法,因爲通常只用對模型做局部調整、所需訓練的數據相對少。
「高質量數據集是决定精調後模型性能的關鍵。」
數據集需要與業務場景密切相關,幷且數據標注需要高度精准。高質量數據集既會來自企業內部數據提取也會來自外部數據的采集,均需進行專門的數據標注處理。
這些數據需要具備代表性、多樣性和準確性,幷符合數據隱私等法規要求。只有當足够的高質量數據被用于訓練時,精調才能真正發揮作用。
預訓練
通過提示詞工程、檢索增强生成、精調三種方式都無法達到需求標準時,還可以選擇預訓練的方式,構建一個專門爲特定行業定制的大模型。
「預訓練行業大模型適用于與現有大模型差异較大的場景。」
預訓練方式要求搜集幷標注大量行業特定數據,涵蓋文本、圖像、交互記錄,以及特殊格式數據(如基因序列);
在訓練過程上,模型通常會采用從底層參數開始訓練,或者基于已經具備一定能力的通用模型進行後訓練(post-training,也稱爲二次增訓),目的是使大模型更好地理解特定領域的術語、知識和工作流程,提高大模型在行業應用中的性能和準確性,確保其在該領域的專業性和效率。例如谷歌的蛋白質生成模型AlphaFold2,是特定于生物信息學的大模型,其預訓練涉及了對大量實驗室測定的蛋白質結構數據的深入分析和學習,使得模型能够捕捉到蛋白質序列與其空間結構之間的複雜關係,從而精准地理解和預測蛋白質的複雜三維結構。
「預訓練行業大模型適用于與現有大模型差异較大的場景。」
預訓練方式要求搜集幷標注大量行業特定數據,涵蓋文本、圖像、交互記錄,以及特殊格式數據(如基因序列);
在訓練過程上,模型通常會采用從底層參數開始訓練,或者基于已經具備一定能力的通用模型進行後訓練(post-training,也稱爲二次增訓),目的是使大模型更好地理解特定領域的術語、知識和工作流程,提高大模型在行業應用中的性能和準確性,確保其在該領域的專業性和效率。例如谷歌的蛋白質生成模型AlphaFold2,是特定于生物信息學的大模型,其預訓練涉及了對大量實驗室測定的蛋白質結構數據的深入分析和學習,使得模型能够捕捉到蛋白質序列與其空間結構之間的複雜關係,從而精准地理解和預測蛋白質的複雜三維結構。據的深入分析和學習,使得模型能够捕捉到蛋白質序列與其空間結構之間的複雜關係,從而精准地理解和預測蛋白質的複雜三維結構。
「預訓練的方式一般投入成本較大,當前較少采用。」
預訓練方式不僅需要大量的計算資源和長期的訓練過程,還需要行業專家的密切協作和深度介入。此外,從頭預訓練還涉及複雜的數據處理和模型架構設計工作,以及在訓練過程中不斷地調優和驗證。
因此,只有少數企業和科研機構有能力采用這種高投入、高風險,而潜在回報同樣高的方式。未來隨著技術的進步和成本的降低,預訓練行業大模型可能增加。
「預訓練行業大模型的技術流程與通用大模型相似,但更注重行業特性。」在數據集准備上,從一開始就會加入行業特性的數據;
在模型構建技術與流程上,和通用大模型預訓練類似,會涉及模型架構設計、預訓練任務挑選、大量數據處理、大規模無監督或自監督學習等。
例如,使用自監督學習(SSL,Self-Supervised Learning)技術,通過從數據本身生成標簽來學習數據的內在結構和特徵,無需人工標注的數據;以及基于人類反饋的强化學習(RLHF,Reinforcement Learning from Human Feedback)技術,通過引入人類專家的主觀反饋來引導模型的學習過程,以産生更高質量的輸出。
Comments