大模型的“大”到底是啥? 一共四個維度, 第一, 參數規模, 就像是你吃火鍋時鍋的大小, 也是一切的基礎, ChatGPT就是一口1750億參數的巨型火鍋, 因為夠大, 所以能涮的食材也多。 這又涉及到了咱們的第二個維度, 訓練數據的規模, 就是咱們涮火鍋的食材種類, 食材越多越豐富, 涮鍋的味道就越香, 這也就是為啥說 “訓練數據決定了模型的知識廣度和深度”。 第三是計算量, 也叫訓練模型的能源消耗, 計算量大不大, 就是在問你這鍋的火力大不大? 一般肯定是火力越強熟得越快, 但也有像DeepSeek這樣, 著名的550萬美元能耗的火鍋, 主打一個“智能控溫”, 能耗小, 湯也能熟。 最後一個叫上下文窗口, 它決定的是模型能同時處理的信息量, 這回咱得支個桌了, 上下文窗口越大, 就相當於你放火鍋的餐桌越大, 那能放的菜品肯定也越多, 模型一次能處理的信息也就越多。 總結起來就是, 大模型就是一鍋容量大、食材多、火力強、桌面寬的火鍋。 好了, 吃個火鍋獎勵一下自己吧。
更多精彩內容,請登陸
財華香港網 (//m.iteamtexas.com/)
現代電視 (http://www.fintv.com)