王小川旗下百川智能今日發(fā)布 Baichuan-13B 大模型,號稱“130 億參數(shù)開源可商用”。
據(jù)官方介紹,Baichuan-13B 是由百川智能繼 Baichuan-7B 之后開發(fā)的包含 130 億參數(shù)的開源可商用的大規(guī)模語言模型,在中英文 Benchmark 上均取得同尺寸模型中最好的效果。本次發(fā)布包含有預訓練 (Baichuan-13B-Base) 和對齊 (Baichuan-13B-Chat) 兩個版本。
官方宣稱,Baichuan-13B 有如下幾個特點:
更大尺寸、更多數(shù)據(jù):Baichuan-13B 在 Baichuan-7B 的基礎上進一步擴大參數(shù)量到 130 億,并且在高質(zhì)量的語料上訓練了 1.4 萬億 tokens,超過 LLaMA-13B40%,是當前開源 13B 尺寸下訓練數(shù)據(jù)量最多的模型。支持中英雙語,使用 ALiBi 位置編碼,上下文窗口長度為 4096。
同時開源預訓練和對齊模型:預訓練模型是適用開發(fā)者的『 基座 』,而廣大普通用戶對有對話功能的對齊模型具有更強的需求。因此項目中同時具有對齊模型(Baichuan-13B-Chat),具有很強的對話能力,開箱即用,幾行代碼即可簡單地部署。
更高效的推理:為了支持更廣大用戶的使用,項目中同時開源了 int8 和 int4 的量化版本,相對非量化版本在幾乎沒有效果損失的情況下大大降低了部署的機器資源門檻,可以部署在如英偉達 RTX3090 這樣的消費級顯卡上。
開源免費可商用:Baichuan-13B 不僅對學術(shù)研究完全開放,開發(fā)者也僅需郵件申請并獲得官方商用許可后,即可以免費商用。
目前該模型已經(jīng)在 HuggingFace、GitHub、Model Scope 公布,感興趣的 IT之家小伙伴們可以前往了解。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...