斯坦福大學“急了”

虎嗅網(wǎng) ? 10月前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個廣告，點擊進來看看。

出品｜虎嗅科技組

作者｜余楊

編輯｜苗正卿

頭圖｜視覺中國

6月4日消息，斯坦福大學AI團隊反過來學習國內(nèi)AI明星公司面壁智能的開源成果MiniCPM模型，激起了HuggingFace社區(qū)網(wǎng)友的廣泛討論，話題主要集中在：斯坦福大學AI團隊涉嫌抄襲。

這并不是中國的大模型第一次在國外被抄襲。 但此次事涉斯坦福大學這樣的知名機構(gòu)，在引發(fā)關(guān)注的同時，也暴露出AI領(lǐng)域知識產(chǎn)權(quán)保護和學術(shù)誠信問題。

更值得深思的是， 為何MiniCPM模型吸引了斯坦福的眼球？這是否意味著國內(nèi)大模型“出圈”了？

此次事件開始于斯坦福團隊聲稱 以不到500美元（ 約等于人民幣3650元 ）的成本就能訓練出一個性能超越GPT-4V的SOTA多模態(tài)大模型。 這一聲明迅速吸引了廣泛關(guān)注，但不久后，社區(qū)內(nèi)開始出現(xiàn)對Llama3-V的質(zhì)疑聲，指責其抄襲了面壁智能的MiniCPM-Llama3-V 2.5。

網(wǎng)友Magic Yang發(fā)現(xiàn)Llama3-V項目中有大量與MiniCPM-Llama3-V 2.5雷同的內(nèi)容，包括模型結(jié)構(gòu)和配置文件高度相似，只是變量名不同。

除了社區(qū)網(wǎng)友列出的證據(jù)外，經(jīng)面壁智能團隊核實， Llama3-V不但能夠與MiniCPM一樣識別出“清華簡”戰(zhàn)國古文字，并且兩個模型連做錯的樣例都一模一樣。 而這項成果來自面壁智能團隊對浩如煙海的清華簡逐字掃描，再一個一個地進行數(shù)據(jù)標注，經(jīng)歷了數(shù)個月的努力，才融合進模型中的，這進一步證實了Llama3-V模型的抄襲行為。

MiniCPM模型到底有什么魔力？

今年2月，面壁智能發(fā)布了20億參數(shù)的開源端側(cè)模型MiniCPM，在多個主流評測榜單中，該模型中英文分均超過Mistral-7B開源模型，甚至優(yōu)于Llama 2-13B。

這個名為MiniCPM的開源模型的價值增長點在哪？

3月31日，虎嗅科技組主辦的“2024 AI內(nèi)參會”上，邀請到了面壁智能CTO曾國洋，極客邦科技副總裁、TGO鯤鵬會總經(jīng)理楊攀做客。與會者就曾對開源模型的價值提出疑問，即相比其他增量模型，這個模型有什么優(yōu)勢呢？

在內(nèi)參會上，曾國洋給出的答案是這樣：它是一個“更高效的模型”，就是在有限的資源內(nèi)去把模型做得更好。

“如果簡單地將模型參數(shù)規(guī)模做大的話，它確實會隨著scaling law出現(xiàn)效果的提升，但它單一維度的提升是低效的。我們在研究出一個更優(yōu)化的方法之后，其實是可以隨著參數(shù)擴大，讓模型爆發(fā)出一種更明顯地增長?！痹鴩笳f。

也就是說，研發(fā)人員可以通過它在固定資源預算中，如額定的GPU數(shù)量、訓練數(shù)據(jù)量或是訓練時長下，匹配模型的最佳大小，且無需經(jīng)歷昂貴的試錯。這無疑從很大程度上提高了研發(fā)效率，我們猜測，這或許就是開源模型Llama3-V反被抄襲的原因所在。

對此事，面壁智能CEO李大海表示遺憾，并呼吁共建開放、合作、有信任的社區(qū)環(huán)境。

目前，Llama3-V模型已從Hugging Face等開源平臺上下架。 在社交媒體上，Llama3-V團隊的兩位作者森德哈斯·沙瑪（Siddharth Sharma）和阿克沙·加格（Aksh Garg）正式向MiniCPM團隊道歉。

斯坦福大學是世界頂尖的學術(shù)機構(gòu)之一，此次事件使其聲譽面臨拷問，尤其是在AI研究領(lǐng)域，未來的學術(shù)成果的審查想必會更加嚴格。

相應地，面壁智能因禍得福，在國際關(guān)注度陡增的背景下，其商業(yè)價值也在聚光燈下無限放大，也就意味著更多合作伙伴和投資者。而AI領(lǐng)域的知識產(chǎn)權(quán)保護和學術(shù)誠信問題則任重道遠。

本文被轉(zhuǎn)載1次

首發(fā)媒體

| 轉(zhuǎn)發(fā)媒體

欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

斯坦福大學“急了”

本文被轉(zhuǎn)載1次

隨意打賞