關(guān)注 >   >  正文

        擊敗LLaMA?史上超強(qiáng)「獵鷹」排行存疑,符堯7行代碼親測,LeCun轉(zhuǎn)贊

        評(píng)論

        前幾天公布的LLM排行榜引發(fā)業(yè)內(nèi)人士廣泛討論,新模型Falcon在性能上真的能打過LLaMA嗎?符堯?qū)崪y來了!

        前段時(shí)間,初出茅廬的獵鷹(Falcon)在LLM排行榜碾壓LLaMA,在整個(gè)社區(qū)激起千層浪。


        (資料圖)

        但是,獵鷹真的比LLaMA好嗎?

        簡短回答:可能不是。

        符堯團(tuán)隊(duì)對(duì)模型做了更深入的測評(píng):

        「我們在MMLU上復(fù)現(xiàn)了LLaMA 65B的評(píng)估,得到了61.4的分?jǐn)?shù),接近官方分?jǐn)?shù)(63.4),遠(yuǎn)高于其在Open LLM Leaderboard上的分?jǐn)?shù)(48.8),而且明顯高于獵鷹(52.7)。」

        沒有花哨的提示工程,沒有花哨的解碼,一切都是默認(rèn)設(shè)置。

        目前,Github上已經(jīng)公開了代碼和測試方法。

        對(duì)于獵鷹超越LLaMA存疑,LeCun表態(tài),測試腳本的問題…

        LLaMA真·實(shí)力

        目前在OpenLLM排行榜上,F(xiàn)alcon位列第一,超過了LLaMA,得到了包括Thomas Wolf在內(nèi)的研究人員的力薦。

        然而,有些人對(duì)此表示疑慮。

        先是一位網(wǎng)友質(zhì)疑,LLaMA這些數(shù)字從哪來,看起來與論文數(shù)字不一致…

        隨后,OpenAI科學(xué)家Andrej Karpathy也對(duì)LLaMA 65B為什么在Open LLM排行榜上的分?jǐn)?shù)明顯低于官方(48.8 v.s. 63.4)表示關(guān)注。

        并發(fā)文,到目前為止,我一直避免在推特上發(fā)表關(guān)于獵鷹的文章,因?yàn)檫@一點(diǎn),不確定。

        為了弄清楚這個(gè)問題,符堯和團(tuán)隊(duì)成員決定對(duì)LLaMA 65B進(jìn)行一次公開的測試,結(jié)果得到61.4分。

        在測試中,研究者沒有使用任何特殊機(jī)制,LLaMA 65B就能拿到這個(gè)分?jǐn)?shù)。

        這一結(jié)果恰恰證明了,如果想要模型實(shí)現(xiàn)接近GPT-3.5的水平,最好是在LLaMA 65B上使用RLHF。

        根據(jù)就是,近來符堯團(tuán)隊(duì)發(fā)表的一篇Chain-of-Thought Hub論文的發(fā)現(xiàn)。

        當(dāng)然,符堯表示,他們這一測評(píng)并非想要引起LLaMA和Falcon之間的爭端,畢竟這些都是偉大的開源模型,都為這個(gè)領(lǐng)域做出了重大的貢獻(xiàn)!

        另外,F(xiàn)alcon還有更加方便的使用許可,這也讓它有很大的發(fā)展?jié)摿Α?/p>

        對(duì)于這一最新測評(píng),網(wǎng)友BlancheMinerva指出,公平的比較應(yīng)該在默認(rèn)設(shè)置下運(yùn)行獵鷹(Falcon)在MMLU上。

        對(duì)此,符堯稱這是正確的,并正進(jìn)行這項(xiàng)工作,預(yù)計(jì)在一天后可以得到結(jié)果。

        不管最終的結(jié)果怎樣,要知道GPT-4這座山峰才是開源社區(qū)真正想要追求的目標(biāo)。

        OpenLLM排行榜問題

        來自Meta的研究人員稱贊,符堯很好地再現(xiàn)了LLaMa的結(jié)果,并指出了OpenLLM排行榜的問題。

        與此同時(shí),他還分享了關(guān)于OpenLLM排行榜的一些問題。

        首先,MMLU的結(jié)果:LLaMa 65B MMLU結(jié)果在排行榜上是15分,但對(duì)7B模型來說是一樣的。13B、30B模型也存在較小的性能差距。

        OpenLLM真的需要在公布哪個(gè)模型是最好的之前看看這個(gè)。

        基準(zhǔn):這些基準(zhǔn)是如何選擇的?

        ARC 25 shot和Hellaswag 10 shot似乎與LLM并不特別相關(guān)。如果能在其中加入一些生成式基準(zhǔn)就更好了。雖然生成式基準(zhǔn)有其局限性,但它們?nèi)匀皇怯杏玫摹?/p>

        單一平均分:將結(jié)果減少到單一分?jǐn)?shù)總是很吸引人的,平均分是最容易的。

        但在這種情況下,4個(gè)基準(zhǔn)的平均值真的有用嗎?在MMLU上獲得1分和在HellaSwag上獲得1分是一樣的嗎?

        在LLM快速迭代的世界里,開發(fā)這樣一個(gè)排行榜肯定有一定的價(jià)值。

        還有來自谷歌研究人員Lucas Beyer也發(fā)表了自己的觀點(diǎn),

        瘋狂的是,NLP研究人員對(duì)同一個(gè)基準(zhǔn)有不同的理解,因此導(dǎo)致了完全不同的結(jié)果。同時(shí),每當(dāng)我的同事實(shí)現(xiàn)一個(gè)指標(biāo)時(shí),我都會(huì)立即問他們是否真的檢查將官方代碼的完美重現(xiàn),如果沒有,就放棄他們的結(jié)果。

        另外,他還表示,據(jù)我所知,無論模型如何,它實(shí)際上都不會(huì)重現(xiàn)原始基準(zhǔn)測試的結(jié)果。

        網(wǎng)友附和道,這就是LLM基準(zhǔn)的現(xiàn)實(shí)…

        Falcon——開源、可商用、性能強(qiáng)

        說到Falcon,其實(shí)值得我們再好好回顧一下。

        按LeCun的說法,大模型時(shí)代,開源最重要。

        而在Meta的LLaMA代碼遭泄之后,各路開發(fā)者都開始躍躍欲試。

        Falcon正是由阿聯(lián)酋阿布扎比的技術(shù)創(chuàng)新研究所(TII)開發(fā)的一支奇兵。

        剛發(fā)布時(shí)從性能上看,F(xiàn)alcon比LLaMA的表現(xiàn)更好。

        目前,「Falcon」有三個(gè)版本——1B、7B和40B。

        TII表示,F(xiàn)alcon迄今為止最強(qiáng)大的開源語言模型。其最大的版本,F(xiàn)alcon 40B,擁有400億參數(shù),相對(duì)于擁有650億參數(shù)的LLaMA來說,規(guī)模上還是小了一點(diǎn)。

        不過,此前TII曾表示,別看咱Falcon規(guī)模雖小,性能卻很能打。

        先進(jìn)技術(shù)研究委員會(huì)(ATRC)秘書長Faisal Al Bannai認(rèn)為,「Falcon」的發(fā)布將打破LLM的獲取方式,并讓研究人員和創(chuàng)業(yè)者能夠以此提出最具創(chuàng)新性的使用案例。

        FalconLM的兩個(gè)版本,F(xiàn)alcon 40B Instruct和Falcon 40B在Hugging Face OpenLLM排行榜上位列前兩名,而Meta的LLaMA則位于第三。

        而前文所講的有關(guān)排行榜的問題也正是這個(gè)。

        盡管「Falcon」的論文目前還沒公開發(fā)布,但Falcon 40B已經(jīng)在經(jīng)過精心篩選的1萬億token網(wǎng)絡(luò)數(shù)據(jù)集的上進(jìn)行了大量訓(xùn)練。

        研究人員曾透露,「Falcon」在訓(xùn)練過程非常重視在大規(guī)模數(shù)據(jù)上實(shí)現(xiàn)高性能的重要性。

        我們都知道的是,LLM對(duì)訓(xùn)練數(shù)據(jù)的質(zhì)量非常敏感,這就是為什么研究人員會(huì)花大量的精力構(gòu)建一個(gè)能夠在數(shù)萬個(gè)CPU核心上進(jìn)行高效處理的數(shù)據(jù)管道。

        目的就是,在過濾和去重的基礎(chǔ)上從網(wǎng)絡(luò)中提取高質(zhì)量的內(nèi)容。

        目前,TII已經(jīng)發(fā)布了精煉的網(wǎng)絡(luò)數(shù)據(jù)集,這是一個(gè)經(jīng)過精心過濾和去重的數(shù)據(jù)集。實(shí)踐證明,非常有效。

        僅用這個(gè)數(shù)據(jù)集訓(xùn)練的模型可以和其它LLM打個(gè)平手,甚至在性能上超過他們。這展示出了「Falcon」卓越的質(zhì)量和影響力。

        此外,F(xiàn)alcon模型也具有多語言的能力。

        它理解英語、德語、西班牙語和法語,并且在荷蘭語、意大利語、羅馬尼亞語、葡萄牙語、捷克語、波蘭語和瑞典語等一些歐洲小語種上也懂得不少。

        Falcon 40B還是繼H2O.ai模型發(fā)布后,第二個(gè)真正開源的模型。

        另外,還有一點(diǎn)非常重要——Falcon是目前唯一的可以免費(fèi)商用的開源模型。

        在早期,TII要求,商業(yè)用途使用Falcon,如果產(chǎn)生了超過100萬美元以上的可歸因收入,將會(huì)收取10%的「使用稅」。

        可是財(cái)大氣粗的中東土豪們沒過多長時(shí)間就取消了這個(gè)限制。

        至少到目前為止,所有對(duì)Falcon的商業(yè)化使用和微調(diào)都不會(huì)收取任何費(fèi)用。

        土豪們表示,現(xiàn)在暫時(shí)不需要通過這個(gè)模型掙錢。

        而且,TII還在全球征集商用化方案。

        對(duì)于有潛力的科研和商業(yè)化方案,他們還會(huì)提供更多的「訓(xùn)練算力支持」,或者提供進(jìn)一步的商業(yè)化機(jī)會(huì)。

        這簡直就是在說:只要項(xiàng)目好,模型免費(fèi)用!算力管夠!錢不夠我們還能給你湊!

        對(duì)于初創(chuàng)企業(yè)來說,這簡直就是來自中東土豪的「AI大模型創(chuàng)業(yè)一站式解決方案」。

        根據(jù)開發(fā)團(tuán)隊(duì)稱,F(xiàn)alconLM 競爭優(yōu)勢的一個(gè)重要方面是訓(xùn)練數(shù)據(jù)的選擇。

        研究團(tuán)隊(duì)開發(fā)了一個(gè)從公共爬網(wǎng)數(shù)據(jù)集中提取高質(zhì)量數(shù)據(jù)并刪除重復(fù)數(shù)據(jù)的流程。

        在徹底清理多余重復(fù)內(nèi)容后,保留了 5 萬億的token——足以訓(xùn)練強(qiáng)大的語言模型。

        40B的Falcon LM使用1萬億個(gè)token進(jìn)行訓(xùn)練, 7B版本的模型訓(xùn)練token達(dá)到 1.5 萬億。

        (研究團(tuán)隊(duì)的目標(biāo)是使用RefinedWeb數(shù)據(jù)集從Common Crawl中僅過濾出質(zhì)量最高的原始數(shù)據(jù))

        此外,F(xiàn)alcon的訓(xùn)練成本相對(duì)來說更加可控。

        TII稱,與GPT-3相比,F(xiàn)alcon在只使用75%的訓(xùn)練計(jì)算預(yù)算的情況下,就實(shí)現(xiàn)了顯著的性能提升。

        而且在推斷(Inference)時(shí)只需要只需要20%的計(jì)算時(shí)間,成功實(shí)現(xiàn)了計(jì)算資源的高效利用。

        標(biāo)簽:

        今日熱點(diǎn)

        熱點(diǎn)排行

        最近更新

        所刊載信息部分轉(zhuǎn)載自互聯(lián)網(wǎng),并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。郵箱:5855973@qq.com

        聯(lián)系我們| 中國品牌網(wǎng) | 滬ICP備2022005074號(hào)-18 營業(yè)執(zhí)照  Copyright © 2018@. All Rights Reserved.

        亚洲爆乳少妇无码激情| 亚洲成A人片在线观看无码3D| 亚洲制服丝袜在线播放| 久久精品国产精品亚洲人人| 亚洲国产精品99久久久久久| 国产亚洲精品bv在线观看| 久久精品亚洲AV久久久无码| 亚洲成无码人在线观看| 久久亚洲AV无码精品色午夜| 亚洲午夜免费视频| 亚洲视频在线视频| 久久精品亚洲中文字幕无码麻豆 | 中文字幕亚洲综合久久菠萝蜜| 亚洲Av无码乱码在线观看性色| 成人伊人亚洲人综合网站222| 激情婷婷成人亚洲综合| 另类小说亚洲色图| 亚洲精品第一国产综合精品99| 亚洲国产成人影院播放| 亚洲美日韩Av中文字幕无码久久久妻妇| 亚洲AⅤ永久无码精品AA| 亚洲国产一区明星换脸| 国产亚洲美女精品久久久| 中文字幕亚洲无线码| 亚洲日韩小电影在线观看| 亚洲精品高清国产一线久久| 亚洲成色WWW久久网站| 亚洲国产高清视频| 亚洲欧洲校园自拍都市| 国产99在线|亚洲| 亚洲AV无码一区二区三区久久精品| 久久精品国产亚洲av天美18| 亚洲äv永久无码精品天堂久久 | 亚洲日韩乱码中文无码蜜桃| 亚洲精品伊人久久久久| 亚洲欧好州第一的日产suv| 色婷婷亚洲一区二区三区| 亚洲欧洲自拍拍偷精品 美利坚| 亚洲综合图色40p| 亚洲综合国产精品| 精品亚洲AV无码一区二区|