• <strike id="eqeym"></strike>
  • <ul id="eqeym"></ul>
    當(dāng)前位置:首頁 > 拓展活動 > 綜合拓展訓(xùn)練器材(湖北叢林拓展器材品牌)

    綜合拓展訓(xùn)練器材(湖北叢林拓展器材品牌)

    admin3年前 (2022-04-02)拓展活動

    魚羊 明敏 發(fā)自 凹非寺

    量子位 | 公眾號 QbitAI

    當(dāng)今AI之勢,影響縱深發(fā)展的矛盾是什么?

    一方面,大模型風(fēng)頭正勁,效果驚艷,人人都想試試。但另一方面,硬件基礎(chǔ)上動不動就是上萬張GPU的大規(guī)模集群在日夜燃燒,鈔能力勸退。

    所以如果告訴你,現(xiàn)在只用一半數(shù)量的GPU,也能完成同樣的GPT-3訓(xùn)練呢?

    你會覺得關(guān)鍵鑰匙是什么?

    不賣關(guān)子了。實(shí)現(xiàn)如此提升的,是一個名為Colossal-AI的GitHub開源項目。

    而且該項目開源不久,就迅速登上了Python方向的熱榜世界第一。

    綜合拓展訓(xùn)練器材

    ↑GitHub地址:https://github.com/hpcaitech/ColossalAI

    不僅能加速GPT-3,對于GPT-2、ViT、BERT等多種模型,Colossal-AI的表現(xiàn)也都非常nice:

    比如半小時左右就能預(yù)訓(xùn)練一遍ViT-Base/32,2天能訓(xùn)完15億參數(shù)GPT模型、5天可訓(xùn)完83億參數(shù)GPT模型。

    與業(yè)內(nèi)主流的AI并行系統(tǒng)——英偉達(dá)Megatron-LM相比,在同樣使用512塊GPU訓(xùn)練GPT-2模型時,Colossal-AI的加速比是其2倍。而在訓(xùn)練GPT-3時,更是可以節(jié)省近千萬元的訓(xùn)練費(fèi)用。

    此外在訓(xùn)練GPT-2時,顯存消耗甚至能控制在Megatron-LM的十分之一以下。

    Colossal-AI究竟是如何做到的?

    老規(guī)矩,我們從論文扒起。

    高效6維并行方法

    簡單來說,Colossal-AI就是一個整合了多種并行方法的系統(tǒng),提供的功能包括多維并行、大規(guī)模優(yōu)化器、自適應(yīng)任務(wù)調(diào)度、消除冗余內(nèi)存等。

    綜合拓展訓(xùn)練器材

    首先來看多維并行。

    所謂“多維”是指,目前主流的分布式并行方案往往使用多種并行方法。

    比如英偉達(dá)的Megatron-LM使用了3種方法:數(shù)據(jù)并行、流水并行和張量并行。因此這種模式也被稱為三維并行。微軟的DeepSpeed調(diào)用Megatron-LM作為并行基礎(chǔ)。

    而Colossal-AI能將系統(tǒng)的并行維度,一下子拉升到6維——

    在兼容數(shù)據(jù)并行、流水并行的基礎(chǔ)上,基于該項目團(tuán)隊自研的2維/2.5維/3維張量并行方法,以及序列并行實(shí)現(xiàn)。

    其中,高維張量并行正是Colossal-AI提升大模型顯存利用率和通信效率的關(guān)鍵所在。

    其實(shí)張量并行并不新奇,只是過去我們常見的張量并行更多都是基于一維的。

    它的原理是將模型層內(nèi)的權(quán)重參數(shù)按行或列切分到不同的處理器上,利用分塊矩陣乘法,將一個運(yùn)算分布到多個處理器上同時進(jìn)行。

    比如英偉達(dá)的Megatron-LM就是一個典型的例子。

    綜合拓展訓(xùn)練器材

    但這種并行方式存在一定弊端。

    比如,每個處理器仍需要存儲整個中間激活,使得在處理大模型時會浪費(fèi)大量顯存空間。

    另一方面,這種單線方法還會導(dǎo)致每個處理器都需要與其他所有處理器進(jìn)行通信。

    這意味著假設(shè)有100個GPU的話,每個GPU都需要與其他99個GPU通信,每次計算需要通信的次數(shù)就高達(dá)9900次。

    但如果將張量并行的維度擴(kuò)展到2維,單次計算量能立刻下降一個量級。

    因?yàn)槊總€GPU只需與自己同行或同列的GPU通信即可。

    同樣還是100個GPU的情況,每個GPU需要通信的GPU個數(shù)就能降到9個,單次計算僅需900次。

    綜合拓展訓(xùn)練器材

    實(shí)際上在此基礎(chǔ)上,Colossal-AI還包含2.5維、3維張量并行方法,可以進(jìn)一步降低傳輸成本。

    相較于2維并行方法,2.5維并行方法可提升1.45倍效率,3維方法可提升1.57倍。

    綜合拓展訓(xùn)練器材

    針對大圖片、視頻、長文本、長時間醫(yī)療監(jiān)控等數(shù)據(jù),Colossal-AI還使用了序列并行的方法,這種方法能突破原有機(jī)器能力限制,直接處理長序列數(shù)據(jù)。

    值得一提的是,Colossal-AI的API接口是可以定制的,這使得它可以便捷添加新的并行維度。

    其次,大規(guī)模優(yōu)化器也是Colossal-AI的亮點(diǎn)。

    上面我們也提到了,在分布式并行系統(tǒng)中會使用多種并行方法,數(shù)據(jù)并行則是另一種常見方法。

    這種方法的原理不難理解,就是把訓(xùn)練數(shù)據(jù)劃分成若干份,讓不同的機(jī)器運(yùn)算不同的數(shù)據(jù),然后通過一個參數(shù)服務(wù)器 (Paremeter Server)收集目標(biāo)數(shù)據(jù)。

    由此可以大幅提升AI模型訓(xùn)練過程中的批量大小,加速訓(xùn)練過程。

    不過大批量訓(xùn)練有個“通病”,就是會產(chǎn)生泛化誤差 (Generalization Gap),導(dǎo)致網(wǎng)絡(luò)泛化能力下降,進(jìn)而導(dǎo)致AI模型準(zhǔn)確度下降。

    所以,Colossal-AI在系統(tǒng)中使用了自研的LAMB、LARS等大規(guī)模優(yōu)化器。在保證訓(xùn)練精度的情況下,還將批大小從512擴(kuò)展到65536。

    其中,LARS優(yōu)化器是通過逐層調(diào)整學(xué)習(xí)率,來減少因?yàn)閷W(xué)習(xí)率導(dǎo)致的無法收斂情況。

    LAMB優(yōu)化器則是在LARS的基礎(chǔ)上,將逐層調(diào)整學(xué)習(xí)率的思想應(yīng)用到自適應(yīng)梯度上。

    由此,LAMB能夠很好解決此前LARS在BERT訓(xùn)練中存在差異的問題,最大批量達(dá)到了64K。

    此前,LAMB優(yōu)化器曾成功將預(yù)訓(xùn)練一遍BERT的時間,從原本的三天三夜縮短到一個多小時。

    綜合拓展訓(xùn)練器材

    第三方面,Colossal-AI使用自適應(yīng)可擴(kuò)展調(diào)度器來高效處理任務(wù)。

    與現(xiàn)有常見的任務(wù)調(diào)度器不同,Colossal-AI不是靜態(tài)地通過GPU個數(shù)來判斷任務(wù)規(guī)模,而是根據(jù)批大小來動態(tài)、自動管理每個任務(wù).

    通過演化算法,該任務(wù)調(diào)度器還能不斷優(yōu)化調(diào)度決策,更大程度提升GPU利用率。

    評估結(jié)果表明,與當(dāng)前最先進(jìn)的方法相比,該方法在平均JCT (job completion time)上能夠縮短45.6%的時間,優(yōu)于現(xiàn)有的深度學(xué)習(xí)任務(wù)調(diào)度算法。

    此外,這種自適應(yīng)可擴(kuò)展調(diào)度器還能通過NCCL網(wǎng)絡(luò)通信實(shí)現(xiàn)高效的任務(wù)遷移。

    綜合拓展訓(xùn)練器材

    最后,消除冗余內(nèi)存也是加速AI訓(xùn)練的一種解決思路。

    在這方面,Colossal-AI使用了zero redundancy optimizer技術(shù)(簡稱ZeRO)。

    這種方法主要通過切分優(yōu)化器狀態(tài)、梯度、模型參數(shù),使GPU僅保存當(dāng)前計算所需的部分,從而來消除數(shù)據(jù)并行、模型并行中存在的內(nèi)存冗余。

    尤其是在部署模型推理時,通過zero offload可以將模型卸載到CPU內(nèi)存或硬盤,僅使用少量GPU資源,即可實(shí)現(xiàn)低成本部署前沿AI大模型。

    綜上不難看出,在技術(shù)層面Colossal-AI的加速效果非常明顯。

    而在應(yīng)用層面,Colossal-AI的設(shè)計也顧及了能耗問題和易用性兩個維度。

    考慮到數(shù)據(jù)移動會是能耗的主要來源,Colossal-AI在不增加計算量的情況下盡可能減少數(shù)據(jù)移動量,以此來降低能耗。

    綜合拓展訓(xùn)練器材

    另一方面,作為一個開源給所有人使用的系統(tǒng),Colossal-AI的使用門檻不高,即便是沒有學(xué)習(xí)過分布式系統(tǒng)的人也能上手操作。

    同時,只需要極少量的代碼改動,Colossal-AI就能將已有的單機(jī)代碼快速擴(kuò)展到并行計算集群上。

    最新實(shí)驗(yàn)結(jié)果釋出

    Talk is cheap,效果如何,還是得把實(shí)驗(yàn)結(jié)果展開來看。

    Colossal-AI近日釋出的最新實(shí)驗(yàn)結(jié)果表明,這一大規(guī)模AI訓(xùn)練系統(tǒng)具有通用性,在GPT-3、GPT-2、ViT、BERT等流行模型上均有亮眼的加速表現(xiàn)。

    注:以下GPU均指英偉達(dá)A100。

    GPT-3訓(xùn)練速度提高10.7%

    英偉達(dá)的Megatron-LM在加速訓(xùn)練GPT-3時,至少需要128塊GPU才能啟動;而從下表可以看出,使用相同的計算資源,Colossal-AI可以將每次迭代花費(fèi)的時間從43.1秒降至38.5秒。

    這也就意味著,Colossal-AI可以將GPT-3的訓(xùn)練速度進(jìn)一步提高10.7%。

    站在工程的角度,考慮到訓(xùn)練這樣的大模型往往需要投入數(shù)百萬美元,這一提升比例帶來的收益不言而喻。

    綜合拓展訓(xùn)練器材

    另外,通過系統(tǒng)優(yōu)化,Colossal-AI還能在訓(xùn)練速度損失不大(43.1→48.5)的前提下,將GPU數(shù)量從128塊減少到96塊,大幅降低訓(xùn)練成本。

    而進(jìn)一步啟用ZeRO3(零冗余優(yōu)化器)后,所需GPU數(shù)量甚至能減少一半——至64塊。

    2天內(nèi)可完成GPT-2訓(xùn)練

    在GPT-2的加速訓(xùn)練結(jié)果中,可以看到,無論是在4、16還是64塊GPU的情況下,與Megatron-LM相比,Colossal-AI占用的顯存都顯著減少。

    綜合拓展訓(xùn)練器材

    也就是說,利用Colossal-AI,工程師們可以在采用同等數(shù)量GPU的前提下,訓(xùn)練規(guī)模更大的模型,或設(shè)置更大的批量大小來加速訓(xùn)練。

    綜合拓展訓(xùn)練器材

    從下表結(jié)果中還可以看出,隨著批量大小的增加,Colossal-AI的資源利用率會進(jìn)一步提高,達(dá)到Megatron-LM速度的2倍。

    綜合拓展訓(xùn)練器材

    研發(fā)團(tuán)隊在256塊GPU上進(jìn)行了實(shí)驗(yàn),最終用時82.8個小時完成了15億參數(shù)版GPT-2的訓(xùn)練。

    據(jù)此預(yù)估,后續(xù)在512塊GPU上進(jìn)行GPT-2預(yù)訓(xùn)練,Colossal-AI能將訓(xùn)練時間加速到45小時。

    充分兼容多種并行模式

    在BERT上進(jìn)行的實(shí)驗(yàn),則體現(xiàn)了Colossal-AI作為世界上并行維度最多的AI訓(xùn)練系統(tǒng)的優(yōu)勢。

    綜合拓展訓(xùn)練器材

    與Megatron-LM相比,Colossal-AI序列并行方法只需要更少的顯存,就能夠利用更大的批量大小來加速訓(xùn)練。同時,還允許開發(fā)者使用更長的序列數(shù)據(jù)。

    綜合拓展訓(xùn)練器材

    Colossal-AI的序列并行方法還與流水并行方法兼容。當(dāng)開發(fā)者同時使用序列并行和流水并行時,可以進(jìn)一步節(jié)省訓(xùn)練大模型的時間。

    綜合拓展訓(xùn)練器材

    另外,在近期的學(xué)術(shù)熱點(diǎn)ViT模型上,Colossal-AI也展現(xiàn)了高維張量并行方法的優(yōu)勢。

    在使用64張GPU的情況下,Colossal-AI采用2/2.5維方式進(jìn)行張量并行,充分利用更大的批量大小,達(dá)到了更快的處理速度。

    綜合拓展訓(xùn)練器材

    背后團(tuán)隊:LAMB優(yōu)化器作者尤洋領(lǐng)銜

    看到這里,是不是覺得Colossal-AI確實(shí)值得標(biāo)星關(guān)注一發(fā)?

    實(shí)際上,這一國產(chǎn)項目背后的研發(fā)團(tuán)隊來頭不小。

    領(lǐng)銜者,正是LAMB優(yōu)化器的提出者尤洋。

    綜合拓展訓(xùn)練器材

    在谷歌實(shí)習(xí)期間,正是憑借LAMB,尤洋曾打破BERT預(yù)訓(xùn)練世界紀(jì)錄。

    據(jù)英偉達(dá)官方GitHub顯示,LAMB比Adam優(yōu)化器快出整整72倍。微軟的DeepSpeed也采用了LAMB方法。

    說回到尤洋本人,他曾以第一名的成績保送清華計算機(jī)系碩士研究生,后赴加州大學(xué)伯克利分校攻讀CS博士學(xué)位。

    2020年博士畢業(yè)后,他加入新加坡國立大學(xué)計算機(jī)系,并于2021年1月成為校長青年教授(Presidential Young Professor)。

    同樣是在2021年,他還獲得了IEEE-CS超算杰出新人獎。該獎項每年在全球范圍內(nèi)表彰不超過3人,僅授予在博士畢業(yè)5年之內(nèi),已在高性能計算領(lǐng)域做出有影響力的卓越貢獻(xiàn),并且可以為高性能計算的發(fā)展做出長期貢獻(xiàn)的優(yōu)秀青年學(xué)者。

    與此同時,尤洋回國創(chuàng)辦潞晨科技——一家主營業(yè)務(wù)為分布式軟件系統(tǒng)、大規(guī)模人工智能平臺以及企業(yè)級云計算解決方案的AI初創(chuàng)公司。

    其核心團(tuán)隊成員來自加州大學(xué)伯克利分校、斯坦福大學(xué)、清華大學(xué)、北京大學(xué)、新加坡國立大學(xué)、新加坡南洋理工大學(xué)等國內(nèi)外知名高校,在高性能計算、人工智能、分布式系統(tǒng)方面有十余年的技術(shù)積累,并已在國際頂級學(xué)術(shù)刊物/會議上發(fā)表論文30余篇。

    目前,潞晨科技已拿下創(chuàng)新工場和真格基金合投的超千萬元種子輪融資。

    傳送門

    有關(guān)Colossal-AI,今天就先介紹到這里。

    最后,附上傳送門,感興趣的小伙伴,自行取用~

    GitHub地址:https://github.com/hpcaitech/ColossalAI

    參考鏈接:https://medium.com/@hpcaitech/efficient-and-easy-training-of-large-ai-models-introducing-colossal-ai-ab571176d3ed

    — 完 —

    量子位 QbitAI · 頭條號簽約

    關(guān)注我們,第一時間獲知前沿科技動態(tài)

    掃描二維碼推送至手機(jī)訪問。

    版權(quán)聲明:本文由一點(diǎn)團(tuán)建發(fā)布,如需轉(zhuǎn)載請注明出處。

    本頁地址:http://m.mcdjvjrap.com/post/148674.html

    主站蜘蛛池模板: 精品人妻系列无码天堂| 69国产成人综合久久精品| 亚洲av日韩精品久久久久久a| 欧美精品一区二区三区在线| 在线精品亚洲一区二区三区| 91大神精品全国在线观看| 国内精品人妻无码久久久影院| 免费精品精品国产欧美在线| 99热都是精品久久久久久| 国产AV午夜精品一区二区三区| 亚洲精品97久久中文字幕无码| 国产精品成人久久久久三级午夜电影| 国产精品综合色区在线观看| 亚洲午夜福利精品无码| 老司机午夜网站国内精品久久久久久久久| 99在线热播精品免费99热| 亚洲AV无码国产精品麻豆天美 | 中文字幕日韩精品有码视频 | 亚洲日韩国产AV无码无码精品 | 精品成在人线AV无码免费看| 亚洲一级Av无码毛片久久精品| 国产啪亚洲国产精品无码| 久久亚洲精品中文字幕三区| 1000部精品久久久久久久久| 久久精品国产亚洲AV麻豆网站| 亚洲国产精品一区二区第四页 | 久久99精品久久久久久野外| 国产精品∧v在线观看| 91精品国产高清久久久久久国产嫩草 | 国产成人精品免费视频大全麻豆| 精品欧洲av无码一区二区| 亚洲国产精品乱码一区二区| 日本精品久久久久影院日本| 久久精品国产精品亚洲| 久久精品国产一区二区电影| 国产女人18毛片水真多18精品| 国产AV国片精品一区二区| 99久久精品国产综合一区| 精品视频第一页| 久久青草国产精品一区| 亚洲精品理论电影在线观看|