闂備浇宕垫慨椋庝焊閵娾晛绠柨鐕傛嫹闂傚倷娴囧畷鐢稿磻閻愮數鐭欓煫鍥ㄧ☉绾惧潡鏌熺紒妯洪嚋闁兼澘鐏濋埥澶愬箼閸曨剙顏�2闂傚倸鍊烽悞锕傛儑瑜版帒绀夌€光偓閳ь剟鍩€椤掍礁鍤柛娆忓暣閻涱喗绗熼埀顒勩€侀弴銏℃櫜闁糕剝顨忛埀顒佹崌濮婃椽鎮烽弶搴撴寖缂備緡鍣崹鎶藉焵椤掑倸浠柛銊ょ矙瀵顓兼径濞€劑鏌ㄩ弮鍌涙珪闁告ɑ鎮傚娲焻閻愯尪瀚板褜鍨遍幈銊︾節閸屾粎楔閻庤娲栭妶鎼佸极閹剧粯鍋愰柛鎰级閻や線姊绘担鐟邦嚋缂佽鍊块獮濠冨緞閹邦剛锛涢梺鍦亾閸撴岸宕ョ€n喗鐓曟繛鎴濆船婢ь垱淇婇姘捐含婵﹦绮幏鍛存寠婢诡厽鎸婚妵鍕敇閻樼偣鍋愰梻鍌氬€烽悞锔锯偓绗涘懐鐭欓柟杈鹃檮閸ゆ劖銇勯弽顐粶閸ュ瓨绻涚€电ǹ孝妞ゆ垵鎳愰幉鎾晝閸屾稓鍘卞┑鐐村灦閿曨偊寮ㄦ繝姘厸闁糕檧鏅欓柇顖炴煛瀹€鈧崰鏍涢崘銊㈡婵絽灏呯槐鏇犳閹烘惟闁挎繂鎳庨~鍥倵鐟欏嫭纾甸柛鎾寸箘閹广垹鈹戠€n亞锛滃┑顔矫崥瀣归崱娑欌拻濞达絽鎳欒ぐ鎺嬪亼闁汇垻枪缁狀垶鏌ㄩ悤鍌涘闂備浇宕垫慨椋庝焊閵娾晛绠柨鐕傛嫹闂傚倸鍊风粈渚€骞栭鈶芥稑鈻庨幘鍐茬€梺鍓茬厛閸嬪棝銆呴弻銉︾叆婵犻潧妫Σ褰掓煕閵堝懎鏆i柡宀嬬到铻i柣鎴炆戦崕鎾绘⒑閸涘﹥鎯勯柛娆忓暣瀵鏁撻悩鑼槹濡炪倖甯婄粈浣哄枈瀹ュ鈷戦柟鑲╁仜閳ь兙鍊濆畷锝夊礃椤垶缍庢繝鐢靛У閸戝綊寮€n喗鐓冪憸婊堝礈閻旂厧违闁稿本绋撻々鐑芥倵閿濆骸浜濇繛鍛墵閺岋絾鎯旈埄鍐闂佺懓鎽滈~濉璼pace闂傚倸鍊烽懗鍫曞磿閻㈢ǹ鐤炬繛鎴欏灪閺呮繈鏌ㄩ弴鐐测偓鎼佸几娓氣偓閺岀喖宕滆鐢盯鏌涢妶鍡樼闁诡喗锕㈤幃娆撴嚋濞堟寧顥夌紓鍌欓檷閸斿繘顢氳濠€渚€姊洪幐搴g畵婵炲眰鍊栭悧搴♀攽閻橆偅濯扮€广儱娲ㄩ弳銈夋⒑閸濆嫯瀚伴柟铏耿楠炲啴鍩¢崨顖氬絼濡炪倖鎸鹃崰鎰板煝閺囥垺鈷戦柣鐔告緲閹垶绻涢崗鑲╂噰鐎规洘鐓″濠氬Ψ閵夊汞鍏犲綊鎮╁顔煎壈闂佽绻楀▍鏇犳崲濠靛洨绡€闁稿本渚楀Λ鐐寸箾鐎涙ḿ鐭嬮柣妤冨█瀵顓兼径濞€劑鏌ㄩ弬鍨挃闁伙絾妞藉娲焻閻愯尪瀚板褔绠栭弻鐔煎礄閵堝棗顏�闂備浇宕垫慨椋庝焊閵娾晛绠柨鐕傛嫹濠电姷顣藉Σ鍛村磻閹捐泛绶ゅΔ锝呭暞閸嬪鏌¢崶銉ョ仼闁搞劌鍊垮娲敆閳ь剛绮旂€靛摜涓嶉柟瀵稿У閸犳劙鐓崶銊ュ枙缂傚秵鐗犻弻鈥愁吋鎼粹€崇闂佺ǹ瀛╅敃銏ゅ蓟閿熺姴绀冮柨婵嗘噸婢规洟姊绘担瑙勫仩闁告柨绉撮悾婵堢矙濞嗘儳娈ㄧ紓浣割儏缁ㄩ亶宕奸鍫熺厵闂侇叏绠戦弸銈夋煟濞戞牕鍔︽慨濠冩そ瀹曘劍绻濋崟顐椒闂備線娼уú銊╁磻閵堝懐鏆﹂柕澶嗘櫓閺佸啴鏌曢崼婵嗏偓鍛婄妤e啯鍋℃繛鍡楃箰椤忣偆绱掗悩宕囧⒌闁哄矉缍€缁犳盯寮崹顔芥嚈闂備浇顕栭崰鏇犲垝濞嗘挸绠栭柕蹇嬪€曟导鐘绘煕閺囨ê濡介悗鍨缚缁辨捇宕掑▎鎰垫▊闂佺厧鍟块悥鐓庣暦閹达附鍋勯柛婵嗗閻忓﹪姊虹捄銊ユ灁濠殿喚鏁婚幃锟犲焵椤掑嫭鈷戦柛娑橈功閳藉鏌ㄩ弴妯哄姦鐎殿喗濞婇、姗€濮€閿涘嫬骞堥梻浣虹帛钃辩憸鏉垮暙閳绘捇鎮扮猾鍫濃攽閻樺灚鏆╅柛瀣洴閹本鎷呴崫銉︽闂佹眹鍨绘灙闁告垹濞€閺岋綁寮崒姘粯闂佸搫顑勭欢姘跺蓟濞戙埄鏁冮柕鍫濇噺閻忎焦绻涚€涙ḿ鐜婚柟鍑ゆ嫹闂備浇宕垫慨椋庝焊閵娾晛绠柨鐕傛嫹缂傚倸鍊搁崐椋庣矆娓氣偓钘濆ù鍏兼綑閸ㄥ倿鏌i姀鐘差棌闁轰礁妫濋弻锝夊籍閸屾艾浠樼紓浣哄閸o綁寮婚弴銏犻唶婵犻潧鐗嗛。娲⒑闁偛鑻崢鍝ョ磼椤旂晫鎳冩い鏇秮婵℃悂鍩¢崒姘吋闂備線娼ч悧鍡椢涘▎鎿冩晣婵炲樊浜濋埛鎴︽煙缁嬫寧鎹i柍顖涙礈閳ь剙鍘滈崑鎾剁磼鐎n亞姘ㄩ柡瀣墵閺屻劑鎮ら崒娑橆伓4闂傚倸鍊搁崐鐑芥倿閿曚降浜归柛鎰典簽閻捇鏌涢…鎴濅簼闁告瑥绻橀弻鏇$疀鐎n亖鍋撻弽顓炲惞闁告劏鏅濈弧鈧梻鍌氱墛缁嬫帞绮婇埡鍌欑箚闁艰壈娉涢崥鍦磼鏉堛劌娴い銏″哺閸┾偓妞ゆ帒瀚悞鍨亜閹哄秷鍏岄柕鍡樺浮閺屻倗鎲撮崟顐㈠Б闂佸疇妫勯ˇ鐢哥嵁濮椻偓椤㈡稑顫濋銏╂闂傚倸鍊搁崐鎼併偑閹绢喖绀堥柨鏇炲€哥壕濠氭煕閳╁啨浠滈柡瀣閺岀喐娼忛崜褏鏆犵紒鐐劤椤兘寮婚弴鐔风窞闁割偅绻傛慨銏ゆ⒑閸濆嫭顥炴俊顐㈠暙椤繐煤椤忓秵鏅濋梺闈涚箳婵參宕戦幘鎼Ч閹艰揪绲块悾鑸电節閵忥絾纭惧璺烘喘瀹曟垿骞樼紒妯轰画闂佽顔栭崰姘殭闂傚倷娴囧銊х矆娓氣偓閺佸啴濡烽妷锛勭窗婵犵數濮电喊宥夊疾閹间焦鐓ラ柣鏇炲€圭€氾拷闂備浇宕垫慨椋庝焊閵娾晛绠柨鐕傛嫹闂傚倷娴囧畷鐢稿窗閹扮増鍋¢弶鍫氭櫇缁€濠傘€掑锝呬壕閻庢鍠撻崝鎴﹀极閹邦厼绶為悘鐐舵缁茬偓淇婇悙顏勨偓鏍礉瑜忓濠囧礈瑜忕粈濠囩叓閸ャ劍绀堢痪鎯с偢閺岋絽鈻庤箛鏂挎缂佺偓鍎冲ḿ锟犲蓟閻旂⒈鏁婄痪顓犳焿閸氼偊鎮楀▓鍨珮闁告挾鍠庨锝夊醇閺囩偟鏌堥梺鍛婂姈閸庡啿顕i閿亾鐟欏嫭绀冪紒璇茬墕閻g兘鎮╃紒妯绘珫闂佸憡娲﹂崢鎯х暦缁夊穼fespace闂傚倷娴囬褏鎹㈤幇顔藉床闁归偊鍠楀畷鍙変繆閵堝懏鍣圭紒鐘虫そ閺岀喐娼忔ィ鍐╊€嶉梺鎼炲€曢悧鎾诲蓟閻斿皝鏋旈柛顭戝枟閻忓秹姊虹涵鍛【閻庢矮鍗冲濠氭晲婢跺⿴娼婇梺闈涚箳婵敻鎮橀崱娑欏€垫繛鍫濈仢閺嬫稒銇勯鐐叉Щ闁伙絽鍢查埞鎴犫偓锝庝簽閸樻悂姊洪柅鐐茶嫰婢ф壆绱掓潏鈺佷粶閾伙綁鎮樿箛鏃傚ⅹ濞存粓绠栭弻娑㈡晜鐠囨彃绠规繛瀵稿閸曞灚顔旈梺缁樺姇瀵泛顔忓┑鍫㈢<妞ゆ棁濮らˉ鍫燁殽閻愬樊鍎忛柍瑙勫灴楠炲洭顢楅埀顒勭參闂傚倸鍊搁崐鎼併偑閹绢喖绀堥柨鏇炲€哥壕濠氭煕濞戝崬骞忕紓鍌涚娣囧﹪濡堕崨顓熸婵炴垶鎸哥粔褰掑蓟閵娿儮妲堟俊顖欒娴犻箖姊虹粙搴撳悍闁瑰嚖鎷�闂備浇宕垫慨椋庝焊閵娾晛绠柨鐕傛嫹濠电姷鏁告慨鐑姐€傛禒瀣劦妞ゆ巻鍋撻柛鐔锋健閸┾偓妞ゆ帒瀚峰Λ鎴犵磼鏉堚晛浠滄い鎾炽偢瀹曞爼鍩¢崘顏勫脯闂傚倷鑳堕幊鎾绘偤閵娧勫床鐎广儱顦粈澶愭煕濞戞ḿ鎽犻柍閿嬪浮閺屾盯寮撮妸銉ょ敖闁哥喓枪椤啴濡堕崘銊т患闂佺娅曢敃銏ょ嵁婵犲偆娼ㄩ柍褜鍓欓悾鐑藉箳濡や焦娅嗛梺璇″瀻閸曨偄濮冨┑鐘垫暩閸嬬偤宕归崼鏇炵闁告挆鍐ㄧ亰濡炪倖鐗楃粙鎺戔枍閻樼粯鐓ラ柡鍐ㄦ处椤ュ绱掗崜浣镐槐闁哄苯绉瑰畷顐﹀礋椤愶絾顔勫┑鐘愁問閸燁偊宕堕妸褍骞嶉梺璇插缁嬫帡鏁嬫繝娈垮枛濞差參寮诲☉銏犖╅柕澶嗘櫅瀵即姊虹拠鈥崇仩闁哥喐娼欓悾鐑芥偄绾拌鲸鏅╅梺鍏肩ゴ閺呮瑩宕版繝鍥ㄢ拻濞达絿鏅В鍥煕閺囥劌浜滃┑顔哄灲濮婄儤瀵煎▎鎴炲仹闂佺ǹ顑囬崰鏍箚閳ь剚銇勮箛鎾搭棏闁稿鎹囧畷鐑筋敇閻愭劑鍎茬换婵嬪焵椤掑嫬浼犻柕澹拑绱插┑鐑囩到濞层倕鐣烽鍕€舵い蹇撴噽缁犻箖鏌涘▎蹇fЧ闁稿﹥鍔欓弻鐔兼惞椤愵偅鐣奸梺鍦嚀鐎氫即骞冨⿰鍏剧喓鎷犻崣鍌椻偓鏂ユ斀闁绘劘灏欓幗鐘电磼椤旇壈瀚伴摶鐐寸節婵犲倹锛嶉柡鍡樻緲閳规垿鎮欓弶鎴犱桓闂佸湱鈷堥崑濠囩嵁韫囨稒鏅搁柨鐕傛嫹闂備浇宕垫慨椋庝焊閵娾晛绠柨鐕傛嫹闂傚倸鍊风粈渚€骞栭銈傚亾濮樼厧澧摶鐐寸節婵犲倻澧曢悷娆欓檮娣囧﹪顢涘┑鍡楁優闂佸磭绮褰掑Φ閸曨垰绠婚悹楦挎〃濞岊亞绱撴担绋库偓绋棵洪銏犵畺缁绢厼鎷嬪Σ濠氭⒑閸涘﹤鐒归柛瀣尵缁辨挻鎷呯拠鈩冪暦缂備浇顕ч崐鍧楀春閵夛箑绶炲┑鐐靛亾椤秹鎮楃憴鍕婵炲眰鍔戦幃浼村Ψ瑜忕壕濂告煙椤栧棗鍟扮粙蹇曠磽娴f彃浜炬繛鎾村焹閸嬫捇鏌熼鑽ょ煓妞ゃ垺娲熼弫鍐焵椤掑嫬鐭楀┑鐘插暔娴滄粓鏌″鍐ㄥ濠㈣锕㈤弻锛勨偓锝庝邯閸欏嫰鏌$仦绋垮⒉闁瑰嘲鎳樺畷顐﹀礋閸偅鐦旈梺璇叉唉椤骞愭搴㈩偨婵ǹ娉涚粻姘舵煕閹伴潧鏋涚紒鈧€n偁浜滈柟鍝勭У椤﹂绱掗鍛仭缂佺粯绋掑ḿ蹇涘礈瑜嶉崺宀勬⒑閸濄儱鏋庢繛纭风節楠炲啫煤椤忓嫀鈺呮煃鏉炴媽鍏岄柨娑欑矒濮婃椽妫冨ù銊ョ秺瀹曟劕螖閸涱喖鍓瑰┑鐐叉閹稿宕戦敐澶嬬厵闁瑰嘲鑻悡鎰版倵濮樼偓瀚�闂備浇宕垫慨椋庝焊閵娾晛绠柨鐕傛嫹濠电姷鏁告慨鐑姐€傛禒瀣劦妞ゆ巻鍋撻柛鐔锋健閸┾偓妞ゆ帒瀚峰Λ鎴犵磼鏉堚晛浠滄い鎾炽偢瀹曞崬螣閼姐倕濞囬梻鍌欒兌缁垶宕濋弽顑句汗闁告劦浜濆畷鎻掋€掑锝呬壕闂佸搫鏈粙鏍不濞戙垹绠荤紓鍌氱昂閸婃繈寮婚敍鍕勃闁兼亽鍎卞▓妤呮倵鐟欏嫭绀冪紒璇插€块崺銉﹀緞婵犲嫭娈鹃梺鎼炲劀閸曨偄濮冩繝鐢靛У椤旀牠宕伴弽顐や笉鐎广儱顦壕瑙勭箾閹存瑥鐏╅柛姘秺閺岋繝宕堕妷銉т患缂佺偓鍎冲﹢閬嶅焵椤掆偓缁犲秹宕曢柆宥呯疇鐎广儱鎯撴惔顭戞晪闁逞屽墴瀵槒顦圭€殿噮鍓欓埢搴ㄥ箚瑜嶆竟瀣節閻㈤潧浠滈柟鑼仱瀹曘劑顢橀悙鍏稿枈婵犵數濮伴崹鐓庘枖濞戞瑧浠氶梻浣呵归鍐礉閹达箑钃熼柨鏇炲€搁悞鍨亜閹烘垵顏╅崬顖炴⒑闂堟侗妲堕柛搴㈢叀瀹曟劙鎮╃紒妯锋嫼闂佸憡绻傜€氬嘲危閸洘鐓曢幖鎼枛濞呭秹鏌涢埞鎯т壕婵$偑鍊栫敮濠囨嚄閸洘鍎楀┑鐘插€甸弨鑺ャ亜閺囩偞鍣搁梺顓у灣閳ь剚顔栭崰鎾诲礉閹达箑绠栨繝濠傜墕閻撴﹢鏌熼鍡楀€搁ˉ姘舵⒒娴h姤纭堕柛锝忕畵楠炲繘鏁撻敓锟�闂備浇宕垫慨椋庝焊閵娾晛绠柨鐕傛嫹Canalys闂傚倷娴囧畷鍨叏閹绢噮鏁勯柛娑欐綑閻ゎ喖霉閻撳海鎽犻柛瀣槹缁绘稑顔忛鑽ゅ嚬闂佸搫鎷嬮崜姘跺箞閵娿儺娼ㄩ柛鈩冦仦閸戜粙姊洪崨濠忎緵闁告挾鍠栧璇测槈閵忕姈銊╂煥閺囨浜鹃梺璇茬箰閿曪妇妲愰幒鎾寸秶闁靛ǹ鍎抽悷鑼磽娴e壊鍎忔い锔诲灦閿濈偛鈹戠€e灚鏅㈡繝銏f硾閿曘儵顢欒箛鎾斀闁绘劘灏欓幗鐘电磼椤旇偐鐏遍柤娲憾閹虫牠鍩¢崘顏嗘殽闂備胶枪閺堫剛绮欓幘姹団偓鍛村蓟閵夛妇鍘甸柣搴f暩鏋弽锟犳⒑娴兼瑧绉ù婊嗘硾椤繑绻濆顒傚€為梺鎸庣箓閹冲秵绔熼弴鐔虹瘈婵炲牆鐏濋弸銈夋煙閾忣偅宕岀€规洘鍔栭ˇ鐗堟償閳ュ磭浜版繝鐢靛仦閸垶宕瑰ú顏勭9闁秆勵殕閻撴盯鏌涢鐘茬仾闁哄棌鏅濈槐鎺撳緞鐏炵偓姣堥悗娈垮枛閻栧ジ宕洪敍鍕ㄥ亾閿濆骸浜滄い蹇ユ嫹闂備浇宕垫慨椋庝焊閵娾晛绠柨鐕傛嫹濠电姷鏁告慨顓㈠箯閸愵喖宸濇い鎾寸箘閹规洜绱撻崒娆掑厡濠殿喚鏁婚幃鐤樄妤犵偞鐗楅妶锝夊礃閳哄倹顏熼梻浣芥硶閸o箓骞忛敓锟�30% 闂傚倸鍊风粈渚€骞夐敓鐘偓鍐川椤栨繂小闂佸吋绁撮弲婊呪偓姘煼閺岋綁寮幐搴㈠枑闂佸磭绮弻銊╁煘閹达附鍋愰柛娆忣槸濞呇冣攽閻愯尙澧抽柟鍑ゆ嫹2023闂傚倸鍊风粈浣虹礊婵犲倴缂氱憸鏃堛€侀弽顓炲耿婵$偟绮弫鐘绘⒑闁偛鑻晶鎾煛鐏炲墽娲存鐐差儔閺佸倿宕滆閻涖儵姊绘笟鈧埀顒佺〒娑撹尙绱撳鍕獢鐎殿喛顕ч悾婵嬪礃椤忓棙婢戞繝娈垮枟閿曗晠宕滃棰濇晩闁跨噦鎷�4000濠电姷鏁搁崑鐐哄垂閸洖绠扮紒瀣紩濞差亶鏁囬柕蹇曞Х閿涚喖姊虹捄銊ユ珢闁瑰嚖鎷�
您现在的位置:首页 >> 新•资讯 >> 正文
服务器减少约50%还能提升效率?傲腾助PayPal击碎内存墙!
发表时间:2022年7月6日 16:57 来源:新科技 责任编 辑:麒麟

不得不说,Colossal-AI训练系统这个开源项目的涨星速度是真快。

在“没十几块显卡玩不起大模型”的当下,它硬是只用一张消费级显卡,成功单挑了180亿参数的大模型。

难怪每逢新版本发布前后,都会连续好几天霸榜GitHub热门第一。

△使用github-star-history制图

之前我们也介绍过,Colossal-AI的一个重点就是打破了内存墙限制,如训练GPT-2与英伟达自己的Megatron-LM,相比GPU显存最高能节省91.2%。

随着AI模型参数量的不断增长,内存不够的问题逐渐凸显,一句CUDA out of memory让不少从业者头疼。

甚至伯克利AI实验室学者Amir Gholami一年前曾发出预言,未来内存墙将是比算力更大的瓶颈:

内存容量上,GPU单卡显存容量每两年才翻倍,需要支撑的模型参数却接近指数级增长。

传输带宽上,过去20年才增长30倍,更是远远比不上算力20年增长9万倍的速度。

因此,从芯片内部到芯片之间,甚至是AI加速器之间的数据通信,都阻碍着AI进一步发展和落地。

为了搞定这个问题,全行业都在从不同角度想办法。

为了打破内存墙,业界做出哪些努力?

首先,从模型算法本身入手减少内存使用量。

比如斯坦福&纽约州立大学布法罗分校团队提出的FlashAttention,给注意力算法加上IO感知能力,速度比PyTorch标准Attention快了2-4倍,所需内存也仅是其5%-20%。

△arxiv.org/abs/2205.14135

又比如,东京大学&商汤&悉尼大学团队提出将分层ViT与掩码图像建模整合在一起的新方法。内存使用量比之前方法减少了70%。

△arxiv.org/abs/2205.13515

同类研究其实层出不穷,就先列举最近发表的这两个成果。

这些单独的方法虽然有效但应用面较窄,需要根据不同算法和任务做针对性的设计,不太能泛化。

接下来,被寄予厚望能解决内存墙问题的还有存算一体芯片。

这种新型芯片架构在存储单元中嵌入计算能力,以此消除数据搬运的时延和功耗,来突破冯诺依曼瓶颈。

存算一体芯片以忆阻器技术为代表,这种电路元件阻值会随着通过的电流改变,如果电流停止,电阻会停留在当前值,相当于“记住”了电流量。

如果把高阻值定义为1,低阻值定义为0,忆阻器就可以同时实现二进制的计算和存储。

△来自doi:10.1038/s41586-021-03748-0

不过存算一体芯片行业还在起步阶段,需要材料学的进步来推动。一方面,能做到量产的就不多,另一方面也缺少对应的编译器等软件基础设施支持,所以离真正大规模应用还有一段距离。

当下,基于现有软硬件框架做优化就成了比较务实的选项。

如前面提到的Colossal-AI,用多维并行的方式减少多GPU并行时相互之间的通信次数,又通过向CPU“借内存”的方法让GPU单卡也能训练大模型。

具体来说,是根据动态查询到的内存使用情况,不断动态转换张量状态、调整张量位置,高效利用GPU+CPU异构内存。

这样一来,当AI训练出现算力足够但内存不够的情况时,只需加钱添购DRAM内存即可,这听起来可比买GPU划算多了。

然而,这里又面临一个新的问题。

GPU平台直接“借内存”,并不是一种很高效的选择(不然大伙儿都去堆内存条了)——

与CPU相比,GPU平台的内存可扩展性其实没那么高、也不具备L1-L3高速缓存。数据在CPU与GPU之间交换走的PCIe接口效率也要低一些。

对于那些对时延更敏感的AI应用场景来说,是否存在一种更合适的解决方案?

用CPU方案打破内存墙,可行吗?

要问行不行,还得先看有没有。

从业界来看,确实已经有不少公司开始基于CPU平台搭建一些AI项目,其中一些如个性化推荐、基于AI的实时决策系统等,都属于“对时延非常敏感”的决策型AI。

而决策型AI,正是深受内存墙困扰的“受害者”之一——

不是因为模型参数量大,而是因为模型对数据库的要求高。

与其他训练完直接投入使用的AI不同,决策型AI必须每天从现实环境中获取新鲜数据,将决策变得更“精准”,这需要大量的低时延数据交互。

因此,背后的数据库也需要具备大规模并发读写、实时性强、可扩展等特性。

在这种情况下,如何充分利用内存来加速数据读写,反而成为了比提升算力更加困扰AI的问题。

那么,这些企业究竟是如何在CPU平台上解决内存墙问题的呢?

以曾经在全球引领了在线支付服务潮流,如今依然处于该领域C位的PayPal为例。

PayPal的业务如今已经涵盖了在线转账、计费和支付,并且客户规模已经达到了200多个市场的超3.25亿消费者和商家,所以它也像传统的银行服务一样,面临严峻的欺诈挑战。

PayPal的应对策略,就是打造了一个具备实时识别新出现欺诈模式能力的实时决策系统。

不过欺诈者也在不断改变欺诈模式,或发掘新的方式来对抗该系统,因此,PayPal需要不断提升新型欺诈检测的准确性,并且需要尽可能地缩短欺诈检测时间。

在这种类似猫鼠游戏,比谁反应更快、谁能更灵活应变的对抗中,起到关键作用的就是数据的快速处理及读写。

为了实时识别新出现的欺诈模式,PayPal需要更快地处理和分析更多数据,就需要将尽可能大体量的数据与实时处理做更好的对接。

然而,内存墙的问题,在此时也悄然出现了。

PayPal发现,自己要应对的是平台多年来收集的数百PB数据,随着其反欺诈决策平台数据量的逐年增长,主索引的规模也在不断扩张,以至于几乎要拖垮其数据库,特别是承载这些数据的各节点的内存容量一旦耗尽,反欺诈的效率就会大打折扣,实时性也就无从谈起。

于是,PayPal开始考虑采用新的内存和存储技术,来突破内存墙,换言之,提升其数据库方案的整体存储密度。

恰逢其会,PayPal于2015年开始主要采用来自Aerospike的数据库技术,而后者正是最早支持英特尔®傲腾™ 持久内存的数据库厂商之一。其创新的混合内存架构(Hybrid Memory Architecture,HMA)经过优化,可以帮助PayPal将体量越来越大的主索引存入傲腾持久内存而非DRAM中,内存墙难题就此破局。

最终的试验结果,也验证了傲腾持久内存在打破内存墙、提升整个数据库容量和性能方面的价值:

在PayPal现有共计2,000台Aerospike服务器中,有200台已导入了这款持久内存,结果每节点的存储空间提升到了原来的约4倍,且保持了应用的极速反应和低时延。

随内存和存储容量增大而来的,还有成本上的大幅节省,据PayPal和Aerospike进行的基准测试:

由于单个节点在数据存储和读写上的能力得到了强化,所需服务器的数量可以因此减少50%,每集群的成本就可因此降低约30%[1]。

而且,傲腾持久内存还有一个BUFF,也在PayPal这个反欺诈应用场景里发挥了令人意想不到的作用,这就是数据持久性,能带来超快的数据和应用恢复速度。

相比将主索引存入DRAM,在计划或非计划的停机后还需要从存储设备中扫描数据并重建索引不同,将主索引存入傲腾持久内存并做持久化后,不论是意外宕机,还是计划中的停机,其数据都不会因为断电而消失,整个系统就可以用更快的速度恢复并重新联机。

要问这个速度有多快?PayPal给出的答案是原先需要59分钟来重建索引,现在只需4分钟。

PayPal还给出了一些更具整体视角,并从业务和最终应用功效切入的数据来说明它的收益:

它以2015年初步估计的50TB欺诈数据量和过去的内存系统为基准,发现基于傲腾持久内存的新方案,可帮助它将服务级别协议(SLA)遵守率从98.5%提升到99.95%。

漏查的欺诈交易量,则降到原来的约1/30,整体服务器的占用空间可降至原来的约1/8(从1024减少到120台服务器),而其整体硬件成本可以降到原来的约1/3。

考虑到预测的年数据增长率约为32%,PayPal的反欺诈系统完全可在新方案上实现经济高效的扩展,并让它继续保持99.95%的欺诈计算SLA遵守率、更短的数据恢复时间、更强的数据处理、查询性能和数据一致性以及高达99.99%的可用性。

所以,像这种对数据库性能要求更高的推荐、在线评估类AI应用,利用CPU平台,特别是利用有AI加速能力的CPU+傲腾持久内存来打破内存墙,加速整体性能表现并降低成本确实是可行,而且也是能够负担得起的。

如前文提及的,除了PayPal这样的全球型客户外,国内也有不少渴望打破内存墙的互联网企业、AI创业企业在他们类似的应用场景中尝试了傲腾持久内存,结果也是收获了内存子系统容量大幅扩展+数据和应用恢复用时显著缩短+硬件成本或TCO大降的多重功效。

而且,能用上这套方案的还不止是这些场景。

即使在AI for Science上,目前也有一些科研项目正尝试充分利用这套方案,来解决内存墙的问题。

由DeepMind在2021年发布的AlphaFold2就算是一例。

得益于加速蛋白质三维结构探究的定位,以及预测的高可信度,AlphaFold2正在生命科学领域掀起颠覆式的变革,而它的成功秘诀,就在于利用深度学习方法进行蛋白质结构预测,这使它在效率、成本等方面远胜传统实验方法(包括X-ray衍射、冷冻电镜、NMR等)。

因此,几乎所有生物学界的从业者都在着手这一技术的落地、管线搭建以及性能调优。英特尔也是其中一员。它结合自身架构的软硬件优势,对AlphaFold2算法进行了在CPU平台上的端到端高通量优化,并实现了比专用AI加速芯片还要出色的性能。

取得这一成绩,既得益于第三代英特尔®至强®可扩展处理器内置的高位宽优势(AVX-512等),也离不开傲腾持久内存对“内存墙”的突破。

一方面,在模型推理阶段,英特尔专家通过对注意力模块(attention unit)进行大张量切分(tensor slicing),以及使用英特尔® oneAPI进行算子融合等优化方法提升了算法的计算效率和CPU处理器利用率,加快了并行推理速度,并缓解了算法执行中各个环节面临的内存瓶颈等问题。

另一方面,傲腾持久内存的部署,也提供了TB级内存容量的“战略级”支持,能更轻松地解决多实例并行执行时内存峰值叠加的内存瓶颈。

这个瓶颈有多大?据英特尔技术专家介绍:在输入长度为765aa的条件下,64个实例并行执行时,内存容量的需求就会突破2TB。在这种情形下,对用户而言,使用傲腾持久内存也是他们目前真正可行的方案。

下一步:异构芯片,统一内存

当然,从整个行业的发展态势来看,CPU搭配大容量持久内存的方案,也并非就能一劳永逸地解决“内存墙”的问题。

它同样也只是众多解决方案中的一种。

那么,是否还有其他针对内存墙的方案,既不像存算一体芯片那般遥远,但又比CPU+持久内存的用途更全面、更多样呢?

答案或许就是异构芯片+统一内存的路子了。

这里的异构芯片,指的可不仅仅是CPU和GPU,还包括有FPGA和ASIC等同样能为AI计算提供加速的芯片类型。随着芯粒(Chiplet)技术的发展,异构计算或许能为打破内存墙提供新的可能性。

目前,芯粒互联互通的开放标准UCIe(Universal Chiplet Interconnect Express)已获得大量芯片行业玩家认可,有望成为主流标准。

这个标准的牵头者英特尔自己就在积极布局XPU战略,把标量(CPU)、矢量(GPU)、矩阵(ASIC)和空间(FPGA)等不同类型和架构芯片的多样化算力组合在一起。

最近能看到的一项成果便是美国阿贡国家实验室的下一代超算系统——极光(Aurora)。

极光超算的CPU将采用代号为Sapphire Rapids的第四代英特尔®至强®可扩展处理器,并搭配代号为Ponte Vecchio的英特尔®数据中心GPU,双精度峰值计算性能超过每秒两百亿亿次,能支持更准确的气候预测以及发现应对癌症的新疗法等研发创新活动。

这还是目前可见的进展。在UCIe的支持下,未来还有可能出现不同架构、甚至不同工艺制程的IP封装成为一块SoC芯片的全新物种。

伴随异构芯片的协作甚至是异构芯粒的整合,不同芯片和芯粒所搭配的内存也很可能出现统一或池化的趋势。

其中一个可能的实现途径,就是通过光学I/O来连接不同芯片、芯粒、内存等组件,即用光信号代替电信号做芯片间的通信,可以做到更高带宽、更低时延和更低功率。

例如,光学I/O方面的创新企业Ayar Labs,目前已经被各大芯片巨头和高性能计算供应商所看好。

在最新一轮1.3亿美元的融资中,它的投资方就包括了英特尔、英伟达、格芯和HPE。

或许,距离内存“大一统”的时代真的不远了。

在这种情况下,持久内存本身也正在迎来更多的机会。

例如,傲腾持久内存目前已实现单条512GB的容量,单条1TB容量的型号也正在筹备中。

如果要真正高效地扩展异构系统的统一内存池,它所具备的多重优势是不可忽略的。

高层访谈
李邵华:芯片自主化迎最佳窗口期
李邵华:芯片自主化迎最佳窗口期
中兴通讯刘金龙:价值驱动 云网生态激活转型新动能
中兴通讯刘金龙:价值驱动 云网生态激活转型新动能
观点态度
5G毫米波网速优势显现,少了高速路的5G不完整
随着5G网络目前在全球各地的开通,5G毫米波在峰值速率上已经展现出了巨大优势。同时,工信部在..
手机厂商这半年:互怼变日常,多品牌成突围关键
2019年的手机行业,可以说是非常热闹的,仅仅上半年,“华米OV”的隔空互怼便开始频繁上演。
移动互联
手机
智能设备
汽车科技
通信
IT
家电
办公打印
企业
滚动
相关新闻
关于我们 | 联系我们 | 友情链接 | 版权声明
新科技网络【京ICP备18031908号-1
Copyright © 2020 Hnetn.com, All Right Reserved
版权所有 新科技网络
本站郑重声明:本站所载文章、数据仅供参考,使用前请核实,风险自负。