閻犵尨鎷�闁荤偞绋忛崕鎻掞耿娑擄拷2闂佹眹鍔岀€氼參骞侀锝嗗闁瑰墽绮€点垽鏌嶉妷锔界厸闁逞屽墯濮婂綊宕奸敓鐘冲殜闁挎繂鎳夐崑鎾愁吋閸涱剚妯婇梻浣藉Г椤祩闂佹寧绋戦懟顖炲Χ娴犲瑙﹂柛娑橈攻閺嗩亪鏌熼棃娑毿$紒銊e姂瀹曗剝绻濋崒姘兼浆闂佺ǹ饪甸幏锟�閻犵尨鎷�闂佸搫妫欓崹鍨閿濆鍤冮柣妯烘惈閸擃參鏌¢崟顒佸碍闁搞値鍙冨濠氼敋閳ь剟銆傛禒瀣櫖閻庡湱鎸秄espace闂佺儵鏅涢敃锕傚极閹剧粯鍤曢悘鐐舵缁ㄨ霉閿濆洤校濠⒀嶇畵閺屽懘鎮╅煫顓熸▕闁瑰吋娼欓崲鏌ュΧ娴犲鐏虫繝濠傛娴滄牠鏌嶉妷锔剧畺闁逞屽墾閹凤拷閻犵尨鎷�婵☆偓绲鹃悧鏇㈠垂闁秴绠戠憸蹇涳綖閺嶎厽鍎橀柡鍐e亾闁搞劍宀稿绋库堪閹邦喚鐛ラ梺鍛婄墬閵囩偤宕ラ銈傚亾鐟欏嫮绠栭柣蹇斿哺閹粙鎮㈤崫鍕ㄦ寘缂備椒鑳堕崑鐔哄垝閿熺姵鐓€闁告稑锕ラ弳顓㈡煕閻樻彃娈獻E濠电偛鐭佸畷鐢稿几閻旂厧鏋侀柛顐ゅ枔娴滐拷閻犵尨鎷�缂備礁顦伴崹鐢割敆閻旂厧绠柕鍫濈墕閳ь兛绮欏銊╂嚒閵堝棙顓洪梺鎸庣⊕瀹€绋库枖閿燂拷4闂備焦褰冪粔鍨叏閵忋倖鍤冩繝闈涙祩濡茶崵绱掗鈧埀顒佺〒閼规儳鈽夐幘顖氫壕闂傚⿴鍓﹂崑鍡椻枔閹达箑纾婚柕澶堝劤閺嗘棃姊洪銏犫偓椋庣箔婢跺备鍋撻悷鎵Ш闁轰礁锕ュḿ濠氭晸閿燂拷閻犵尨鎷�闁荤喐鐟辩紞渚€寮ㄩ敐澶屽彆妞ゆ劧绲剧紞蹇曠磼閻欏懐纾块柟顔硷躬瀵剟寮堕崯鍐惧弮瀹曟繈宕犻敍鍕崶lifespace闁诲繐绻愮换妤呭箺閹达附鍤堥柟娈垮枟閹跺嫰鏌i姀銏犳灆鐎殿喖顭峰畷婵嬪煛閳ь剛绱炲Ο灏栧亾閸︻厼浠ф鐐叉川缁棃骞嬪┑鎰Τ闂傚⿴鍓﹂崑鍛缚濡ゅ啰涓嶉柨娑樺閸婏拷閻犵尨鎷�婵犵鈧啿鈧绱炲鍥╃煋闁瑰瓨绻嶉崝鍛存⒒閸曨偆啸妞ゃ垹鎳橀幊姗€宕掗敂鎯ф優婵炴垶鎸剧划顖涙櫠閿旇棄绶為柍鍝勫暙婵囨煙鐎涙ê濮囬柛銊ラ叄閹啴宕熼鑲╀喊闂佽皫鍕姢闁伙絿鍋熼惀顏嗏偓鍦Х濠€鍝ョ磼娣囧崬鐏繛鍙夋倐閹虫鎹勯悜妯诲Ρ婵炲瓨绮屽Λ婊嗩暰婵炴垶鎼幏锟�閻犵尨鎷�闂佸搫瀚Λ婊堝触濡崵鈻旀い鎾跺仦缁傚洭鎮硅閸氣偓缂佹绻傞埥澶娾槈瀹曞洨鐛ョ紒鎯у綖缁€渚€鎮介锕€鍙婃い鏍ㄨ壘閺嬪酣鏌℃担鍝勵暭鐎规挷绶氶幆鍐礋椤掍椒绮繛杈剧到閸熷潡鎮洪妸鈺佺<闁靛ǹ鍊楅惌娆撴偣閹拌埖瀚�閻犵尨鎷�婵犵鈧啿鈧绱炲鍡樻珷闁绘劖褰冪换渚€鏌涜箛鎾缎ら柡灞芥嚇瀹曟繂鈽夊畷鍥ф優濠殿喖绠嶉崐娑㈠吹閺囥垹纾圭€广儱鎳嶅ǎ顕€鏌ч弬娆惧剳婵炲憞鍛灊濠㈣泛枪閸嬨劑鏌﹂埀顒勫Ψ閵夈儲鍊犻梺鍝勵槶閸庮噣鍩€椤掍胶鐭婂┑顕呬邯瀵劑鎮滈埞鎯т壕闁跨噦鎷�閻犵尨鎷�Canalys闁荤姴顑呴崯浼存偉濞差亝鏅慨姗嗗亯閸橆剟鏌涢妷锕€鐏婄紒杈ㄥ笚缁嬪顫濋澶婃婵炲瓨绮岀花鑲╃箔閸屾稓顩查柟瀵稿У閻i亶姊婚崶锝呬壕濠殿喚鎳撻崐椋庡垝濞戙垺鍊块柡鍫㈡暩缁夌敻寮堕埡瀣閻犵尨鎷�婵犫拃鍛粶缂佺姵鐟ч幖楣冩晸閿燂拷30% 闂佸憡顨呯花鑲╂嫻閻斿摜鈻斿┑鐘叉噽濞堬拷2023闂佸綊娼ч鍡椻攦閳ь剟鏌涢幋锔剧窗闁逛紮缍侀弻宀冪疀濮橆剚顔�4000婵炴垶鎸稿ú顓㈠磿閿燂拷閻犵尨鎷�缂備焦鍔掗懗鍫曟偋椤掍礁绶炴慨妯跨堪閳ь剙绉归弻灞筋吋閸パ傚寲闂佺懓鐏堥崑鎾绘煛閸剚瀚� 濠电偞鎯屾禍婵嬫偪閸℃稑鐭楅柟瀛樼箘椤忔挳鏌涜箛瀣闁哄苯锕︾划璇参旈埀顒佹叏韫囨洜纾鹃柟瀵稿Х閹规洟鏌熼崹顔拘$紓宥嗘⒒閸栨牠鎳¢妶鍥х厷閻犵尨鎷�闂佺厧顨庢禍婵嬪垂濠婂牊鍎戦悗锝庡幐閳ь剚绮撻弫宥夋偄鐠囧樊浼曢梺鍝勵儐缁矂濡甸崶顒傚祦闁告侗鍘奸·鈧梺鍛婂灥缁櫅婵犮垼娉涢悺銊ノ熸径鎰叆闁逞屽墴瀹曨剟顢欓悙顒傜崶闂佸搫绉村ú鈺呭吹閿燂拷15婵炴垶鎸稿ú銈堛亹閿燂拷閻犵尨鎷�闂佸憡顨呯花鑲╂嫻閻斿摜顩查柟瀵稿剱閸斺偓閻庢鍠栫换鎰亹閸屾粍鏆滈柛鎰ㄦ櫆閻撯偓婵炴垶鎸撮崑鎾趁归悪鍛К闁搞倖绮撻幆宥夊棘閸喚鈧鎮介姘殭缂佹唻绻濆顐︽偋閸繄銈﹂柟鐓庣摠瀵珜ussDB閻犵尨鎷�闂佺ǹ绻堥崝搴ㄥ箖閸℃瑧绠旀い鎴f硶椤忛亶鎮楃涵鍜佸晣缂佽鲸甯楃粙澶嬪緞鐎n倣鏄婦-OLED闂佺厧澧借矊antone闂佸憡鐟ラ惌浣圭珶婵犲懌浜归柍鍝勫€圭紞鈧繝鐢靛仒濞村洭顢橀懡銈嗗珰闁跨噦鎷�閻犵尨鎷�濠电偞娼欓鍛礄闁秵鐓€婵繂鐬煎Σ鍝ョ磼閹勫暈闁逞屽墮缁ㄨ偐绮婚悙鐑樺仺闁跨噦鎷�閻犵尨鎷�3999闂佺ǹ绻愰崯鎶藉箲閿濆鏅ù锝囨嚀椤垿鏌涘▎鎴澬㈤柣顐㈡楠炲秶鈧綆鍋呯花姝畂to razr 40缂備緡鍨甸褔宕归鍕垫桨闁挎繂鎳愮涵鈧梺鍛婄懄閸ㄧ數绮╅敓锟�閻犵尨鎷�闁荤姵鍔楅。顔炬閹烘梹顫曢柕蹇曞Т閸ゎ剟鏌熼幁鎺戝闁搞倗鎸哋UGH婵炴垶鎸搁ˇ闈浳g猾鍜秂xpress Type A闁诲孩绋掗敋闁稿绉瑰畷锟犳晸閿燂拷閻犵尨鎷�闂佸憡顨呯花鑲╂嫻閻斿娼伴柨婵嗘噽绾偓闂佸憡鐟﹂崹鐢电博閻戣棄鐤鹃柧蹇撴贡閺嗗棝鏌涜箛瀣闁告ɑ绮撻幊鏇㈠籍閳ь剛鏁幘顔肩婵☆垰鍚嬪▓锝夋煕濞嗘瑦瀚�6濠电偛妫濈粻鏍闯閸濄儱顥氶柛娑卞枟閻撯偓闂佸憡绻愰幏锟�閻犵尨鎷�闂佽壈椴搁弻銊ㄣ亹閸屾粎鐭撻柟杈剧稻閸o絽霉濠婂喚鍎旈柡鍡涗憾閹锋洟鍩勯崘鈺婃綘婵炲濮撮鎴犳閻楀牞绱i柛鏇ㄥ櫘閸氣偓闂佸綊娼ч鍡椻攦閳ь剙鈽夐幘纾嬪濠殿喚鍠栧鐢割敂閸涱噣妾锋繛鎴炴尪閸婃洟宕熼悙顒€顕辨慨姗嗗墻閺夊姊婚埀顒勬晸閿燂拷閻犵尨鎷�濠电偞娼欓鍛礄闁秵鐓€婵繂鐬煎Σ鍝ョ磼閹勫暈闁逞屽墮缁ㄨ偐绮婚悙鐑樺仺闁跨噦鎷�閻犵尨鎷�闂佺厧鐏氬畷姗€顢欓崱妯碱洸闁硅鲸浜痝eOne闂佺ǹ绻堥崕鐢稿焵椤掆偓椤㈠獘rtner DDoS缂傚倸鍊归幑浣筋暰闂佸搫鍊介~澶愩€佸鍥ㄦ殰闁稿本纰嶇花姘舵煙缁嬫寧鎼愮€规洩鎷�閻犵尨鎷�闂佸憡顨呯花鑲╂嫻閻戠こeanStor Pacific闂佸憡甯掑Λ妤冪博瀹勯偊鍤曢煫鍥ㄦ尵閹界娀鏌涚仦璇插妤犵偛绮㎡500濠殿喗甯楃划搴敄閸ャ劎鈻旈柍褝鎷�閻犵尨鎷�闁诲繐绻愮换鎺楁嚄瀹€鍕煑闁瑰瓨绻勯锟�2023濡ょ姷鍋熺换婵堢博鐎电硶鍋撳☉宕囧埌閻庣懓纾幏褰掑閳ユ壙鎾绘煥濞戞瑧顣插鐟板缁傚秷绠涙惔銈囶槹闂佺儵鏅涢悧鐐垫濠靛绀嗛柍鍝勫€跨槐鐔封槈閹剧鏀婚悗鐧告嫹閻犵尨鎷�闂佽壈椴稿褰掑礂閸屾稓鈻斿┑鐘辫兌椤忛亶鎮归幇鈺佺仼闁告洟绠栭幏鍐Ψ閿旇姤姣嗛梺鍛婂坊閺呮粍螚鎼淬劌鐭楅悘鐐舵閽冪喎鈽夐幘鎰佸剱缂侇噯鎷� 闂傚倸鐗婇幍姹i梺琛″亾閻犲搫鎼鎶芥煕濡ゅ啫校闁伙富鍠楀ḿ濠氭晸閿燂拷40%閻犵尨鎷�婵炶揪绲介悿鍥礂濡紮绱旈柡宥庣厛閸庮櫂F闂佺偨鍎茬划鎾诲Χ婵傚摜宓佹繛鏉戭儌閸嬫挸鈹戠€n偅鐣舵繝銏犲閳28mm F2.8 STM濠殿喗绻愮徊鐣屾閿熺姴鐭楅柟瀛樼箘椤忥拷閻犵尨鎷�缂備椒绌堕崹褰掑礄瑜版帒鐭楅柟瀛樼箘椤忔挳寮堕悙棰濆殭闂傚啠鍋撻梺鎼炲妼椤戝懘宕h箛娑樼柧妞ゆ牗鐔槐锝夋煕閵壯冧槐闁绘捁鍩栫粩鐔哥▔閻曪拷-S2000 闂佸摜鍎愰崰鏇㈡偝閿燂拷2990闂佺ǹ楠忛幏锟�閻犵尨鎷�闂佺儵鍋撻崝灞筋嚕閹间焦濯奸柨婵嗗閻ㄦ垿姊婚埀顒勫垂椤斿吋鍊疌EO闂佺粯绮岄鍡涘几閸愨晝顩叉い鎺戯功缁愭鏌涜箛瀣婵為棿鍗冲顐︽偋閸噥浠梺鍝ュ枎濡梻绮悢鐓庣婵炴垶鐟﹂悡鈧梺鍝勫暞濠€褰掑船椤掑嫬绀嗛柣妤€鐗婇梽锟�閻犵尨鎷�婵炴垶鎼╅崢濂稿矗绾般€S婵炲瓨绮嶉崹鐢告煢閳哄懎鐭楅柟宄扮灱缁犲墽绱撴笟鍥у箳缂佹ぞ绶氶悰顔惧鐎n亞顔咷lobalData Leader闁荤姴娲ょ€氼喗顨ラ敓锟�閻犵尨鎷�闂佸憡鍔曢幊蹇涙偋閹惰棄鏋佸ù鍏兼綑濞呫倕鈽夐幘瑙勩€冪紒妤冨枛閹墽浠﹂悙顑跨帛婵°倕鍊归敃顐ゆ閹垫仐pere闂佸憡鐟﹂崹鐢电博閿燂拷192闂佸搫绉堕鍍怣婵犮垼娉涚€氼噣骞冩繝鍥ч棷闁跨噦鎷�閻犵尨鎷�Gartner闂佹寧绋掓穱娲触濡吋濯兼い鏍ㄧ懅闂呮﹢鏌ら崜顬☆摉aaS闂侀潧妫旂粩绯滿婵犮垼鍩栭惌顕€鏌屽⿰鍛皫婵炴埈婢€婢规洟鏌涢妷銊︻棄闁哥偛顕划顓㈩敄鐠侯煈浼�
您现在的位置:首页 >> 互联网 >> 正文
百度葡语搜索的新“土狼”打法
发表时间:2014年7月28日 13:38 来源:新科技 责任编辑:编 辑:麒麟

日前在国家主席习近平和巴西总统迪尔玛•罗塞夫共同见证下,百度高调推出葡语搜索进军巴西市场,这是百度继泰语搜索、阿拉伯搜索后的又一非中文语种搜索。随后几天,百度发布超预期的2014年Q2财报,双重利好引发股价一路飙升,市值已近800亿。

百度股价一路飙升,市值市值已近800亿。 

一名贴近葡语搜索的百度攻城狮告诉笔者,我们用的是“土狼”打法,现在百度从数据收录到效果验证,只需3到4周便可推出一款新语种搜索引擎,阿拉伯、泰语和葡语之后,百度可快速且用很少资源推出更多外文搜索或者少数民族语言搜索。

看来,在推出一个又一个新语种搜索后,依靠此前的技术沉淀再结合“土狼”打法,百度势必将会拿下越来越多的“新大陆”,而这也可能助力百度以更快的速度挺进市值“千亿俱乐部”。

新“土狼”打法背后的Rank技术

搜索引擎是十分复杂的系统,但流程又可一句话说清楚:收录WEB数据,接入结构化数据,构建索引;理解用户搜索需求,查询索引找到一堆结果,排序并进行输出。

数据处理和用户需求理解靠的是NLP(自然语言处理)。经过十多年演进百度NLP技术已经处于国际领先水平。而百度WD团队则负责接入结构化数据、组织全网资源。还有一个关键环节并且是离用户最近的环节同样十分重要:RANK。

RANK排序是计算机算法里最重要的分支,也是搜索引擎最重要的环节。早期搜索引擎比拼结果集大不大(召回率),响应时间快不快。人类进入信息过载时代后,尤其是移动搜索的崛起则让搜索结果准不准成为最重要考量。“准”,即结果与用户需求的相关性。NLP理解用户需求,WD准备数据,决定结果相关性的是RANK策略。  

整个搜索引擎技术体系就像一支足球队伍,排兵布阵上需要后卫、中场和前锋,如果说NLP/WD等部门是后卫和中场,那么RANK就是前锋。一场足球比赛的胜利,固然需要后卫们坚固的防守和中场灵巧的组织协调,但是想最终赢得比赛,最需要的还是前锋的冲锋陷阵。

作为支撑数亿用户的搜索引擎,百度RANK策略十分复杂和智能。但要理解RANK并不困难。通过海量参数和权重对不同结果的相关性进行打分,分数高的排前面。参数是文本相似性,语义相关性,用户特征,搜索历史,甚至用户位置。总之,RANK要做的便是让最前面的结果最接近用户彼时的搜索需求。

进军新语种 RANK的快与准

百度RANK部门为了更好支持国际化,对原有架构进行深度重构,实现了对新语种的即插即用。能做到这点与百度RANK新技术有关。RANK算法本身也在智能化,在国际化这块RANK部门利用内部代号为LTR的机器学习技术,对排序模型进行改造,包括样本训练,样本数据,本向算法和调优,都进行了深度改造。排序模型则面向不同语种自我进化。

在中文上,百度RANK能够根据不同用户、不同位置、不同时间等特性反馈个性化的结果排序,面向场景的RANK技术使得每个用户在不同结点都能找到自己想要的。譬如用户平时搜“马航”,一年前最可能想买马航的机票,了解航班和折扣信息,现在搜“马航”,用户就不大可能是买机票而是看新闻。但是这些例子是不能穷举的,海量搜索需求对应海量场景,因此百度工程师不可能穷举每一个场景进行算法优化,只能让RANK模型自我学习,智能起来。 

实际上,百度RANK系统正是深度学习的智能系统,进入一个新语种搜索后,工程师把相关语料训练好,相关label标注好,放到RANK模型里自动训练后相关性效果非常好,在充分考虑国际化的RANK架构支持下,百度中文搜索的一些特有内容已经被集成到最新版的葡语搜索:直接在结果页展示表单、排序和筛选控件的知心搜索,直接在结果页面播放视频的直达搜索。不同用户,不同时间,不同场景搜索到的结果都不一定相同,随需而变。

让RANK在不同语种下智能化理论上是可行的。百度首席科学家吴恩达曾带领团队利用深度学习技术自动识别猫,要用深度学习让机器理解一门新的语言自然不在话下,目前百度RANK团队里没有葡文,泰文等语言专家,但对应搜索的相关性做得特别好,而RANK能够继续生效就在于深度学习排序技术的成功应用。 

百度海外土狼战术鏖战Google

自从李彦宏在2012年底提出狼性之后,2013年百度种种动作已在体现其狼性文化,而在海外市场上,百度就要做一头土狼去抢食Google市场份额。土狼战术被华为证明。华为的国际化采用“农村包围城市”,先易后难,首先进入香港,然后是俄罗斯。1997年,华为进入非洲市场,紧接着是拉美和东南亚,最后是欧洲腹地和美国,就像中国解放后的外交战术。现在百度则是先打阿拉伯,泰语和葡语,日后再继续从“农村”包围欧美等Google腹地市场。     

在五年前百度和谷歌曾在中国正面交锋。两个搜索引擎有着不同思路,百度更重视结构化数据,有阿拉丁计划,同时强化UGC频道如知道、百科和贴吧,Google过分信仰和依赖技术导致其对数据和运营的轻视。结果便是百度搜索结果页面内容更加丰富多元,有直达、知心、百科结果。现在百度搜索结果页右侧则是知识图谱应用,结合用户需求和结果数据挖掘相关知识并展示出来,从各种CASE来看百度知识图谱效果已经比Google更强。这说明百度RANK,WD,NLP等技术团队已经联手成功狙击Google,就算Google不退出中国,就算Google重返中国,依然打不过百度。

百度与Google再次在海外市场狭路相逢,在新语种上百度用类似思路逐个击破。譬如以知识图谱为例,巴西百度一方面与大量第三方合作接入结构化数据,另一方面在垂直类目上开展了大量的实体挖掘、清洗和合并工作,这样在短短的半年时间内便上线了几十个垂直类目、积累了几千万实体数据,从而在实体覆盖面上将google远远甩在了身后。因为Google面向全球市场,自上而下、全面覆盖。在战略上铺得太开只能打大战,百度则是逐个击破,是打游击战的土狼思路。在技术上Google倾向于通用方案以低成本,高效率覆盖,百度则在每个本土市场推出本土化的产品并精耕细作。在运营上尤其是数据运营一直是Google弱项,百度擅长。

即便Google已有先发优势,百度还是可凭借着垂直和本土策略攻破一个个海外市场,最终再到英文市场与Google交锋是大概率事件,那时候两个搜索巨头之争将更加好看。

关于我们 | 联系我们 | 友情链接
新科技网络【京ICP备14006744号】
Copyright © 2014 Hnetn.com, All Right Reserved
版权所有 新科技网络
本站郑重声明:本站所载文章、数据仅供参考,使用前请核实,风险自负。