微票兒技術(shù)VP楊森淼這一連串的數據背后,有著(zhù)什么樣的支撐技術(shù)?日前,微影時(shí)代研發(fā)中心技術(shù)副總裁楊森淼做客“騰訊云會(huì )客廳”,1958 荒淫無(wú)度的影像生活 電影,對話(huà)騰訊云副總裁曾佳欣,解讀了微票兒年增長(cháng)4000%背后的大數據和云計算技術(shù)體系楊森淼表示,微票兒的核心在于利用大數據做精準營(yíng)銷(xiāo)及服務(wù),通過(guò)卷積神經(jīng)網(wǎng)絡(luò )(CNN)、奇異值分解(SVD)等算法對 200TB 用戶(hù)數據和行業(yè)數據進(jìn)行分析,微票兒得以精準地把握用戶(hù)需求,提升了票房轉化率;同時(shí),面對用戶(hù)量高速增長(cháng)時(shí)期高峰值、大流量的挑戰,云計算資源的高伸縮性、安全性也是支撐不間斷運營(yíng)的必備條件微票兒會(huì )根據用戶(hù)熱度建議影院優(yōu)化排片,首先通過(guò)數據分析用戶(hù)位置和用戶(hù)附近的影院,然后反哺上游,并為影院經(jīng)理也開(kāi)發(fā)微票專(zhuān)業(yè)版,幫助他們了解到自身影院數據,以確定排期和行業(yè)大盤(pán)。企業(yè)宣傳片制作可以說(shuō)我們的核心競爭力就是利用整個(gè)大數據來(lái)為電影行業(yè)、演出及體育行業(yè)去做服務(wù)、連接和營(yíng)銷(xiāo)目前微票兒產(chǎn)生的日志條目數上百億條,業(yè)務(wù)累計的數據量不少于千萬(wàn)量級,行業(yè)大數據則是以爆炸性的速度不斷擴展,目前微票兒的大數據的數據存儲總量已達200T算法從邏輯上來(lái)看,這個(gè)過(guò)程又包含了兩個(gè)部分的算法1. 特征工程算法 特征工程是指為了提高算法準確性,對數據做的一系列數學(xué)變換。這部分工程尤為重要,不光考驗算法工程師的數學(xué)能力,同樣考驗工程能力巨大的數據集合無(wú)法在單機上進(jìn)行特征抽取的時(shí)候,就需要工程人員需要從單機算法設計成為并行特征抽取算法。微票兒特征抽取工程上多采用深度學(xué)習(Deep Learning)技術(shù),這是因為深度學(xué)習天然的網(wǎng)絡(luò )拓補結構更容易并行,并行存儲也可以滿(mǎn)足龐大數據量的存儲需求當然,這些算法更多的是要去迎合使用場(chǎng)景。比如CNN(Convolutional Neural Network)和SVD(Singular Value Decomposition),影視視頻制作這兩種降維方法會(huì )因為業(yè)務(wù)場(chǎng)景不同而區分使用2. 目標結果算法通過(guò)特征工程算法得到的重要維度,交給“目標結果算法”來(lái)處理除了常規機器學(xué)習/深度學(xué)習算法以外,微票兒對于不確定數學(xué)的相關(guān)算法也有一些應用。炫我科技影視流程管理系統助影視教育產(chǎn)業(yè)化,因為許多場(chǎng)景下,精確估計表現并不是很理想,尤其當自變量解釋能力不強的時(shí)候比如常用的 Regression 算法對于確定信息有著(zhù)極高的預測能力,但是對于不確定信息來(lái)說(shuō)顯得比較無(wú)力。針對這類(lèi)場(chǎng)景,微票兒采用了不確定信息的描述,諸如“Entrop(熵)”和“lyapunov”。因此,除了日常所需的數據存儲和抽取集群以外,微票兒把算法重點(diǎn)放在更遠的并行內存計算技術(shù)上楊森淼希望可以把深度學(xué)習計算并行在造價(jià)低廉的內存計算平臺上(如Spark集群),可以在不減少輸入參數和神經(jīng)網(wǎng)絡(luò )規模的前提下,更優(yōu)地完成任務(wù)。為了抵消與高速“GPU”的速度差,微票兒使用了眾多集群,并采用“伸縮”模式,訓練過(guò)程結束之后,集群自動(dòng)伸縮為一般模式,這樣避免了與“GPU”集群一樣的硬件必須消耗問(wèn)題很容易看到,絲路新旅程全5集 漢語(yǔ)中字 TS!大數據平臺不完全在云上。楊森淼比較了自建大數據平臺和云大數據平臺的優(yōu)劣: 1. 自建大數據平臺的優(yōu)點(diǎn)用戶(hù)根據自身需求規劃建設完全貼合業(yè)務(wù)需求的大數據平臺,且平臺建設與業(yè)務(wù)發(fā)展相互促進(jìn)。技術(shù)機構版本的升級、新技術(shù)的引入,資產(chǎn)管理、自動(dòng)化運維、權限認證等系統研發(fā)完全由用戶(hù)自己決定,可控性強。大數據平臺技術(shù)團隊對架構中每項技術(shù)都會(huì )有持續深入的研究,保障了平臺的穩定及不斷創(chuàng )新,增強了公司的技術(shù)影響力2. 自建大數據平臺的缺點(diǎn)對平臺技術(shù)團隊成員的綜合能力(學(xué)習能力、創(chuàng )新能力)要求較高。IT行業(yè)的特殊性、對團隊成員的穩定性要求較高3云大數據平臺的優(yōu)點(diǎn)服務(wù)商有完善的解決方案體系,根據用戶(hù)的具體需求及應用場(chǎng)景為用戶(hù)提供合適的技術(shù)架構。每套技術(shù)架構又是一套完整的生態(tài)系統,除了大數據平臺本身,還附有資產(chǎn)管理系統、自動(dòng)化運維系統、監控報警系統、權限認證系統、安全保障系統、各層面HA等4. 云大數據平臺的缺點(diǎn)提供給客戶(hù)的每套解決方案往往不能完全貼合用戶(hù)需求,加上技術(shù)架構各個(gè)組件及環(huán)節的定制封裝,為用戶(hù)增加了不同程度的學(xué)習及維護成本。當用戶(hù)需要將一些前沿技術(shù)或第三方組件整合到云大數據平臺時(shí),服務(wù)商往往需要很長(cháng)的時(shí)間甚至直接告訴用戶(hù)暫沒(méi)有這方面的研發(fā)計劃微票兒根據業(yè)務(wù)場(chǎng)景選擇自建平臺或者云平臺:業(yè)務(wù)數據倉庫的建立目前還在本地物理集群,因為涉及業(yè)務(wù)數據量大,且計算及配置環(huán)節較多,對數據準確度要求較高。一些競品分析預測、票房預測、輿情預測及用戶(hù)行為分析等方面的分析、預測類(lèi)計算,則是在云上完成的。一些實(shí)時(shí)計算及準實(shí)時(shí)業(yè)務(wù)服務(wù),也大都在云上進(jìn)行,這樣可以最大程度的縮短由于網(wǎng)絡(luò )或數據交互帶來(lái)的時(shí)延。數據傳輸方面,關(guān)系數據T+1與T+0數據批量同步,百萬(wàn)級數據同步基本在1分鐘內完成,流數據實(shí)時(shí)接收處理,秒級響應后續努力的方向,楊森淼表示,是如何發(fā)揮好在“大數據和社交”兩個(gè)方面的核心優(yōu)勢,用“懂社交的大數據”把電影演出等娛樂(lè )產(chǎn)業(yè)和觀(guān)眾更好的連接在一起,比如騰訊云的優(yōu)圖人臉識別有效幫助了微票兒的數據采集,企業(yè)宣傳片制作而這個(gè)能夠更加豐富自身大數據,實(shí)現更好的洞察。