自古以來,東西方世界均有泰坦巨人開天辟地的故事,將原本宇宙間的一片混沌,化為各種秩序的存在。而在東方,這名泰坦,叫盤古。
混沌并非虛無,事實上它剛剛好與虛無截然相反,它是萬物,是所有元素的集合,只是一直沒有人去為它塑型,將它轉變為有價值的實體罷了。想來前日騰訊火爆全網的這篇《混沌之后,偉大之前》便有此意,將大數據的過往及未來,做一個梳理罷。
12月22日,騰訊娛樂白皮書發布,同日也是艾漫數據登陸新三板掛牌的日子,艾漫數據日前就應我們的邀請,來解讀了這篇“混沌”的“偉大”之處,來還原一下大數據秩序重塑的過程;為外行人八一八大數據的養成,為內行人點一點明燈。
霍建華和胡歌不具備商業價值?
如騰訊的這篇“混沌”之作,其背后的梳理是如此繁雜,是一個將“無序”化為“有序”的過程;若回憶無誤,這個過程是33天。但誰想數據計算的結果,卻也會有“出乎意料”,如這些在近期口碑大好的明星,有人卻未能登榜。
比如對于鐘漢良口碑第一這件事,相信不管是不是鐘漢良的粉絲都不會有太多疑問,畢竟作為一個藝人,不靠緋聞博話題,不靠炒作贏關注,只靠扎實的演技和圈里圈外一致的好評積攢人氣,這在娛樂圈確實鮮有。然而最具商業價值排行榜中竟然沒有“智商爆表”的梅宗主以及“顏高手美低音炮”的靖王,確實出人意料。
至于緣何如此,就要明白這個榜單的計算方法。艾漫給出的解釋是:明星的商業價值體系通常會基于明星熱度、口碑、作品、代言四個大維度進行分析。但由于基礎數據格式的不統一,處理起來有難度,所以四個大維度下面對應眾多小維度的情況會導致計算結果的“一鳴驚人”,就連數據分析師本身也會覺得不可思議。但是以基礎數據結合搭建好的研究框架,以及算法模型進行計算的方法,在經過反復驗證后并沒有錯誤,所以最終的結果也一定是正確的。
比如,霍建華的作品《花千骨》問世位于下半年,所以在聲量上相比榜單其他明星有所欠缺;而他本人對商業代言選擇的謹慎態度,也對代言維度中的數據有所影響。而鐘漢良從年初有《何以笙簫默》,后續有《捉妖記》等作品,但只有《何以》是主角,整體維度的考量稍弱于其他明星。胡歌自從車禍淡出人們視線之后,直到今年下半年《瑯琊榜》、《偽裝者》等作品才得以成功霸屏。
所以綜合考慮四大維度,其結果可能有些“出乎意料”也就可以理解了。
明星對作品以及商業代言的謹慎選擇,雖然影響現下的整體數據維度統計分析,但對于未來的發展,以及口碑的建立卻是有極大好處的。優秀的作品或代言,是考量其商業價值以及網絡熱搜的重要一環,所以,你的優秀,大數據會如實的告訴你。
——李垠志,艾漫高級數據分析師
小眾民謠宋冬野奪冠
用“混沌”之作中的說法,2015年的音樂市場就是“新格局在破壁成型”,我們看到的是民謠類歌曲的扶搖直上。遑論一眾民謠歌手演出場地的升級,馬條、張磊的崛起,或是年末才姍姍來遲并填補了“年度神曲”空白的“大王叫我來巡山”;單就論音樂市場數據來源的零散,就很可能耗費數天的時間來整理。
雖然我們并不用提及《南山南》是有多膾炙人口,但要從全網范圍尋找能夠完成對應需求的數據,對于音樂主題來說實可謂“難上加難”。數據渠道零散且毫無規律可循,比如Live House的信息、音樂節落地活動的數據、演唱會的真實實況數據等均可能存在“查無出處”的問題。
比如如果我們來做類似的工作,在面對這種棘手的問題時,必須讓技術與分析緊密結合,先經過字段的合并與調整,然后才能進行處理工作。4天吧,這樣的數據量級,需要4天的時間。
——王宗龍,艾漫數據高級分析師
林青霞與周董話題熱榜分勝負
這里不妨先引出騰訊的結論,就是一線綜藝的“海淘”現象,排名靠前的國內綜藝幾乎都是是向韓國購買的版權,而其最終的結果在2015年末開始轉變為韓國的原創IP資源輸出殆盡之后,不得不輸出自己的藝人了;同時,國內的各個衛視開始同日本的同行眉來眼去了。
而網絡自制綜藝的水平與節目效果也在持續攀高,君不見越來越多的腕兒級角色已經向網絡自制綜藝拋出了橄欖枝?或者直白點說,這也是一個節目同明星之間互相借勢的雙贏局面。但這些依然不是我們要討論的重點。
網絡化與海淘行為勢必導致綜藝類數據抓取的需求量級成幾何倍數增長,這意味著此種數據的處理之精度與速度都必須保持一個同步的高水準。以衛視節目數據為例,涉及到的數據維度有播出時間,節目分類,是否引進,媒體聲量,公眾聲量等等。
同時面對綜藝當中眾多需要抓取及計算的需求時,往往需要將這些元素拆分為眾多小維度,并且與已有數據進行結合;而對于那些無法結合的,則要確定其數據源,提出具體的抓取需求及算法模型,再借助強大的技術加以處理分析。
——叢博陽 艾漫數據高級分析師
綜藝節目的網絡化海淘留下的便是這些繁雜的交叉數據維度,對于分析師和技術人員來說,無疑要將維度定義否定再否定,直至尋找到最為科學的數據維度以及大數據可視化呈現。于是就有了“再改就剁手”、“再改就切腹”、“再改就剁手+切腹”的豪言壯語,以及迫不得已的食言所導致的靈魂上的殘缺。
大數據是怎樣煉成的
對于一眾看客來說,大數據這個字眼也許并不生疏,但是它具體是如何煉成的,想來我們未必完全知曉。
大數據是一種既定的存在,你知與不知,它就在那里,每日都在積累成長;你了與不了,它的生成,就是蕓蕓眾生每一個動作的產物;只不過在有誰站出來梳理出它的邏輯之前,我們很難發現它的價值所在。而像艾漫數據這種企業的工作,就是給予大數據一個秩序化、并從中挖掘出價值的過程。
這個過程被艾漫這些極具社會主義藝術與人文氣息的技術達人與分析師們歸納為兩個部分:代表科技的大數據挖掘技術與自然語言理解技術,以及代表藝術的娛樂行業背景知識,科技與藝術水乳交融,產生化學裂變形成了娛樂白皮書。
如騰訊的“混沌”之作,在其數據的抓取層面大致可能分為以下幾個步驟:
首先,對數據進行多維度和多層次的建模與計算,在娛樂知識圖譜的基礎上深度挖掘各種娛樂對象并洞察娛樂行業發展態勢。這是一個對互聯網信息進行全方位獲取的過程。這包括了對歷史數據的追蹤以及掌控這些數據的歷史規律從而尋找其中的變化趨勢。
這種數據的抓取,相較傳統的類似抽樣調研的模式來說,有兩個優勢:根據實際需求隨時調整抓取的數據維度,以及靈活制定個性化的分析維度,從而得以展現更加豐富的大數據分析結果。
其次,是借助人工智能技術和機器學習算法來深入理解被獲取到的文本的語義,并采用分類、聚類、抽取技術,深度挖掘標的物的內涵和外延,深度探索其中的語義關聯。
以艾漫數據的做法為例,傳統公司一般采用關鍵字過濾的方式實現對目標實體的監測,為了提高數據匹配準確度,你可能會為標的物添加限定詞,但是這種方式會漏掉大量的數據,無法保證召回率。而艾漫可以做到深度探索對象之間的關聯,并理解文本,做到真正認知,而不再是簡單的關鍵字匹配。
利用分布式架構,使自然語言處理算法輕松應對海量數據并實現高效分析;這項技術確保了娛樂對象的精準識別,能夠保證所有分析維度精準對應到娛樂對象。
——岳耀彪,艾漫數據平臺部經理
大數據的出現,在本質上雖然由來已久,但就好比宇宙中無序的混沌與無邊的黑暗,一直未有泰坦出現,無人耕耘。而像艾漫數據如今正在從事的,將之理解為以娛樂產業的變革者與先行者,也就不為過了罷。
盤古創世,以眼做日月,由此,世界便有了光明。
關于艾漫數據
寫到這里,我們想添些筆墨給艾漫,一是對于幫我們解讀騰訊大作背后的那些繁雜工作的艾漫表示感謝;二是八一八這家成立僅3年的企業,緣何對大數據緣何如此門兒清。
它用數據全程支持今年這部騰訊娛樂大作《混沌之后,偉大之前》,也是2014年《騰訊娛樂白皮書》的獨家數據合作方;2014年安徽衛視《國劇盛典》數據支持;2014年《南都娛樂周刊》盛典數據支持;2015年東方衛視《風從東方來》數據支持;并為《無問西東》、《心花路放》、《深海挑戰》、《小時代》等電影提供數據支持。