国产露脸精品国产沙发|极品妇被弄得99久九精品亚洲|亚洲va成精品在线播放人|日韩精品久久久免费观看

    
    

        <delect id="w59je"></delect>

            當前位置:首頁 > 世界杯資訊 > 正文內容

            給大家科普一下安信6娛樂多(2022已更新(今日/知乎)

            杏彩體育2年前 (2023-01-01)世界杯資訊31

            分享嘉賓:王璐 斗魚 算法專家

            編輯整理:婁政宇

            出品平臺:DataFunTalk

            導讀:斗魚作為個人直播平臺,長期以來除了普遍存在的灰黑產,虛假流量也是流量風控的重災區(qū)。本文將介紹圖算法在斗魚反作弊中的業(yè)務實踐,主要內容包括

            斗魚流量風控業(yè)務場景

            斗魚圖算法體系

            圖算法風控建模

            模型實戰(zhàn)

            01斗魚流量風控場景介紹

            斗魚的場景比較特殊,因為其風控業(yè)務面對的主體大部分是主播。對于主播,實際上會有一些虛假的流量,表面上看虛假流量可以提高主播的排面,實際上主播也可能會通過這些流量獲得很多的利益。比如,在薪酬上或者榜單上都會有一定的體現(xiàn)。所以這一塊的虛假流量是我們平臺上相對的一個重災區(qū),這里列舉了灰黑產刷的比較多的幾塊內容,一個就是主播的人氣,一個是主播的關注,還有主播的經驗,以及還有掛貴賓這幾塊。其他的斗魚的場景,比如一些營銷活動、拉新活動,實際上也是有相關的,這些則是所有平臺上會共同面臨的一些問題,這次分享主要就是怎樣通過圖算法去識別這種刷流量的黑產。

            02斗魚圖算法體系

            這里從整體框架和算法演進的過程介紹斗魚的圖算法的體系。

            1. 圖算法整體架構

            上圖就是目前我們的圖算法的整體架構。最底層是圖的一些算子,這些算子包含圖的最基本的一些操作,如鄰居采樣、隨機游走和子圖抽取等,我們在底層會做這些算子的開發(fā)和效率的優(yōu)化,在有了這些算子之后,在算子上面就是一些標準的圖算法,比如在圖的構建這一塊,現(xiàn)在有基于知識圖譜的圖的構建和基于行為同步性的圖構建,還有通過KNN的方式去做臨近圖的構建。在圖傳播方面包括常用的標簽傳播算法,在圖分割方面包括聯(lián)通子圖、高位子圖和涉及發(fā)現(xiàn)的一些算法。在圖嵌入方面主要是節(jié)點的插入,有基于拓撲結構的Node2Vec、加入屬性信息的EGES、還有通過標簽信息和隨機性共同考慮去做的圖剪輯的算法。現(xiàn)在圖算法的應用在斗魚場景主要就是風控這一塊。風控這一塊主要運用場景就是做黑產的團伙的挖掘。另外應用方向是會做一些圖Embedding,并將它的結果會作為特征去輸入到下游的一些其他任務中。另外,在推薦場景下,我們也有一些圖上推薦向量召回的應用。以上就是目前我們圖算法的框架。

            2. 斗魚圖算法的演進

            斗魚圖算法是從2018年開始做的,2018年時實際上采用的是一些比較基礎的圖分割的算法。比如連通圖、數(shù)據(jù)發(fā)現(xiàn)、標簽傳播等。這些算法在當時具有一定效果,但是在往后延伸之后,就發(fā)現(xiàn)這些傳統(tǒng)的圖算法存在一些問題,例如過于依賴圖的構造,如果圖沒有建好或者圖的信息被黑產篡改了,會嚴重影響算法的效果。第二個問題是在做圖割的過程中這些算法比較簡單。它們主要考慮的是節(jié)點與節(jié)點連接的緊密性,但實際上如果只根據(jù)這一點去做這圖割,那么最終的結果是不可控的。常見的問題就是切出來的團伙,要么粒度過小,要么粒度過大,要么沒法解釋。所以在這個傳統(tǒng)圖算法做好之后,要去后置很多規(guī)則,這樣的弊端就是我們會損失很多有問題的團伙,但只能抓住一些有明顯問題的團伙?;谝陨蠁栴},我們在2019年時一個方面去豐富構圖方法,因為那之前的各種算法大多為直接的關聯(lián),如用戶喜歡什么設備這種非常直接的關聯(lián),但豐富構圖方法的主要目的是說去挖掘一些更隱性的關聯(lián)。比如我們通過這種知識圖譜的推理,從而去建立新的實體與實體之間的關聯(lián)。或者采用一些相似度的方式去度量原本沒有強關聯(lián)的節(jié)點,然后我們給他一些虛擬的關聯(lián)。所以通過豐富構圖算法,可以建立更多的節(jié)點與節(jié)點之間的聯(lián)系。相當于能納入我們這個算法的節(jié)點會更多,另一點我們會去做一些圖的表征學習。那么做圖的表征學習其優(yōu)勢就在于相當于它的信息會更好的融合,而且我們能更方便的融入一些如節(jié)點的屬性信息等,因此,我們不用只去依靠這個邊的一些強度的信息。這樣可以提高識別的覆蓋率,但即便如此,我們還是繞不開圖的構造的問題,即使用這種相似度的方式去構造一個圖,但其業(yè)務含義并不強。另外如果采取這種表征學習,實際上在后續(xù)劃分出的團伙后還是會面臨可行性的問題。另外在這個階段也會出現(xiàn)其他的問題,比如業(yè)務方反饋得到團伙整體沒問題,但是會發(fā)現(xiàn)其中有少量個體和這個團體整體的特征有一些出入,而且這些個體可能是充值或者等級比較高的,那基本就是一個誤殺,所以基于上面這幾點,我們在2020年時候就去做了全場景團伙挖掘的算法。這個算法相當于我們把整個場景都串聯(lián)起來了,而非單場景的,因為團伙的作案可能是多場景的一個流竄作案,那么單場景使用的信息必然就是一個單場景的信息使用。這樣可以提高信息的整體使用效率。并且通過一些手段能夠比較好地去避免一些明顯的誤殺,并且能夠提供非常準確的可解釋性。所以后面在講實踐應用的時候,會具體講自研的全場景挖掘算法,它具體是怎么做的。

            03圖算法風控建模

            1. 采用圖算法做流量反作弊的優(yōu)勢

            用圖去做流量反作弊優(yōu)勢有這樣幾點,一方面如前面我們所說的斗魚場景中有很多主播刷量的場景,這種就很可能是一個黑產團伙的行為,他需要在規(guī)定的時間內去完成這樣一個任務。所以無論這個黑產如何去規(guī)避他的一些行為,這種聚集性和關鍵性是很難去逃脫的,除非他刷單的效率很低。此外只要是在規(guī)定時間內需要達到一定目標的話,他必然是一個頻繁聚集的。關鍵性的操作就會很多,表現(xiàn)在圖上就可以完美的去描述這樣的一個特征,所以圖跟黑產作案的特征是非常契合的。另外除了特征,圖算法對新的攻擊的抗性會比較高。因為圖的特征它并不像統(tǒng)計的特征那么少,可能很快就會被黑產摸清楚是什么的指標或者閾值,圖的拓撲結構就讓人很難去發(fā)覺就是個究竟是哪一塊操作被識別到了。所以用圖來做流量反作弊的話是有很強的魯棒性的。第三個方面就是圖可以對關系數(shù)據(jù)做一些描述。關系數(shù)據(jù)不同于我們平常的一些統(tǒng)計數(shù)據(jù),它實際上是有一些統(tǒng)計特征在里面的。除了圖算法之外其他模型對關系數(shù)據(jù)的利用和處理都相對復雜一些。所以基于這三點,我們會選擇圖算法,作為流量反作弊的運用。

            2. 圖算法風控建模流程

            一般的圖算法在風控場景的建模的流程可以分成四大塊。

            ① 圖構建

            圖構建有兩個關鍵點,一個是定義節(jié)點。節(jié)點一定是我們需要挖掘的一些實體。最簡單就是賬號或者設備,當然在演進過程中也可以去加入一些虛擬的節(jié)點。也可以加一些和實體相關或者輔助識別的實體作為節(jié)點。邊的生成也就是構圖階段,我們最初的生成方法是采取一些直接的行為,之后我們做了一些構圖上的優(yōu)化,所以邊的生成方式有很多種。比如通過圖譜關系的推理,實際上是基于現(xiàn)有的聯(lián)系做推理,第二種是基于同步性,如果我們發(fā)現(xiàn)這兩個實體在行為上具有非常強的一個時間上的同步性,那么我們也會認為這兩個實體之間有一個邊的關聯(lián)。最后一種是基于實體Embedding表示,先對實體做Embedding表示,然后通過ANN的近似鄰居的搜索把向量接近的節(jié)點去生成邊。

            圖的構建方式是非常多樣的,圖的算法做異常挖掘在這一步實際上是最為重要的。定義好一個圖就非常具有業(yè)務含義,然后也能跟黑產的作案方式相契合。那么后面的算法才會有一定的效果,否則后面做的再花哨也是沒有用的。

            ② 圖算法任務

            圖算法實際上要基于具體業(yè)務場景,做不同的圖算法,第一種是做圖的有監(jiān)督學習,第二種是做圖的無監(jiān)督學習,這種在業(yè)務中更為可控的,因為作圖的無監(jiān)督學習,第一它不需要任何的標簽的信息。第二它的可解釋性比有監(jiān)督學習的更好。所以圖的無監(jiān)督學習在我們場景中一般會去用于黑產團伙的發(fā)現(xiàn)。第三個是圖表征學習,就是節(jié)點的Embedding向量,可以作為一個圖的特征輸入到賬號的風險評估模型中去。

            ③ 可解釋性

            可解釋性在風控領域非常重要,無論是誤殺的排查,還是將模型交付給這個業(yè)務方的可信度。這里常見的有三種做法,第一種是去統(tǒng)計挖掘的團伙的一些統(tǒng)計指標,如白用戶的占比、平均等級等。第二種是通過圖結構/實體向量表征去做衍生特征例如在排查某個賬號實體可以通過他的k階的鄰居節(jié)點,通過k階鄰居節(jié)點的信息去做統(tǒng)計,然后衍生節(jié)點的統(tǒng)計指標作為檢驗它的一個指標,這樣就可以反映待排查的節(jié)點跟其他節(jié)點的關系。第三種是一個通過聚集性信息去描述,通過圖做無監(jiān)督的學習最后的落腳點還是在聚集性上,所以如果我們把聚集性這個信息詳細的描述出來,那實際上無論懂不懂這個模型,都能一眼看出這個團伙是不是有問題?所以其實這個信息對可解釋性來講的話是非常重要的。比如這個團伙中有百分之多少的成員具有某一類相同的特征,或者是這一個團伙中有百分之多少的賬號,他在某個時間段內有相同的行為,這種類似的行為描述。

            ④ 業(yè)務應用

            業(yè)務應用現(xiàn)在團伙圖這一塊的團伙的應用主要有三大塊。第一是團伙的事前攔截,在團伙有少量賬號作案時根據(jù)識別的情況將團伙其他的賬號做一個事前的攔截。第二塊是團伙作案后的處置,第三塊是做風險評分,圖表征的Embedding向量會作為關系特征輸入到風險評分中。

            04模型實戰(zhàn)

            1. 實戰(zhàn)案例一:序列x圖的團伙識別

            這個案例中將序列和圖這兩塊做了聯(lián)合的建模,去挖掘序列上有風險的團伙。生成系列的方式是事件基礎信息的拼接,把這個事件的id和主播的id做一個拼接,作為序列的一個節(jié)點。然后把每個用戶按這樣的方式,根據(jù)時間戳做一個串聯(lián),在這生成了一個事件的行為序列。第二步是在這個基礎上,做各個事件的embedding,這里有兩種方式,第一種w2v,只考慮事件的前后信息,在不引入其他的信息。第二種是EGES,可以添加一些別的屬性信息,對于序列整體的embedding,我們采用了SIF的方式,這種方法有兩個優(yōu)勢,一個是調換序列中兩個節(jié)點的順序,結果不變,第二個是這種方法考慮了主成分分解的思想。在得到序列的向量表征之后我們將整個系列作為一個節(jié)點用ANN的方式做圖的構建,最后通過連通子圖的方式做相似系列的挖掘,挖掘好之后采取序列模式頻繁拆取的方法最終可以將頻繁的系列模式識別出來,以上圖為例,我們識別出的刷人氣的團伙在多個直播間來回觀看,上圖刷經驗的團伙在同一個直播間內用了不同的方式來給主播刷經驗。最終可以清楚的看到這些團伙是如何作案的。

            2. 實戰(zhàn)案例二:全場景刷量團伙挖掘

            第二個例子是前面提到一個全場景團伙發(fā)現(xiàn)的模型,這個模型首先是會確定特征,第二步會先定義特征距離的計算方式,針對每一類特征給出一個距離計算的方式,之后我們會根據(jù)每個特征的不同取值的去生成單特征的初始團伙,這里的思想是把每個單特征生成的這個整體看成一個節(jié)點。然后我們會定義團伙的距離,把相近的團伙做一個合并生成一個新的團伙,之后,我們會去計算這個團伙的畫像,團伙的畫像是指團伙中一些指標的占比。比如一個注冊來源,賬號占比是0.9,這個占比可以作為一個權重參與之后的計算,之后我們采取了metric learning的方式去度量特征的權重。然后我們會剔除與團伙發(fā)現(xiàn)差異比較大的賬號。

            小結一下,這個算法有四點比較重要,第一點是特征可擴展,可以不斷的去生成一些新的特征。無論在業(yè)務上有什么樣的經驗,我們都可以迅速的把經驗給加到模型里面去。第二點是單特征團伙可以做自我的學習,如之前所說的圖算法應用在風控的一個難點就是構圖比較難,這種方式避免了我們去強構圖。通過自我學習,是在做一個自己學習的構圖。第三點是防誤殺,團伙中的一些成員跟團伙整體有一定的差異,整體是沒有問題的,但是個別是有問題的。那這個時候我們通過這種防誤殺的方式從團體中剔除從而解決這個問題。第四點是做了特征權重的metric learning,這里我們用了度量學習的方式,我們會有會有一些已知的樣本賬號生成一個樣本堆,如果在同樣一個團伙中,那么這個樣本堆相當于是一個正樣本,如果是在不同的或者是我們做通過負采樣生成的樣本堆,那就是一個負樣本,實際上如果這個權重學的好的話,那正樣本的相似度會比較高。負樣本堆的相似度會比較低,針對這個我們會去生成一個最優(yōu)化問題,通過這個最優(yōu)化問題去手寫特征的權重。

            05

            總結

            綜上,我們將所有場景的信息納入到一個模型中,不需要再針對單個場景去做建模。自我學習和防誤殺的兩個機制,保證了生成團伙的準確性,并且因為我們生成的團伙來源于基礎特征,所以通過團伙的特征取值可以迅速的生成團伙的可解釋性,最終相當于我們把從傳統(tǒng)的圖算法演化成了現(xiàn)在的形式,目前的形式在我們的業(yè)務中取得了非常顯著的效果。

            今天的分享就到這里,謝謝大家。

            在文末分享、點贊、在看,給個3連擊唄~

            分享嘉賓:

            社群推薦:歡迎加入 DataFunTalk 風控算法 交流群,跟同行零距離交流。識別二維碼,添加小助手微信,入群。

            關于我們:

            DataFunTalk 專注于大數(shù)據(jù)、人工智能技術應用的分享與交流。發(fā)起于2017年,在北京、上海、深圳、杭州等城市舉辦超過100+線下和100+線上沙龍、論壇及峰會,已邀請近1000位專家和學者參與分享。其公眾號 DataFunTalk 累計生產原創(chuàng)文章400+,百萬+閱讀,10萬+精準粉絲。

            ??分享、點贊、在看,給個3連擊唄!??

            掃描二維碼推送至手機訪問。

            版權聲明:本文由財神資訊-領先的體育資訊互動媒體轉載發(fā)布,如需刪除請聯(lián)系。

            本文鏈接:http://thecityplacetownhomes.com/?id=22820

            分享給朋友:

            “給大家科普一下安信6娛樂多(2022已更新(今日/知乎)” 的相關文章

            給大家科普一下可以在網(wǎng)上買世界杯的軟件(2022已更新(今日/知乎)

            原標題:《網(wǎng)球王子》播出13年,演員現(xiàn)狀大不同,配角都火了,男主卻不行 離開《愛情公寓》的王傳君在影視圈的發(fā)展可以說是越來越好,逐漸擺脫“關谷神奇”的影子。先是靠著《我不是藥神》中的疾病纏身小市民火的一塌糊涂,后又與王珞丹合作《不老奇事》。 作為一個有野心的演員,他也一直...

            給大家科普一下世界杯2022怎么買比賽(2022已更新(今日/知乎)

            給大家科普一下世界杯2022怎么買比賽(2022已更新(今日/知乎)

            點上方“足球比分預測”→點右上角“...”→選“星標★”,星標置頂看最新分析,蘋果是星標,安卓是置頂。《11/09 今日公推》 意甲  萊切vs亞特蘭大   掃碼領取 意甲  薩索洛vs羅馬  掃碼領取 德...

            給大家科普一下世界杯2022怎么買贏(2022已更新(今日/知乎)

            給大家科普一下世界杯2022怎么買贏(2022已更新(今日/知乎)

            北京時間6月1日凌晨0:00,德甲聯(lián)賽第29輪,多特蒙德在客場對陣帕德博恩。上半場,雙方均未能攻破對方大門,半場兩隊0-0戰(zhàn)平;下半場,多特逐漸找到狀態(tài),小阿扎爾破門,桑喬貢獻帽...

            給大家科普一下2021歐洲杯買球怎么買(2022已更新(今日/知乎)

            給大家科普一下2021歐洲杯買球怎么買(2022已更新(今日/知乎)

            U20世界杯十一月 10日 大家晚上好,昨天公眾號上推薦的比賽遺憾遭遇連黑,還好晚場微信上的推薦成功拿下連紅,今晚繼續(xù)分享兩場比賽,期待今晚的推薦能夠拿下雙紅。 注:智多星不管成績如何,哪怕紅到爆炸或者黑成翔,成績永遠是為大家真實公開的!智多星做...

            給大家科普一下世界杯哪里買正規(guī)球隊(2022已更新(今日/知乎)

            給大家科普一下世界杯哪里買正規(guī)球隊(2022已更新(今日/知乎)

            在足球彩票競猜中,相信許多彩民都采用了特殊的投注方法。當兩支球隊的實力接近時,很容易兩隊打出平局,或者很難分析球隊可以成功贏得比賽的情況。結合雙選競彩策略(以下簡稱雙平)。這種雙層下注方法是足球彩票的一項主要功能。與普通的投注方式相比,它具有特殊的優(yōu)勢。任何投注方法都有它的好處和弊端,足彩...

            給大家科普一下買世界杯球賽的軟件(2022已更新(今日/知乎)

            給大家科普一下買世界杯球賽的軟件(2022已更新(今日/知乎)

            還有不到12個小時,2022卡塔爾世界杯就將吹響開場哨,球迷們翹首以盼的大戲終于要上演。除了在電視機前看球,世界杯的還有很多“玩”法,根據(jù)中國體育彩票的銷售安排,本屆世界杯全部64場比賽都將作為競彩足球游戲的競猜...

            ?