国产露脸精品国产沙发|极品妇被弄得99久九精品亚洲|亚洲va成精品在线播放人|日韩精品久久久免费观看

    
    

        <delect id="w59je"></delect>

            當(dāng)前位置:首頁(yè) > 籃球資訊 > 正文內(nèi)容

            給大家科普一下在哪里買世界杯球賽輸贏票(2022已更新(今日/知乎)

            杏彩體育2年前 (2022-11-30)籃球資訊123

            1. 前言

            在互聯(lián)網(wǎng)這個(gè)汪洋大海中,有一個(gè)網(wǎng)站叫虎撲,據(jù)稱“可能是最好的籃球網(wǎng)站”。虎撲以“濕乎乎板塊”為核心,集聚了大量的籃球運(yùn)動(dòng)愛(ài)好者。就像“濕乎乎”的字面意思一樣,虎撲里時(shí)不時(shí)會(huì)因?yàn)闊狳c(diǎn)實(shí)現(xiàn)事件、話題掀起海嘯一般的唾沫星子——這都是JRs爭(zhēng)論時(shí)噴出來(lái)的。以前,這個(gè)網(wǎng)站里有很多清涼圖片,年少的我每天逛得樂(lè)不思蜀。后來(lái),虎撲好像要做個(gè)好人,主要呈現(xiàn)體育運(yùn)動(dòng)相關(guān)相關(guān)信息,沒(méi)有啥刺激性內(nèi)容了。

            作為一個(gè)老JR,我在開放區(qū)、步行街、濕乎乎潛行十幾年,發(fā)現(xiàn)大家最喜歡的話題,莫過(guò)于“誰(shuí)是最XX的”。假如說(shuō),我發(fā)一個(gè)帖子問(wèn)“姚明是當(dāng)時(shí)最厲害的中鋒嗎”,估計(jì)58秒內(nèi)會(huì)有4000個(gè)JRs提著40米的大刀前來(lái)發(fā)言。“最XX”的話題中,最讓人欲罷不能的,當(dāng)屬“誰(shuí)是最紅的巨星”、“誰(shuí)是籃球界的門面”這類討論。由于大家沒(méi)有具體的數(shù)據(jù),只能憑感覺(jué)比較或者基于簡(jiǎn)介數(shù)據(jù)來(lái)佐證,這種討論沒(méi)辦法得出令所有人性福的結(jié)論。

            作為一個(gè)做NLP算法的JR,我利用手上的技能和工具,對(duì)虎撲最近若干個(gè)月的所有帖子(各大板塊的3160340個(gè)主貼和128162300個(gè)跟帖)進(jìn)行了簡(jiǎn)單的統(tǒng)計(jì),試圖給大家伙一個(gè)參考。我是這么做的:識(shí)別所有帖子中的人名,并統(tǒng)計(jì)每個(gè)人名的出現(xiàn)次數(shù),然后直接以名字的頻數(shù)作為對(duì)應(yīng)球員的熱度。這里使用的NER和分詞算法都來(lái)自阿帕比技術(shù)公司開發(fā)的NLP工具包。

            本文的主要內(nèi)容是:首先介紹文本的目的和意義;然后直接給出結(jié)論,即誰(shuí)是最火的籃球運(yùn)動(dòng)員;接著介紹從數(shù)據(jù)獲取到得出結(jié)論的整個(gè)過(guò)程,包括必要的軟件系統(tǒng)設(shè)計(jì)與開發(fā)、數(shù)據(jù)的基本情況和數(shù)據(jù)統(tǒng)計(jì)的具體方法,以說(shuō)明結(jié)論的合理性。

            2. 目的和意義

            我做這個(gè)分析的首要目的,是想調(diào)查一下,中國(guó)男子職業(yè)籃球聯(lián)賽(China Basketball Association, CBA)在國(guó)內(nèi)的受眾廣度。另外,我也想知道CBA的發(fā)展階段,比如相比NBA,其受眾廣度的大小。這是好奇心驅(qū)動(dòng)的一個(gè)項(xiàng)目。

            其次,在這個(gè)過(guò)程中,把數(shù)據(jù)采集、目標(biāo)范圍定義、數(shù)據(jù)清洗、建模、可視化等等環(huán)節(jié)——都玩耍一下。是的,工作一般來(lái)說(shuō)比較枯燥,各種形式的玩??梢哉{(diào)劑一下。

            再次,我需要一個(gè)形式,把目前的思維方式、方法論、技術(shù)水平等等記錄下來(lái),以便以后復(fù)盤和優(yōu)化。

            最后,這種分享行為是學(xué)術(shù)公益活動(dòng)的一種,可以幫很多需要入門的人避免踩坑。

            3. 誰(shuí)是虎撲籃球熱度南波萬(wàn)

            在虎撲,誰(shuí)是最火的籃球運(yùn)動(dòng)員?是無(wú)極尊嗎?廢話少說(shuō),先上結(jié)論。

            3.1. 中美籃球職業(yè)籃球運(yùn)動(dòng)員熱度排行榜

            3.1.1. 中美明星球員熱度比較

            如表3-1,是中國(guó)職業(yè)男子籃球聯(lián)賽和美國(guó)職業(yè)男子籃球聯(lián)賽本賽季注冊(cè)運(yùn)動(dòng)員的熱度排行前20名(可視為中美籃球明星)。中美籃球明星榜被美職籃球員統(tǒng)治了——只有4位CBA球員進(jìn)入了這個(gè)榜單,他們是新疆飛虎隊(duì)的周琦、廣東華南虎隊(duì)的易建聯(lián)、遼寧飛豹隊(duì)的郭艾倫和北京鴨隊(duì)的林書豪。

            表 3-1中美現(xiàn)役籃球運(yùn)動(dòng)員熱度排行top 20

            從明星球員的公司情況可以看出,在虎撲網(wǎng),中職籃明星球員的熱度大幅度地低于美職籃明星球員。按理說(shuō),虎撲作為一個(gè)中文體育網(wǎng)站,是我們的主場(chǎng),中職籃應(yīng)該向朱芳雨一樣,輕輕松松“一拳打開了天”,如圖3-1。實(shí)際情況是,美職籃依靠其更高的經(jīng)濟(jì)水平和觀賞性,以及更高的運(yùn)營(yíng)和推廣能力,統(tǒng)治了我們的主場(chǎng)。中職籃產(chǎn)生流量的能力水平其實(shí)是比較菜的,類似圖3-2。

            圖 3-1 朱8化身為龍(圖片來(lái)源http://mini.eastday.com/mobile/191023171648625.html)
            圖 3?2 我們的真實(shí)水平(圖片來(lái)源www.fabiaoqing.com)

            3.1.2. 中美普通球員熱度比較

            籃球是一項(xiàng)集體運(yùn)動(dòng),不只有璀璨的明星,更多的是普通球員。在中美的普通球員之間,有沒(méi)有類似明星球員那樣的熱度差距呢?如圖3-3,是中職籃和美職籃球員熱度的箱型圖。由于普通球員的熱度相對(duì)明星球員非常低,我的“箱子”被壓得非常扁,肉眼看不出來(lái)最廣大人民的情況。

            圖 3?3 中美球員熱度分布對(duì)比

            這時(shí)候,我們可以用直方圖來(lái)分析一下。如圖3-4,有4個(gè)子圖,其中左邊一列是中職籃和美職籃全體球員的熱度直方圖。我又截取了兩個(gè)聯(lián)盟里熱度值小于等于90分位數(shù)的球員數(shù)據(jù),形成了圖3-4里右邊一列子圖。

            圖3-4左邊一列子圖告訴我們,中職籃和美職籃都是明星當(dāng)?shù)溃贁?shù)高水平球員產(chǎn)生了絕大部分的熱度。剩下的都是默默無(wú)聞的普通球員。注意右邊一列子圖橫軸的取值范圍,中職籃的普通球員熱度,比美職籃的普通球員熱度低了一個(gè)數(shù)量級(jí)。

            看來(lái)我們和人家的差距,是全方位的。

            圖表 3?4 中美球員熱度直方圖

            總的來(lái)說(shuō),我國(guó)運(yùn)動(dòng)員的熱度,在一個(gè)國(guó)內(nèi)網(wǎng)友為主的論壇里,是低于美職籃運(yùn)動(dòng)員的。

            3.2. CBA人物熱度榜

            如表3-2,是中職籃球員的熱度排行。我已經(jīng)多年不看球了,這個(gè)榜單中的一小部分名字不熟、大部分球員不熟,只挑幾個(gè)熟悉的說(shuō)說(shuō)。周琦在CBA球員中的領(lǐng)先優(yōu)勢(shì),比“美國(guó)周琦”在NBA球員中的領(lǐng)先優(yōu)勢(shì)要大得多。易建聯(lián)、孫悅、周鵬這幾個(gè)老家伙,依然具有明星級(jí)別的熱度。其中易建聯(lián)依靠不懈的努力,依然具有頂尖的競(jìng)技水平。 林書豪作為當(dāng)年在NBA的“黃人之光”,受到了極高的關(guān)注。到了CBA,他直接成為聯(lián)盟里最火熱的球星。從這里也能看出我們的聯(lián)賽,在推廣方面,可以提升的空間還是很大的。小霸王斯塔德邁爾依靠在美職籃的野獸派+技術(shù)流打法,有著不錯(cuò)的人氣,也進(jìn)入了前20。

            有個(gè)現(xiàn)象還是挺好的。這里絕大部分是我們的本土球員,說(shuō)明大家關(guān)注的,主要還是自己人。不論水平如何,咱們對(duì)國(guó)內(nèi)球員的支持還是一如既往,希望依靠自己人來(lái)提升我國(guó)籃球的競(jìng)技水平。

            中職籃和美職籃這兩個(gè)商業(yè)體育賽事的熱度,主要還是靠明星球員來(lái)產(chǎn)生。人們圍繞這些明星球員創(chuàng)作了各種各樣的概念和梗,讓體育比賽更有故事性、從而進(jìn)入球迷的茶余飯后。作為一個(gè)產(chǎn)品,體育賽事的用戶粘性也就得到了提升。中職籃要加油了,我們的比賽、球員水平需要提升,讓球迷們感覺(jué)這是個(gè)具有美感的體育賽事;也需要用球隊(duì)文化、故事之類的東西包裝一下我們的球員,讓他們可以成為球迷們口頭禪的一部分。

            表 3-2 中職籃球員熱度排行top20

            3.3. NBA人物熱度榜

            如表3-3,是美職籃球員熱度排行榜。老詹球場(chǎng)上實(shí)力超群,場(chǎng)下也是“流量皇帝”,熱度值大幅領(lǐng)先于他的同事。據(jù)我所知,在濕乎乎里隨便發(fā)一個(gè)關(guān)于老詹的帖子,就可以收割曝光量了。雷霆三兄弟不光都成為了了最有價(jià)值球員,還都成了最具熱度球員。三弟的排行超過(guò)了大哥,看來(lái)好平臺(tái)的作用還是非常大的。萊昂納德依靠高超的技藝,和最近幾年的爭(zhēng)議性事件,也積累了極高的人氣,竟然能排在威少的前面,把雷霆仨兄弟給分開。

            這里有一個(gè)比較明顯的問(wèn)題,就是金州勇士隊(duì)的庫(kù)里沒(méi)有進(jìn)入top20。他的熱度竟然排在了第76位,不尋常。主要原因是我的球員名字?jǐn)?shù)據(jù)庫(kù)構(gòu)建的不完整,沒(méi)有收錄類似“庫(kù)日天”“庫(kù)昊”“小學(xué)生”“金州拉文”“萌庫(kù)”這樣的別稱。眾所周知,庫(kù)里的球迷特別喜歡為庫(kù)里其各種各樣的綽號(hào),比如用“庫(kù)日天”來(lái)表達(dá)對(duì)庫(kù)里精湛的投籃技術(shù)的贊美。漏掉了這些別稱的后果,就是這位球員的熱度被大大低估了。由于任務(wù)架構(gòu)設(shè)計(jì)失誤,沒(méi)有保存人名抽取的中間結(jié)果,再算一遍的成本抬高,我這里就不重算啦。

            表 3-3 美職籃球員熱度排行top20

            3.4. 特色球員簡(jiǎn)介

            我發(fā)現(xiàn)了虎撲里流量最高的籃球運(yùn)動(dòng)員,是時(shí)候蹭一波熱度了。這時(shí)候,我需要發(fā)揮比大師那種鉆研精神,好好地研究一下他們。

            說(shuō)什么最吸引流量呢?當(dāng)然是有爭(zhēng)議性的話題。這里就選最具爭(zhēng)議性的話題:球星的梗。

            3.4.1. 流量皇帝勒布朗-詹姆斯

            果然,詹姆斯在現(xiàn)役籃球運(yùn)動(dòng)員中,是熱度最高的。

            由于沒(méi)有統(tǒng)計(jì)退役球員的數(shù)據(jù),沒(méi)有考慮喬丹、科比這樣的流量達(dá)人,這里只能說(shuō)“現(xiàn)役”。

            如果這是篇學(xué)術(shù)論文,我會(huì)把詹姆斯的幾十個(gè)綽號(hào)全都收錄并展示出來(lái)。然而這是個(gè)“技術(shù)討論貼”,不利于大家團(tuán)結(jié)的內(nèi)容就不展示了(一些極端球迷使用了不和諧的措辭,給詹姆斯起了大量涉及人身攻擊的綽號(hào)),這里只展示圍繞生活和籃球的部分綽號(hào)。

            表3-4 詹姆斯的外號(hào)與梗

            如圖,我統(tǒng)計(jì)了老詹今年(實(shí)際是從2018年末開始,但是這個(gè)階段的數(shù)據(jù)缺失太多)3月份以來(lái),每一個(gè)周的熱度情況。由于代碼的bug,我的聚合操作,是按照“周五-下周四”這樣的時(shí)間范圍來(lái)做的。為了避免這幾臺(tái)機(jī)器的運(yùn)轉(zhuǎn),造成我家氣溫繼續(xù)上升,我決定不重算啦。統(tǒng)計(jì)的bug不影響曲線所要表達(dá)的內(nèi)容。

            今年湖人隊(duì)沒(méi)有進(jìn)入季后賽,所以老詹的熱度在相應(yīng)時(shí)間段里比較低,和“長(zhǎng)草期”差不多。七月份時(shí),老詹的熱度突然升高了一下。當(dāng)時(shí)濃眉哥快要轉(zhuǎn)會(huì)到湖人隊(duì),大家都在關(guān)注這支球隊(duì)、討論濃眉能否成功轉(zhuǎn)會(huì)。十月中下旬開始,由于新賽季馬上就要開始,老詹的熱度一下就上來(lái)了。

            可以說(shuō),球員的熱度主要依靠比賽帶來(lái)的曝光量來(lái)維持。

            圖 3?5 2019年老詹的熱度變化(每周)

            3.4.2. 男籃旗幟易建聯(lián)

            易建聯(lián)是中國(guó)男籃歷史上難得的一號(hào)人物,不論是國(guó)內(nèi)比賽,還是國(guó)際比賽,都能火力全開。當(dāng)然他從早期的一個(gè)身體素質(zhì)男,一步步成長(zhǎng)為后姚明時(shí)代的帶頭大哥,也是有一個(gè)過(guò)程的。

            表 3-5易建聯(lián)的外號(hào)和梗

            3.4.3. 奇男子克里斯-保羅

            這位奇男子,如圖3-6,在傳奇的職業(yè)生涯里,積累了無(wú)數(shù)名號(hào),如表3-6。如此之多的梗,足以體現(xiàn)廣大球迷對(duì)保羅的關(guān)注程度之高。

            圖 3?6 克里斯-保羅(圖片來(lái)源https://www.zhihu.com/question/321529580)

            表 3-6保羅的常見稱號(hào)

            4. 數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和開發(fā)

            知乎和虎撲都有點(diǎn)類似草榴社區(qū)的“技術(shù)討論區(qū)”,沒(méi)有干貨的人是混不開的。接下來(lái)是方法和技術(shù)方面的干貨。

            4.1. 任務(wù)需求分析

            為了知道誰(shuí)是虎撲籃球熱度第一人,我需要一份虎撲數(shù)據(jù),需要從數(shù)據(jù)中識(shí)別出命名實(shí)體并做簡(jiǎn)單的計(jì)數(shù)。為此,我需要3個(gè)工具:(1)一個(gè)用來(lái)獲取虎撲帖子數(shù)據(jù)的爬蟲;(2)一個(gè)用于從文本中抽取人的名字的工具;(3)一個(gè)用來(lái)對(duì)人名進(jìn)行個(gè)數(shù)統(tǒng)計(jì)和可視化的工具。如圖2-1,是用于完成任務(wù)的系統(tǒng)結(jié)構(gòu)。

            為了確保這個(gè)任務(wù)在可接受的時(shí)間內(nèi)結(jié)束,我需要估計(jì)一下各個(gè)環(huán)節(jié)的耗時(shí):

            (1) 數(shù)據(jù)獲取大概需要10天。這段時(shí)間里我可以開發(fā)調(diào)試命名實(shí)體識(shí)別環(huán)節(jié)和數(shù)據(jù)統(tǒng)計(jì)分析環(huán)節(jié)的代碼,并完成報(bào)告的大綱和部分內(nèi)容的撰寫。

            (2) 之后,就需要盡快完成命名實(shí)體識(shí)別任務(wù)。數(shù)據(jù)是2019年3月11日21點(diǎn)41分開始至XXXX的所有帖子,包括大約300萬(wàn)篇主貼加1.2億回帖(平均每個(gè)帖子里的回帖數(shù)量大約是40),總共約1.23億條數(shù)據(jù)。假設(shè)每條數(shù)據(jù)的處理速度是50毫秒,就需要兩個(gè)月。這怎么行,都跨年了。必須想辦法提升任務(wù)的并行度,降低耗時(shí)。

            (3) 剩下的就是一個(gè)頻率統(tǒng)計(jì)任務(wù),也許3秒就夠了。

            圖 4?1 數(shù)據(jù)處理系統(tǒng)結(jié)構(gòu)

            4.2. 爬蟲及獲取虎撲數(shù)據(jù)概況

            4.2.1. 爬蟲

            我是個(gè)野生的爬蟲選手,無(wú)力開發(fā)一套高水平的爬蟲,因此選擇依靠開源框架。這里選擇的是python的爬蟲類第三方庫(kù)中,最受歡迎的scrapy。

            還在學(xué)校的時(shí)候,我花了超過(guò)一個(gè)月的時(shí)間開發(fā)了一個(gè)用來(lái)下載虎撲數(shù)據(jù)的爬蟲。后來(lái)又對(duì)爬蟲做了幾次升級(jí)。然而2018年下半年,虎撲的頁(yè)面數(shù)據(jù)結(jié)構(gòu)發(fā)生了變動(dòng),我需要對(duì)爬蟲進(jìn)行大改。然而我是個(gè)打工仔,沒(méi)有那么多的時(shí)間搞這個(gè),只能作罷。后來(lái)聽同事軍偉大哥說(shuō),他基于scrapy開發(fā)爬蟲可順手了,于是我也調(diào)研了一下。果然是真香——過(guò)年的時(shí)候,我一邊陪孩子玩,一邊從零開始重寫,不到一個(gè)禮拜就完工了。當(dāng)然了,這里還需要感謝lxml這個(gè)庫(kù),它通過(guò)支持xpath語(yǔ)法,極大地減少了我們解析html的工作量。

            爬蟲的結(jié)構(gòu)非常簡(jiǎn)單:獲取數(shù)據(jù),然后存到mongo中。由于不清楚分享爬蟲代碼算不算違法,代碼就不分享了。

            獲取的數(shù)據(jù)包括兩部分:帖子的主貼和對(duì)應(yīng)的回帖。

            4.2.2. 虎撲帖子文本數(shù)據(jù)基本情況

            如表4-1,是爬蟲獲取到的數(shù)據(jù)概況。可能虎撲數(shù)據(jù)庫(kù)的content字段類型為varchar,最大長(zhǎng)度為19999,因此主貼和跟帖的最大長(zhǎng)度接近或等于這個(gè)數(shù)。

            主貼字?jǐn)?shù)的中位數(shù)是66,說(shuō)明大家發(fā)帖的時(shí)候,還是比較勤快的,為了闡述自己的想法或者疑問(wèn),愿意費(fèi)一點(diǎn)口舌。

            跟帖的字?jǐn)?shù)中位數(shù)是19,說(shuō)明JRs喜歡一句話解決戰(zhàn)斗。據(jù)我目測(cè),濕乎乎的網(wǎng)友說(shuō)話很少能到這個(gè)字?jǐn)?shù)。

            表 4-1 數(shù)據(jù)獲取結(jié)果概況

            4.3. 命名實(shí)體識(shí)別工具

            4.3.1. 選擇一個(gè)合適的人名識(shí)別方法

            文本中的人名識(shí)別,是命名實(shí)體識(shí)別任務(wù)的一種具體情形,可以使用NER的方法來(lái)實(shí)現(xiàn)。這是一個(gè)典型的計(jì)算密集型任務(wù),最好使用Spark這樣 分布式框架來(lái)處理數(shù)據(jù)量較大的情況。不過(guò)呢,我的Hadoop集群已經(jīng)被自己弄壞了,恢復(fù)起來(lái)需要一段時(shí)間,修完也就跨年了。因此,這里使用了一個(gè)搭建

            NER方案的制定過(guò)程說(shuō)來(lái)話長(zhǎng),放在第5部分。

            4.3.2. 用HTTP服務(wù)封裝NER模型

            前面提到,NER環(huán)節(jié)的耗時(shí)會(huì)非常長(zhǎng),需要想辦法提升并行度。由于模型加載到內(nèi)存里需要占大約500兆的內(nèi)存,24G內(nèi)存里最多放48個(gè)進(jìn)程,也就是最快24小時(shí)可以完成計(jì)算——不過(guò)CPU核心數(shù)只有8,進(jìn)程再多也沒(méi)用。因此,我這個(gè)估算是極度樂(lè)觀的,實(shí)際操作中的耗時(shí)肯定遠(yuǎn)遠(yuǎn)超過(guò)24小時(shí),而且不可控。

            為了保證任務(wù)耗時(shí)可控,我決定用一個(gè)簡(jiǎn)單的分布式架構(gòu)來(lái)處理這些數(shù)據(jù):在僅有的3臺(tái)機(jī)器上部署NER服務(wù),然后并發(fā)地、以一個(gè)設(shè)計(jì)好的概率分布調(diào)用集群?,F(xiàn)在的資源是:24G+16G+8G=48G,8+12+24=44個(gè)CPU核心。這樣,一秒鐘可以處理約4500篇個(gè)文檔,一天就是”2億”,應(yīng)該是夠了。樂(lè)觀情況下,半天計(jì)算完畢。如果實(shí)際情況不樂(lè)觀,那就把家里的筆記本也加到集群里。分布式架構(gòu)的可擴(kuò)展性還是挺有幫助。

            經(jīng)過(guò)仔細(xì)優(yōu)化的集群,實(shí)際用了8個(gè)小時(shí)就處理完全部數(shù)據(jù)。當(dāng)時(shí)我家室內(nèi)氣溫明顯上升。

            5. 人名識(shí)別方案

            用來(lái)識(shí)別文本中的人名方法非常多,可以參考

            統(tǒng)計(jì)人名頻數(shù)任務(wù)看起來(lái)是最簡(jiǎn)單的任務(wù),實(shí)際上是我花時(shí)間最多的一個(gè)環(huán)節(jié)。

            我需要回答一個(gè)問(wèn)題:如何判斷文本中的一個(gè)字符串是否為人名。我的“答案”經(jīng)過(guò)多次修改,終于成熟了。

            當(dāng)然,“真理”是值得追求的。在這個(gè)任務(wù)中,我只能在成本允許的情況下盡量接近他啦。

            5.1. 初步的人名統(tǒng)計(jì)方法

            一開始的時(shí)候,我選擇的是一個(gè)基于神經(jīng)網(wǎng)路的NER模型。使用神經(jīng)網(wǎng)絡(luò)的原因主要是兩個(gè):首先是我已經(jīng)有一個(gè)成熟的NER模型了;其次,神經(jīng)網(wǎng)絡(luò)高級(jí)啊,說(shuō)起來(lái)倍兒有面子。

            這個(gè)模型是阿帕比技術(shù)公司自己開發(fā)NLP工具集中的一個(gè)模塊,如果想體驗(yàn)這個(gè)模型,可以到這里看一下:

            。這個(gè)模型對(duì)中文人名、音譯人名的識(shí)別能力非常強(qiáng),F(xiàn)1-score超過(guò)了0.9。由于訓(xùn)練語(yǔ)料里沒(méi)有外文人名,我的模型無(wú)法識(shí)別“Yao Ming”這樣的外文人名。這里選擇忽略所有沒(méi)有以中文表達(dá)的人名。這樣做的損失是比較小的——虎撲里活躍的絕大部分人是中國(guó)人,極少使用外文來(lái)稱呼一個(gè)人,比如我們很少稱呼邁克爾-喬丹為“Jordan”(一般是喬丹、幫主、籃球之神、GOAT等)。

            我用一份比較小的數(shù)據(jù)進(jìn)行了人名統(tǒng)計(jì)。在看統(tǒng)計(jì)結(jié)果的時(shí)候,我發(fā)現(xiàn)機(jī)器找出來(lái)的人名中,絕大部分不是籃球運(yùn)動(dòng)員——難不成還要把這幾百個(gè)人的頻數(shù)挑出來(lái)?

            這樣做的成本有點(diǎn)高,而且萬(wàn)一數(shù)據(jù)處理流程有Bug、需要重新計(jì)算一遍,成本會(huì)更高。另外,基于神經(jīng)網(wǎng)絡(luò)的模型計(jì)算效率太低了,處理完整的數(shù)據(jù)集需要十幾天。成本要爆炸了,不可行。

            我得仔細(xì)琢磨一下這個(gè)場(chǎng)景,看看還有沒(méi)有更好的選擇。

            5.2. 更好一點(diǎn)的統(tǒng)計(jì)方法

            實(shí)際上,這個(gè)任務(wù)是一個(gè)典型的詞語(yǔ)集合受控的場(chǎng)景:我只需要統(tǒng)計(jì)籃球運(yùn)動(dòng)員的名字,其他的可以采取類似多諾萬(wàn)教練的態(tài)度(可參考“我跟他不熟”)。這種場(chǎng)景非常適合使用基于詞典的NER方法。

            這樣的話,我這個(gè)方案就簡(jiǎn)單了,需要解決兩個(gè)問(wèn)題:(1)人名詞庫(kù)的設(shè)計(jì)和建設(shè);(2)找到文本與人名詞庫(kù)的匹配方法。

            5.2.1. 籃球人物姓名數(shù)據(jù)庫(kù)設(shè)計(jì)和構(gòu)建

            籃球運(yùn)動(dòng)員的個(gè)人資料非常好找:

            CBA運(yùn)動(dòng)員信息的數(shù)據(jù)源為

            NBA運(yùn)動(dòng)員信息的數(shù)據(jù)源是

            如圖5-1,是虎撲網(wǎng)的球隊(duì)信息中,球員部分。對(duì)中國(guó)球員,所有球員的姓名全稱(比如“易建聯(lián)”)收錄到詞庫(kù)中,其中一部分我個(gè)人比較熟悉的球員配備了別稱(比如“阿聯(lián)”、“太空易”)。對(duì)外國(guó)球員,所有球員的姓名全稱(例如”索尼-威姆斯”,“索尼威姆斯”)收錄到詞庫(kù),部分稀少、或不存在歧義的姓(比如“詹姆斯”通常指勒布朗-詹姆斯)作為對(duì)應(yīng)球員的別稱收錄到詞典,部分我個(gè)人比較熟悉的球員配備了盡量齊全的別稱。

            這個(gè)詞典里實(shí)際上存在幾種偏見:

            (1) 首先,類似勒布朗-詹姆斯獨(dú)占“詹姆斯”這個(gè)姓氏作為別稱的做法,是對(duì)其他小眾、姓氏同為“詹姆斯”的球員的不公平。這樣做會(huì)把這些小眾球員的一點(diǎn)數(shù)據(jù)轉(zhuǎn)移到勒布朗-詹姆斯的身上,導(dǎo)致一種強(qiáng)者更強(qiáng)的結(jié)果。

            (2) 我個(gè)人越熟悉的球員,具有越詳盡的別稱,可以以更高的查全率統(tǒng)計(jì)得到更精準(zhǔn)的熱度。其他球員的熱度則或多或少地被低估了。

            (3) 由于我個(gè)人的喜好,一些別稱沒(méi)有被收錄到詞庫(kù)中,導(dǎo)致相關(guān)球員的熱度值被低估了。黑粉也是粉嘛,帶來(lái)的也是流量。

            圖 5?1 虎撲的CBA球員信息

            這兩份數(shù)據(jù)已經(jīng)整理為結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)在excel文件中:

            人名庫(kù)構(gòu)建的主要工作是球員別稱的收集整理。在任務(wù)的過(guò)程中,首先基于領(lǐng)域知識(shí),即對(duì)籃球運(yùn)動(dòng)員的了解,構(gòu)建了人名數(shù)據(jù)庫(kù)的字段,并添加了一部分別稱;其次,基于那個(gè)用神經(jīng)網(wǎng)絡(luò)做的NER模型,找了一大堆人名,然后從中找了一些別稱;另外,我又從論壇、搜索引擎里收集了一部分別稱。

            5.2.2. 人名匹配方法

            按照直覺(jué),我們可以使用子字符串匹配算法來(lái)統(tǒng)計(jì)人名,這樣做起來(lái)簡(jiǎn)單。

            不過(guò)呢,這樣做會(huì)遇到嚴(yán)重的歧義問(wèn)題。比方說(shuō),“我想叫姚明天過(guò)來(lái)給大家展示一下投籃”這句話中,“姚”這個(gè)字指的是姚明,“明天”是一個(gè)時(shí)間。如果使用自字符串匹配,我們就稀里糊涂的把“明天”拆開了。這個(gè)例子里只是碰巧對(duì)了。如何避免歧義的干擾呢?

            我選擇使用分詞的方式,基于語(yǔ)言模型將文本切分為一個(gè)個(gè)小單元,然后與人名詞庫(kù)比對(duì)、找人名。語(yǔ)言模型可以基于對(duì)語(yǔ)法、語(yǔ)義的了解,把類似“姚明天”這樣的字詞精準(zhǔn)切分開。這里使用了一個(gè)基于最短路徑求解的馬爾科夫模型分詞工具(也是阿帕比技術(shù)公司的)。算法原理可以參考

            6. 結(jié)束語(yǔ)

            至此,這個(gè)由好奇心驅(qū)動(dòng)的項(xiàng)目就告一段落。

            馬上就要過(guò)春節(jié)了,這里提前送上對(duì)所有人的祝福,如圖6-1。

            圖 6?1 鼠年的祝福!

            注意:本文為李鵬宇(知乎個(gè)人主頁(yè)https://www.zhihu.com/people/py-li-34)原創(chuàng)作品,受到著作權(quán)相關(guān)法規(guī)的保護(hù)。如需引用、轉(zhuǎn)載,請(qǐng)注明來(lái)源信息:(1)作者名,即“李鵬宇”;(2)原始網(wǎng)頁(yè)鏈接,即當(dāng)前頁(yè)面地址。如有疑問(wèn),可發(fā)郵件至我的郵箱:lipengyuer@126.com

            掃描二維碼推送至手機(jī)訪問(wèn)。

            版權(quán)聲明:本文由財(cái)神資訊-領(lǐng)先的體育資訊互動(dòng)媒體轉(zhuǎn)載發(fā)布,如需刪除請(qǐng)聯(lián)系。

            本文鏈接:http://thecityplacetownhomes.com/?id=3679

            “給大家科普一下在哪里買世界杯球賽輸贏票(2022已更新(今日/知乎)” 的相關(guān)文章

            籃球——NBA常規(guī)賽:掘金勝快船

            籃球——NBA常規(guī)賽:掘金勝快船

               當(dāng)日,在2022-2023賽季NBA常規(guī)賽中,丹佛掘金隊(duì)客場(chǎng)以114比104戰(zhàn)勝洛杉磯快船隊(duì)。 11月25日,快船隊(duì)球員馬庫(kù)斯·莫里斯 (右)在比賽中與掘金隊(duì)球員布魯斯·布朗拼搶。新華社發(fā)(趙漢榮攝) 11月25日,掘金隊(duì)球員穆雷(左)在比賽中防守快船隊(duì)球員特倫斯·曼...

            標(biāo)準(zhǔn)籃球場(chǎng)尺寸圖

            標(biāo)準(zhǔn)籃球場(chǎng)尺寸圖

            關(guān)注我們更多精彩等你發(fā)現(xiàn)!標(biāo)準(zhǔn)籃球場(chǎng)尺寸圖籃球比賽場(chǎng)地是一個(gè)長(zhǎng)方形的堅(jiān)實(shí)平面,籃球場(chǎng)地長(zhǎng)28米,寬15米,無(wú)障礙物?;@球場(chǎng)地有土質(zhì)、水泥、瀝青和木質(zhì)等?,F(xiàn)在的籃球比賽場(chǎng)塑膠地面的使用比較多。下面我們我們來(lái)了解一下標(biāo)準(zhǔn)籃球場(chǎng)尺寸圖。 標(biāo)準(zhǔn)籃球場(chǎng)尺寸圖 以上...

            19英寸規(guī)范標(biāo)準(zhǔn)機(jī)柜尺寸表

            19英寸規(guī)范標(biāo)準(zhǔn)機(jī)柜尺寸表

            原標(biāo)題:19英寸規(guī)范標(biāo)準(zhǔn)機(jī)柜尺寸表 提醒:點(diǎn)上方 ↑ ↑ ↑ “ 鈑金學(xué)習(xí)網(wǎng) ” 免費(fèi)關(guān)注 通常的規(guī)范機(jī)柜也即是指咱們平常所見到的19英寸規(guī)范機(jī)柜,如今的大多工程級(jí)的設(shè)備的面板寬度都是運(yùn)用了19英寸的巨細(xì)規(guī)范,也正因?yàn)槿绱耍?9英寸的機(jī)柜就也成了一種天然的規(guī)范機(jī)柜。關(guān)于規(guī)...

            第十八屆北京3VS3街頭籃球挑戰(zhàn)賽圓滿落幕

            第十八屆北京3VS3街頭籃球挑戰(zhàn)賽圓滿落幕

            近日,在鮮紅的國(guó)旗映照下,在振奮人心的國(guó)歌聲中,第十八屆北京3VS3街頭籃球挑戰(zhàn)賽在周家莊村文化體育公園拉開帷幕。本次比賽由北京市社會(huì)體育管理中心、北京市朝陽(yáng)區(qū)體育局主辦,北京市籃球運(yùn)動(dòng)協(xié)會(huì)、北京市朝陽(yáng)區(qū)社會(huì)體育管理中心、北京睿智翔云廣告有限公司承辦,北京市反興奮劑中心、周家莊村文化體育公...

            良心大作《籃壇野獸》,告別書荒,從這一本開始!

            良心大作《籃壇野獸》,告別書荒,從這一本開始!

            第一章沉睡野獸 2003年5月,紐約剛剛開始有了一絲回暖的氣息,金發(fā)碧眼的美女們就迫不及待的換上她們?cè)缇蜏?zhǔn)備好的夏裝,提前開啟了夏日生活。 不得不說(shuō),漂亮國(guó)的美女身材是真的好,前凸后翹,尤其是...

            CCTV5直播中國(guó)男籃世預(yù)賽!五天四戰(zhàn),杜鋒要以小組第二晉級(jí)

            CCTV5直播中國(guó)男籃世預(yù)賽!五天四戰(zhàn),杜鋒要以小組第二晉級(jí)

            6月20日左右,中國(guó)男籃將前往澳大利亞墨爾本,備戰(zhàn)6月30日就開打的世界杯預(yù)選賽。五天時(shí)間內(nèi),中國(guó)男籃要打四場(chǎng)比賽,分別和澳大利亞男籃、中國(guó)臺(tái)北男籃打兩場(chǎng)。五天四戰(zhàn),強(qiáng)度之高,任務(wù)艱巨,CCTV5全程直播中國(guó)男籃世預(yù)賽。...

            ?