国产露脸精品国产沙发|极品妇被弄得99久九精品亚洲|亚洲va成精品在线播放人|日韩精品久久久免费观看

<delect id="w59je"></delect>

當(dāng)前位置：首頁 > 乒乓球資訊 > 正文內(nèi)容

?一文看懂NLP里的分詞（中英文分詞區(qū)別+3 大難點(diǎn)+3 種典型方法）

杏彩體育2年前 (2022-12-25)乒乓球資訊52

分詞是 NLP

的基礎(chǔ)任務(wù)，將句子，段落分解為字詞單位，方便后續(xù)的處理的分析。

本文將介紹分詞的原因，中英文分詞的3個(gè)區(qū)別，中文分詞的3大難點(diǎn)，分詞的3種典型方法。最后將介紹中文分詞和英文分詞常用的工具。

什么是分詞？

分詞是自然語言理解 – NLP 的重要步驟。

分詞就是將句子、段落、文章這種長文本，分解為以字詞為單位的數(shù)據(jù)結(jié)構(gòu)，方便后續(xù)的處理分析工作。

為什么要分詞？

1.將復(fù)雜問題轉(zhuǎn)化為數(shù)學(xué)問題

在機(jī)器學(xué)習(xí)的文章中講過，機(jī)器學(xué)習(xí)之所以看上去可以解決很多復(fù)雜的問題，是因?yàn)樗堰@些問題都轉(zhuǎn)化為了數(shù)學(xué)問題。

而 NLP 也是相同的思路，文本都是一些「非結(jié)構(gòu)化數(shù)據(jù)」，我們需要先將這些數(shù)據(jù)轉(zhuǎn)化為「結(jié)構(gòu)化數(shù)據(jù)」，結(jié)構(gòu)化數(shù)據(jù)就可以轉(zhuǎn)化為數(shù)學(xué)問題了，而分詞就是轉(zhuǎn)化的第一步。

2.詞是一個(gè)比較合適的粒度

詞是表達(dá)完整含義的最小單位。

字的粒度太小，無法表達(dá)完整含義，比如”鼠“可以是”老鼠“，也可以是”鼠標(biāo)“。

而句子的粒度太大，承載的信息量多，很難復(fù)用。比如”傳統(tǒng)方法要分詞，一個(gè)重要原因是傳統(tǒng)方法對(duì)遠(yuǎn)距離依賴的建模能力較弱?！?/p>

3. 深度學(xué)習(xí)時(shí)代，部分任務(wù)中也可以「分字」

深度學(xué)習(xí)時(shí)代，隨著數(shù)據(jù)量和算力的爆炸式增長，很多傳統(tǒng)的方法被顛覆。

分詞一直是 NLP 的基礎(chǔ)，但是現(xiàn)在也不一定了，感興趣的可以看看這篇論文：《Is Word Segmentation Necessary for Deep Learning of Chinese Representations?》。

不過在一些特定任務(wù)中，分詞還是必要的。如：關(guān)鍵詞提取、命名實(shí)體識(shí)別等。

中英文分詞的3個(gè)典型區(qū)別

區(qū)別1：分詞方式不同，中文更難

英文有天然的空格作為分隔符，但是中文沒有。所以如何切分是一個(gè)難點(diǎn)，再加上中文里一詞多意的情況非常多，導(dǎo)致很容易出現(xiàn)歧義。下文中難點(diǎn)部分會(huì)詳細(xì)說明。

區(qū)別2：英文單詞有多種形態(tài)

英文單詞存在豐富的變形變換。為了應(yīng)對(duì)這些復(fù)雜的變換，英文NLP相比中文存在一些獨(dú)特的處理步驟，我們稱為詞形還原（Lemmatization）和詞干提取（Stemming）。中文則不需要

詞性還原：does，done，doing，did 需要通過詞性還原恢復(fù)成 do。

詞干提取：cities，children，teeth 這些詞，需要轉(zhuǎn)換為 city，child，tooth”這些基本形態(tài)

區(qū)別3：中文分詞需要考慮粒度問題

例如「中國科學(xué)技術(shù)大學(xué)」就有很多種分法：

中國科學(xué)技術(shù)大學(xué)中國 \ 科學(xué)技術(shù) \ 大學(xué)中國 \ 科學(xué) \ 技術(shù) \ 大學(xué)

粒度越大，表達(dá)的意思就越準(zhǔn)確，但是也會(huì)導(dǎo)致召回比較少。所以中文需要不同的場景和要求選擇不同的粒度。這個(gè)在英文中是沒有的。

中文分詞的3大難點(diǎn)

難點(diǎn) 1：沒有統(tǒng)一的標(biāo)準(zhǔn)

目前中文分詞沒有統(tǒng)一的標(biāo)準(zhǔn)，也沒有公認(rèn)的規(guī)范。不同的公司和組織各有各的方法和規(guī)則。

難點(diǎn) 2：歧義詞如何切分

例如「兵乓球拍賣完了」就有2種分詞方式表達(dá)了2種不同的含義：

乒乓球 \ 拍賣 \ 完了乒乓 \ 球拍 \ 賣 \ 完了

難點(diǎn) 3：新詞的識(shí)別

信息爆炸的時(shí)代，三天兩頭就會(huì)冒出來一堆新詞，如何快速的識(shí)別出這些新詞是一大難點(diǎn)。比如當(dāng)年「藍(lán)瘦香菇」大火，就需要快速識(shí)別。

3種典型的分詞方法

分詞的方法大致分為 3 類：

基于詞典匹配基于統(tǒng)計(jì)基于深度學(xué)習(xí)

給予詞典匹配的分詞方式

優(yōu)點(diǎn)：速度快、成本低

缺點(diǎn)：適應(yīng)性不強(qiáng)，不同領(lǐng)域效果差異大

基本思想是基于詞典匹配，將待分詞的中文文本根據(jù)一定規(guī)則切分和調(diào)整，然后跟詞典中的詞語進(jìn)行匹配，匹配成功則按照詞典的詞分詞，匹配失敗通過調(diào)整或者重新選擇，如此反復(fù)循環(huán)即可。代表方法有基于正向最大匹配和基于逆向最大匹配及雙向匹配法。

基于統(tǒng)計(jì)的分詞方法

優(yōu)點(diǎn)：適應(yīng)性較強(qiáng)

缺點(diǎn)：成本較高，速度較慢

這類目前常用的是算法是HMM、CRF、SVM、深度學(xué)習(xí)等算法，比如stanford、Hanlp分詞工具是基于CRF算法。以CRF為例，基本思路是對(duì)漢字進(jìn)行標(biāo)注訓(xùn)練，不僅考慮了詞語出現(xiàn)的頻率，還考慮上下文，具備較好的學(xué)習(xí)能力，因此其對(duì)歧義詞和未登錄詞的識(shí)別都具有良好的效果。

基于深度學(xué)習(xí)

優(yōu)點(diǎn)：準(zhǔn)確率高、適應(yīng)性強(qiáng)

缺點(diǎn)：成本高，速度慢

例如有人員嘗試使用雙向LSTM+CRF實(shí)現(xiàn)分詞器，其本質(zhì)上是序列標(biāo)注，所以有通用性，命名實(shí)體識(shí)別等都可以使用該模型，據(jù)報(bào)道其分詞器字符準(zhǔn)確率可高達(dá)97.5%。

常見的分詞器都是使用機(jī)器學(xué)習(xí)算法和詞典相結(jié)合，一方面能夠提高分詞準(zhǔn)確率，另一方面能夠改善領(lǐng)域適應(yīng)性。

中文分詞工具

下面排名根據(jù) GitHub 上的 star 數(shù)排名：

Hanlp Stanford 分詞 ansj 分詞器哈工大 LTP KCWS分詞器 jieba IK 清華大學(xué)THULAC ICTCLAS

英文分詞工具

Keras Spacy Gensim NLTK

總結(jié)

分詞就是將句子、段落、文章這種長文本，分解為以字詞為單位的數(shù)據(jù)結(jié)構(gòu)，方便后續(xù)的處理分析工作。

分詞的原因：

將復(fù)雜問題轉(zhuǎn)化為數(shù)學(xué)問題詞是一個(gè)比較合適的粒度深度學(xué)習(xí)時(shí)代，部分任務(wù)中也可以「分字」

中英文分詞的3個(gè)典型區(qū)別：

分詞方式不同，中文更難英文單詞有多種形態(tài)，需要詞性還原和詞干提取中文分詞需要考慮粒度問題

中文分詞的3大難點(diǎn)

沒有統(tǒng)一的標(biāo)準(zhǔn)歧義詞如何切分新詞的識(shí)別

3個(gè)典型的分詞方式：

基于詞典匹配基于統(tǒng)計(jì)基于深度學(xué)習(xí)

掃描二維碼推送至手機(jī)訪問。

版權(quán)聲明：本文由財(cái)神資訊-領(lǐng)先的體育資訊互動(dòng)媒體轉(zhuǎn)載發(fā)布，如需刪除請(qǐng)聯(lián)系。

本文鏈接：http://thecityplacetownhomes.com/?id=17698

分享給朋友：

返回列表

上一篇：touch fish? “摸魚/劃水” 用英語咋說？

下一篇：英文原版 | Turn Departing Employees into Loyal Alumni

“?一文看懂NLP里的分詞（中英文分詞區(qū)別+3 大難點(diǎn)+3 種典型方法）” 的相關(guān)文章

「奇妙中文」這些漢字天生一對(duì)形似雙胞胎！你認(rèn)識(shí)多少個(gè)？

「奇妙中文」這些漢字天生一對(duì)形似雙胞胎！你認(rèn)識(shí)多少個(gè)？

（來源：2021-12-08美好心靈）漢字博大精深，明明是兩個(gè)字，看起來像一個(gè)字。不僅讀音不同，意思也有天壤之別。這些漢字就像天生一對(duì)。 jié jué...

“乒”出精彩||“傳媒杯”第一屆乒乓球比賽圓滿結(jié)束！

“乒”出精彩||“傳媒杯”第一屆乒乓球比賽圓滿結(jié)束！

?+ + 點(diǎn)擊藍(lán)字關(guān)注我們 -MEDIA CUP- “傳媒杯” 第一屆乒乓球比賽 11月14日下午五點(diǎn)，傳媒與新聞學(xué)院第一屆“傳媒杯”乒乓球比賽在大學(xué)生活動(dòng)中心乒乓球館開展。共有2020級(jí)數(shù)字出版專業(yè)、2021級(jí)廣播電視編導(dǎo)專業(yè)...

首設(shè)大學(xué)生組別！深圳市大中小學(xué)乒乓球比賽成功舉行

首設(shè)大學(xué)生組別！深圳市大中小學(xué)乒乓球比賽成功舉行

近日，深圳市大中小學(xué)乒乓球比賽在坪山區(qū)正陽小學(xué)成功舉辦，在全體裁判員、工作人員、領(lǐng)隊(duì)、教練員、運(yùn)動(dòng)員、的共同努力下，比賽圓滿落下帷幕。...

國際乒聯(lián)公布最新世界排名！國乒包攬男女單前3，伊藤張本跌出前3

國際乒聯(lián)公布最新世界排名！國乒包攬男女單前3，伊藤張本跌出前3

北京時(shí)間3月22日消息，國際乒聯(lián)公布最新一期世界排名，國乒展依然無法撼動(dòng)，樊振東世界第一，陳夢(mèng)重返世界第一，國乒包攬男女單前3，同時(shí)，男隊(duì)5人進(jìn)入前10，女隊(duì)4人進(jìn)入前10，國乒用行動(dòng)告訴國際乒聯(lián)：不管你的積分規(guī)則怎么變，國乒都會(huì)排在世界領(lǐng)先的地位。點(diǎn)擊下面名片關(guān)注「好乒乓」看...

張本智和異軍突起！最新世界排名躍居第二！已成為國乒最大威脅

張本智和異軍突起！最新世界排名躍居第二！已成為國乒最大威脅

國際乒聯(lián)公布最新乒乓球男單世界排名，國乒男單格局發(fā)生重大變化，張本智和異軍突起世界排名猛增躍居第2位，馬龍和王楚欽分別降低一位，退居世界排名第3和第4名。縱觀目前國際乒壇形勢，張本智和的異軍突起已經(jīng)既成事實(shí)，現(xiàn)在已經(jīng)成為國乒最大對(duì)手！2022年張本智和對(duì)國乒形成最大沖擊，在技戰(zhàn)術(shù)...

乒球世界排名樊振東被強(qiáng)制扣1400分一年靠三項(xiàng)賽積分仍居第一

乒球世界排名樊振東被強(qiáng)制扣1400分一年靠三項(xiàng)賽積分仍居第一

　　直播吧7月26日訊隨著WTT冠軍賽布達(dá)佩斯站比賽的落幕，國際乒聯(lián)公布了最新一期的世界排名。由于我國名將樊振東接連缺席挑戰(zhàn)賽和冠軍賽，現(xiàn)有積分最低的一項(xiàng)被賦0分，由于樊振東現(xiàn)有的4個(gè)積分中最低的一項(xiàng)為他奧運(yùn)會(huì)守半?yún)^(qū)拿到的1400分，因此積分損失1400分，但是仍然以5500分...

?

<ruby id="ibklf"><cite id="ibklf"></cite></ruby>