中文自然語言處理時,英文單詞和數(shù)字怎么處理?
這是一個基礎(chǔ)的工程性問題。
目前所有的中文自然語言處理任務(wù)大致可以歸結(jié)為「分」、「抽」、「審」、「寫」。
「分」指詞法分析(Lexical Analysis)、句子分析(Sentence Analysis)、語義分析(Semantic Analysis)、文本分類(Text Classification)、文本聚類(Text Clustering)。
「抽」指信息抽?。↖nformation Extraction)。
「審」指文本糾錯(Text Correction)、文本比對(Text Comparison)。
「寫」指文本生成(Text Generation),機(jī)器翻譯(Machine Translation)。
那么,主要在文本糾錯、文本分類、文本聚類中需要對英文單詞和數(shù)字處理。
在文本糾錯中,實際需要對英文單詞和數(shù)字處理,檢查日期、單詞拼寫,這些可以借助正則表達(dá)式和詞典等方式來處理。
在文本分類中,對于短文本分類,可以選擇保留,用于提供額外的文本特征。
對于長文本分類,需要結(jié)合實際情況,例如在預(yù)測案件的刑期中,可以將涉案金額按照刑法中的規(guī)定進(jìn)行歸一化,譬如小于1千元的歸一化到「_1000_」,大于1千元小于2000的歸一化到「2000_」,英文單詞可以直接歸一化為「_E_」。
在文本情感分類中,則需要將英文單詞保留,像sad,happy這類詞和任務(wù)相關(guān)。
在文本聚類中與文本分類的處理方式類似。
掃描二維碼推送至手機(jī)訪問。
版權(quán)聲明:本文由財神資訊-領(lǐng)先的體育資訊互動媒體轉(zhuǎn)載發(fā)布,如需刪除請聯(lián)系。