如何用python中的nltk對中文進行分析和處理

2021-03-04 09:01:27 字數 1523 閱讀 2626

1樓:匿名使用者

有很多好用的中文處理包:

jieba:可以用來做分詞,詞性標註,textrankhanlp:分詞,命名實體識別,依存句法分析,還有fudannlp,nlpir

個人覺得都比nltk好用~

如何用 python 中的 nltk 對中文進行分析和處理

2樓:匿名使用者

一、nltk進行分詞

用到的函式:

nltk.sent_tokenize(text) #對文字按照句子進行分割

nltk.word_tokenize(sent) #對句子進行分詞

二、nltk進行詞性標註

用到的函式:

nltk.pos_tag(tokens)#tokens是句子分詞後的結果,同樣是句子級的標註

三、nltk進行命名實體識別(ner)

用到的函式:

nltk.ne_chunk(tags)#tags是句子詞性標註後的結果,同樣是句子級

上例中,有兩個命名實體,乙個是xi,這個應該是per,被錯誤識別為gpe了; 另乙個事china,被正確識別為gpe。

四、句法分析

nltk沒有好的parser,推薦使用stanfordparser

但是nltk有很好的樹類,該類用list實現

可以利用stanfordparser的輸出構建一棵python的句法樹

3樓:匿名使用者

買本書看 ......

4樓:令梅函靖巧

有很多好用的中文處理包:

jieba:可以用來做分詞,詞性標註,textrankhanlp:分詞,命名實體識別,依存句法分析,還有fudannlp,nlpir

個人覺得都比nltk好用~

如何用 python 中的 nltk 對中文進行分析和處理

5樓:育知同創教育

一、nltk進行分

詞用到的函式:

nltk.sent_tokenize(text) #對文字按照句子進行分割

nltk.word_tokenize(sent) #對句子進行分詞

二、版nltk進行詞性標註

用到的函權數:

nltk.pos_tag(tokens)#tokens是句子分詞後的結果,同樣是句子級的標註

三、nltk進行命名實體識別(ner)

用到的函式:

nltk.ne_chunk(tags)#tags是句子詞性標註後的結果,同樣是句子級

上例中,有兩個命名實體,乙個是xi,這個應該是per,被錯誤識別為gpe了; 另乙個事china,被正確識別為gpe。

四、句法分析

nltk沒有好的parser,推薦使用stanfordparser

但是nltk有很好的樹類,該類用list實現

可以利用stanfordparser的輸出構建一棵python的句法樹

如何用python做情感分析,如何用Python做情感分析

這句話應該不是說你feature太多了,而是說for迴圈中,使用了兩個變數去unpack featuresets太多了。所以應該是你的資料結構有問題,featuresets可能不是適合兩個變數來解包的資料結構,或者中文編碼有問題。如何用python做情感分析 可以使用snownlp包,也可以用nlt...

如何用Python寫web框架,如何用Python寫乙個web框架

自己寫就太費事了,不如基於ocr的已有專案去呼叫去封裝吧。python呼叫tesseract的demo,可以去看看。寫乙個python框架難嗎 如何用python做web開發 web開發 html 超文字標記語言 是網頁的核心,學好html是成為web開發人員的基本條件。html很容易學習的,但也很...

如何用anaconda寫python

使用anaconda更新python版本的方法和詳細的操作步驟如下 1 首先,直接開啟計算機的開始選單,然後選擇 anaconda prompt 進入,如下圖所示。2 其次,下一步如果沒有問題,請輸入圖中所示的 進行確認,如下圖所示。3 接著,此時需要通過 file 來點選 settings 跳轉,...