我在python裡對1萬多個中文文字進行分詞,並建立

2021-03-04 08:10:18 字數 3297 閱讀 4518

1樓:匿名使用者

如果你的分詞結果正確的話,不太可能存不下,有可能是你的分詞結果,出現了錯誤,導致了存放分詞的list存不下了,具體看看**吧

2樓:匿名使用者

存不下的可能性不存在。

3樓:sj毛毛

這樣不太明白,把**貼上來看看吧

怎麼用python檔案實現中文文字分詞

4樓:

我之前在github上看到乙個中文分詞的擴充套件庫,你可以去找下叫結巴分詞,庫名叫jieba,國人寫的,裡面還有例子。你可以安裝使用下

如何在python中對excel文字進行分詞

5樓:匿名使用者

你可以現將excel中要進行分詞的文字讀取出拼成乙個字串,然後使用jieba分詞對這個字串進行分詞

6樓:匿名使用者

不管你要做什麼樣的效果,首先你要讀取出來excel的內容。或者你可以問下微軟是否支援excel中文分詞。

7樓:excel技術服務

你這個問題太廣了。看下這個吧

在python 環境下,使用結巴分詞,自動匯入文字,分詞,提取關鍵詞.指令碼 大俠給個 150

8樓:無敵小綿羊啊

# -*- coding: utf-8 -*-import jieba

import jieba.posseg as psegimport jieba.analyse#jieba.

load_userdict('userdict.txt')#jieba預設有乙個dict.txt詞庫,但可以根據自己需要加入自己的詞條

9樓:匿名使用者

# -*- coding: utf-8 -*-

import jieba

__author__ = 'lpe234'

seg_list = jieba.cut("我來到北京天安門", cut_all=true)

print ','.join(seg_list)

building prefix dict from the default dictionary ...

loading model from cache /var/folders/sv/cbmmknss3zx9rg7s3wsqgdsc0000gn/t/jieba.cache

我,來到,北京,天安,天安門

loading model cost 0.433 seconds.

prefix dict has been built succesfully.

process finished with exit code 0

10樓:上外培訓中心點

這個是要監控敏感詞嗎???

11樓:匿名使用者

python**

#encoding=utf-8

import jieba

seg_list = jieba.cut("我來到北京清華大學

",cut_all=true)

print "full mode:", "/ ".join(seg_list) #全模式

seg_list = jieba.cut("我來到北京清華大學",cut_all=false)

print "default mode:", "/ ".join(seg_list) #預設模式

seg_list = jieba.cut("他來到了網易杭研大廈")

print ", ".join(seg_list)

#encoding=utf-8

import jieba

seg_list = jieba.cut("我來到北京清華大學",cut_all=true)

print "full mode:", "/ ".join(seg_list) #全模式

seg_list = jieba.cut("我來到北京清華大學",cut_all=false)

print "default mode:", "/ ".join(seg_list) #預設模式

seg_list = jieba.cut("他來到了網易杭研大廈")

print ", ".join(seg_list)

輸出full mode: 我/ 來/ 來到/ 到/ 北/ 北京/ 京/ 清/ 清華/ 清華大學/ 華/ 華大/ 大/ 大學/ 學

default mode: 我/ 來到/ 北京/ 清華大學

他, 來到, 了, 網易, 杭研, 大廈    (此處,「杭研」並沒有在詞典中,但是也被viterbi演算法識別出來了)

python中對csv檔案某一列的每一行文字進行分詞後再寫到該檔案另一列怎麼做

12樓:天天不看

# -*- coding: utf8 -*-

import csv

l = [['1', 'wonderful spam'],['2', 'lovely spam']]

#模擬資料寫入乙個csv

with open('eggs.csv', 'w', newline='') as csvfile:

spamwriter = csv.writer(csvfile, delimiter=',',

quotechar='"', quoting=csv.quote_minimal)

for row in l:

spamwriter.writerow(row)

#從檔案讀取

l=with open('eggs.csv', newline='') as csvfile:

spamreader = csv.reader(csvfile, delimiter=',', quotechar='"')

for row in spamreader:

l = l + [row]

#把兩列拼接增加為第三列寫回到檔案

with open('eggs.csv', 'w', newline='') as csvfile:

spamwriter = csv.writer(csvfile, delimiter=',',

quotechar='"', quoting=csv.quote_minimal)

for row in l:

print(row)

spamwriter.writerow(row + [row[0]+row[1]])

判斷題對的在括號裡畫錯的在括號裡畫1有噸煤,用去還剩

1 2 3 4 5 ok乖乖的 判斷題 對的在括號內畫 錯的畫 1 所有的生物的生存只需要陽光和營養物質。nb 生物的生存不僅僅需要陽光和營養物質,還需要適宜的溫度,充足的空氣等等,生態平衡只是相對的,而不是絕對的。判斷題 正確的在括號內畫 錯誤的在括號內畫 1 醣類是人體最主要的能源物質。1 2 ...

我女朋友在銀行存錢時被騙存了1萬陽光普照兩全保險D款,定期是一年,請問一年後我能拿回來全額本金一萬塊

建議你詳細閱讀保險條款,目前保監會規定保險公司不允許推出一年保本產品,所以按你說的一年要拿出來,保本都懸,別說利息了。所以,仔細看看保險條目,如果不好,就抓緊時間去退掉。保險都有10天猶豫期的,只要支付一點手續費就可以退保的。簽訂合同後10日內可以退保,扣10元手續費。超過此期限在退保的話就溴大了。...

我在網貸上借了1萬多塊錢,我在8個網貸上借了1萬多塊錢

網貸屬於民間借貸糾紛,只有調解,最多法院私下調解還本金,只要不欠幾大行的錢,誰也不能逼你,真是窮的身無分文,也是暫緩還款,遇到暴力催債,摸清人員公司底細保留證據報警拘留十五天是跑不掉的,現代打黑很嚴重,暴力催收也是嚴辦物件,不要相信什麼催收的法院起訴恐嚇坐牢什麼的,他以為他們是國家暴力機關,欠平台的...