Kate Li (Taiwan)的部落格

首頁

moonshile/chinesewordsegmentation: chinese word segmentation algorithm without corpus(無需語料庫的中文分詞)

作者 urbin 時間 2020-03-30
all

無言料庫中文分詞算灋

用法

from wordseg import WordSegment doc = u'十四是十四四十是四十,十四不是四十,四十不是十四' ws = WordSegment(doc, max_word_len=2, min_aggregation=1, min_entropy=0.5) ws.segSentence(doc) 十四 是 十四 四十 是 四十 , 十四 不是 四十 , 四十 不是 十四

實際上,doc應該是足够長的檔案字串,以便獲得更好的結果。在這種情況下,最小聚集應該設定為遠大於1,例如50,最小熵也應該設定為大於0.5,例如1.5。

doc

此外,此函數的輸入和輸出都應解碼為unicode。

SegSegment有一個可選的參數方法,其值為WordSegment.L、WordSegment.S和WordSegment.ALL,表示

WordSegment.segSentence method WordSegment.L WordSegment.S WordSegment.ALL WordSegment.L WordSegment.S WordSegment.ALL

參攷

感謝Matrix67的文章