英文分词:
#英文分词import nltksentence="hello,world"tokens=nltk.word_tokenize(sentence)print(tokens)#['hello', ',', 'world']
#中文分词
import jiebaseg_list = jieba.cut("我来到北京清华大学",cut_all=True)print ("Full Mode:", "/ ".join(seg_list))seg_list = jieba.cut("我来到北京清华大学", cut_all=False)print ("Default Mode:", "/ ".join(seg_list)) # 精确模式seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式print (", ".join(seg_list))seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都留学深造") # 搜索引擎模式print (", ".join(seg_list))#Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学#Default Mode: 我/ 来到/ 北京/ 清华大学#他, 来到, 了, 网易, 杭研, 大厦#小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ,, 后, 在, 日本, 京都, 留学, 深造
#社交网络语言的tokenize【正则表达式】