博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
NLP分词
阅读量:5013 次
发布时间:2019-06-12

本文共 728 字,大约阅读时间需要 2 分钟。

英文分词:

#英文分词import nltksentence="hello,world"tokens=nltk.word_tokenize(sentence)print(tokens)#['hello', ',', 'world']

#中文分词

import jiebaseg_list = jieba.cut("我来到北京清华大学",cut_all=True)print ("Full Mode:", "/ ".join(seg_list))seg_list = jieba.cut("我来到北京清华大学", cut_all=False)print ("Default Mode:", "/ ".join(seg_list)) # 精确模式seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式print (", ".join(seg_list))seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都留学深造") # 搜索引擎模式print (", ".join(seg_list))#Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学#Default Mode: 我/ 来到/ 北京/ 清华大学#他, 来到, 了, 网易, 杭研, 大厦#小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ,, 后, 在, 日本, 京都, 留学, 深造

#社交网络语言的tokenize【正则表达式】

 

转载于:https://www.cnblogs.com/tantao258/p/7684748.html

你可能感兴趣的文章
条形码扫描枪数据读取的问题
查看>>
$this->autoRender = false
查看>>
健壮的 Java 基准测试
查看>>
phpstorm查看类的继承关系
查看>>
git create clone(仓库)
查看>>
chmod修改文件权限的命令
查看>>
新博客牵至简书
查看>>
矩阵求逆
查看>>
在 Windows 8、Windows 10 桌面模式下的 .NET Framework 程序中,引用 Windows.Runtime 的 API。...
查看>>
2015 8月24号 工作计划与实行
查看>>
MVC AJAX
查看>>
Google Map API V3开发(6) 代码
查看>>
Kafka初入门简单配置与使用
查看>>
第三章Git使用入门
查看>>
Amd,Cmd, Commonjs, ES6 import/export的异同点
查看>>
cocos2dx-Lua与Java通讯机制
查看>>
上下文管理器之__enter__和__exit__
查看>>
android3.2以上切屏禁止onCreate()
查看>>
winform文件迁移工具
查看>>
delphi DCC32命令行方式编译delphi工程源码
查看>>