收藏本站

人工智能培训机构,上海涛德,算法工程师,数据科学家高端培训机构-上海涛德

查看: 1171|回复: 0

人工智能 NLP处理中的中文分词软件jieba基础操作

[复制链接]

50

主题

0

好友

678

积分

管理员

Rank: 9Rank: 9Rank: 9

发表于 2018-6-6 13:40:30 |显示全部楼层

人工智能的NLP相关技术领域,如情感分析等。 我们会经常涉及到分词处理。


而中文分词与英文单词用空格不太一样。还设计到多个字组成的词语。这时就涉及到中文分词。其中Jieba是一个非常优秀的中文分词工具。


GitHub地址为: https://github.com/fxsjy/jieba

我们通过一个简单的例子来看看。这个软件的基础用法。


案例:


import jieba
cn_string='涛德顾问学院即将在2018年底推出keras培训欢迎参加。'
jieba_list=jieba.cut(cn_string)
tokenslist=[]
for seg in jieba_list:
    tokenslist.append(seg)
print (tokenslist)





输出如下:


['涛', '德', '顾问', '学院', '即将', '在', '2018', '年底', '推出', 'keras', '培训', '欢迎', '参加', '。']


可以看到效果还是不错,而且还自动把英文转换成了小写。当然结果还不是很完美,还可能需要对数字处理。标点符号处理。不过借助于R,或者Python等工具,已经不是难事了。毕竟最重要的分词问题可以解决了。


当然如果你希望看到“涛德顾问学院”作为一个整体名称存在,就需要自定义字典了(jieba支持这个功能)。


此外,这个软件还支持, 更多分词模式等其他功能,具体的信息可以访问上面github上的文档。



您需要登录后才可以回帖 登录 | 立即注册

<点击:上海涛德Oracle OCM认证及BI商业智能课程>|人工智能培训-上海涛德 ( 沪ICP备14006824号 )|网站地图   My title page contents

GMT+8, 2018-10-19 03:25 , Processed in 0.200203 second(s), 30 queries , Gzip On.

回顶部