一、在线分词
1、哈工大主干分析,有词性标记
https://ltp.ai/demo.html
2、百度在线词法分析,也就包含分词
https://ai.baidu.com/tech/nlp_basic/lexical
3、hanlp词法分析
https://hanlp.hankcs.com/
4、结巴(jieba)在线分词
https://app.gumble.pw/jiebademo/
二、离线分词
1、jieba分词
安装与使用
pip install jieba #使用 import jieba jieba.cut('NLP分词工具')
2、pkuseg 北京大学开源
安装与使用
pip3 install -U pkuseg import pkuseg seg = pkuseg.pkuseg() # 以默认配置加载模型 text = seg.cut('我爱北京天安门') # 进行分词 print(text)
3、百度词法分析
全自动安装: pip install lac 半自动下载:先下载http://pypi.python.org/pypi/lac/,解压后运行 python setup.py install from LAC import LAC # 装载分词模型 lac = LAC(mode='seg') # 单个样本输入,输入为Unicode编码的字符串 text = u"LAC是个优秀的分词工具" seg_result = lac.run(text)
第二种使用方法 使用paddleHub
lac = hub.Module(name="lac") ### 这些代码在paddle demo下 test_text = ["今天是个好日子", "天气预报说今天要下雨", "下一班地铁马上就要到了"] # Set input dict inputs = {"text": test_text}