我们相信:世界是美好的,你是我也是。平行空间的世界里面,不同版本的生活也在继续...

自然语言处理的第一个概念,就是分词,分出来的词有词性的区别。在代码层面上来说,这些词性就有了用武之地。根据词性就可以做出更详细的筛选。对于苏南大叔来说,分词就是使用“结巴分词”。所以,本文中的词性也主要是以结巴分词的词性为基础的。

苏南大叔:nlp分词词性表大全,结巴分词的词性都代表什么意思? - jieba词性列表
nlp分词词性表大全,结巴分词的词性都代表什么意思?(图2-1)

大家好,这里是苏南大叔的程序如此灵动博客,这里记录苏南大叔和计算机代码的故事。本文描述自然语言处理中的分词词性表,表述上以结巴分词为主要基准。这个词性表和robots.txt的性质是一样的,你可以遵守规定也可以不遵守,实际上创造新的词儿也是可以的。测试环境:python@3.6.8jieba@0.42.1

结巴分词

这里先回顾一下,如何使用结巴分词来分出来词性。参考文章:

答案是:使用jieba.posseg,而不是jieba,就可以分词分出词性。

苏南大叔:nlp分词词性表大全,结巴分词的词性都代表什么意思? - 分词代码
nlp分词词性表大全,结巴分词的词性都代表什么意思?(图2-2)

要处理的句子:

import jieba.posseg
sentence = "苏南大叔最近心情很好"
# jieba.load_userdict("dict.txt")
jieba.add_word("苏南大叔",999, "nr")

分词方法一:

_result = jieba.posseg.cut(sentence)
list = [ w.word+"/"+w.flag for w in _result ]
print(" ".join(list))

分词方法二:

_result2 = jieba.posseg.lcut(sentence)
list = [ w.word+"/"+w.flag for w in _result2 ]
print(" ".join(list))

词性表

结巴分词的官方文档里面,并没有关于词性的相关详细描述。下面的表格就是网络上流传的经验总结,仅供参考。如有遗漏,请留言给我。

词性编码词性名称注 解
a形容词取英语形容词 adjective 的第1个字母
ad副形词直接作状语的形容词。形容词代码 a和副词代码d并在一起
ag形语素  形容词性语素。形容词代码为 a,语素代码g前面置以A
an名形词具有名词功能的形容词。形容词代码 a和名词代码n并在一起
b区别词取汉字“别”的声母
c连词取英语连词 conjunction的第1个字母
d副词取 adverb的第2个字母,因其第1个字母已用于形容词
df例:不要 。否定版本的副词?
dg副语素副词性语素。副词代码为 d,语素代码g前面置以D
e叹词取英语叹词 exclamation的第1个字母
f方位词取汉字“方”
g语素绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母
h前接成分取英语 head的第1个字母
i成语取英语成语 idiom的第1个字母
j简称略语取汉字“简”的声母
k后接成分
l习用语习用语尚未成为成语,有点“临时性”,取“临”的声母
m数词取英语 numeral的第3个字母,n,u已有他用
mq数量词
n名词取英语名词 noun的第1个字母
ng名语素名词性语素。名词代码为 n,语素代码g前面置以N
nr / PER人名名词代码 n和“人(ren)”的声母并在一起
nrfg人名
nrt人名
ns / LOC地名名词代码 n和处所词代码s并在一起。
nt / ORG机构团体“团”的声母为 t,名词代码n和t并在一起。
nw作品名来自LAC
nz其他专名“专”的声母的第 1个字母为z,名词代码n和z并在一起。
o拟声词取英语拟声词 onomatopoeia的第1个字母。
p介词取英语介词 prepositional的第1个字母。
q量词取英语 quantity的第1个字母。
r代词取英语代词 pronoun的第2个字母,因p已用于介词。
rg例:兹 。古代的代词?
rr人称代词
rz例:这位
s处所词取英语 space的第1个字母
t / TIME时间词取英语 time的第1个字母
tg时语素时间词性语素。时间词代码为 t,在语素的代码g前面置以T
u助词取英语助词 auxiliary
ud例:得
ug例:过
uj例:的
ul例:了
uv例:地
uz例:着
v动词取英语动词 verb的第一个字母
vd副动词直接作状语的动词。动词和副词的代码并在一起
vg动语素动词性语素。动词代码为 v。在语素的代码g前面置以V
vi例:沉溺于 等同于
vn名动词指具有名词功能的动词。动词和名词的代码并在一起
vq     例:去浄 去过 唸过
w标点符号
x非语素字非语素字只是一个符号,字母 x通常用于代表未知数、符号。
xc其他虚词来自LAC
y语气词取汉字“语”的声母。
z状态词取汉字“状”的声母的前一个字母。
zg例:且 丗 丟
un未知词不可识别词及用户自定义词组。取英文Unkonwn首两个字母。(非北大标准,CSW分词中定义)

相关文章

总结

结巴词性有自己的专属词性,也有国际标准的词性,各种不同的nlp分词方案的结果都是不同的。如果对分词结果不满意,可以自定义分词词条,对于结巴分词来说,自定义词条的方式有两种,字典方式或者词条方式。

助理微信

微信打赏码

微信公众号

微信小程序

如果本文对您有帮助,或者节约了您的时间,欢迎打赏瓶饮料,建立下友谊关系。
本博客不欢迎:各种镜像采集行为。请尊重原创文章内容,转载请保留作者链接。

 【福利】 腾讯云最新爆款活动!1核2G云服务器首年50元!

 【源码】本文代码片段及相关软件,请点此获取更多信息

 【绝密】秘籍文章入口,仅传授于有缘之人   jieba    nlp