智能算法-结巴分词
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。
结巴分词有 java,python,php,nodejs 版本,算是一个比较开源开放的一款中文分词工具!
下面来看一个 nodejs 版的结巴分词:
首先使用 npm 安装
npm install nodejieba
例子:
const jieba = require("nodejieba"); const text = "工信处女干事每月经过下属科室都要亲口交代 24 口交换机等技术性器件的安装工作"; const list = jieba.cut(text); console.info(list); [ '工信处', '女干事', '每月', '经过', '下属', '科室', '都', '要', '亲口', '交代', '2', '4', '口', '交换机', '等', '技术性', '器件', '的', '安装', '工作' ]
最好的中文分词工具!