• 喜欢前端以及PHP的朋友们可以加PHP同好会QQ群 点击加入qq群
  • 最近在写一个项目---"小A微信托管平台",大家可以去帮忙测试一下!功能在不断完善中,敬请关注!点击进入
  • 本站使用了PHP8.1与HTTP2.0协议,速度简直超级快有木有?

智能算法-结巴分词

后端 Mr.Adam 4年前 (2021-03-04) 1406次浏览 已收录 0个评论

智能算法-结巴分词

智能算法-结巴分词

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。

结巴分词有 java,python,php,nodejs 版本,算是一个比较开源开放的一款中文分词工具!
下面来看一个 nodejs 版的结巴分词:

首先使用 npm 安装

npm install nodejieba

例子:

const jieba = require("nodejieba");

const text = "工信处女干事每月经过下属科室都要亲口交代 24 口交换机等技术性器件的安装工作";

const list = jieba.cut(text);

console.info(list);

[
  '工信处', '女干事', '每月',
  '经过',   '下属',   '科室',
  '都',     '要',     '亲口',
  '交代',   '2',      '4',
  '口',     '交换机', '等',
  '技术性', '器件',   '的',
  '安装',   '工作'
]

最好的中文分词工具!


小 A 空间 , 版权所有丨如未注明转载 , 均为原创丨本网站采用BY-NC-SA协议进行授权 , 转载请注明智能算法-结巴分词
喜欢 (0)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址