博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Windows 下安装 SCWS
阅读量:6371 次
发布时间:2019-06-23

本文共 957 字,大约阅读时间需要 3 分钟。

导语

关于分词,现在有很多解决方法,根据自己需要进行选择。项目中用到了 SCWS ,安装好记录下。

SCWS

SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。
这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。

如上,SCWS 是一套分词系统。虽然这套系统可能有些过时,算法不是很精确,但在某些特定场合还是比较实用的

下载扩展

首先根据自己的 PHP 版本,下载相应的。

下载完成后,将 php_scws.dll 放到 PHP 安装目录的 etc/ 下。

下载规则集文件和词典文件

首先新建目录,用于存放规则集文件和词典文件。如:D:/scws/

然后在下载规则集文件,下载后解压,将 etc/ 目录中的 *.ini 文件放到 D:/scws/ 中。
接着在下载词典文件,将 *.xdb 文件放到 D:/scws/ 中。

修改 php.ini

pnp.ini 中添加 extension=php_scws.dll,同时可以写上配置参数:scws.default.fpath = "D:/scws/"

测试

到此如果一切顺利便安装成功,下面进行测试

set_charset('utf8'); $obj->add_dict(ini_get('scws.default.fpath') . '/dict.utf8.xdb'); $obj->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini'); $obj->set_duality(true); $obj->set_ignore(true); $obj->set_multi(2); $obj->send_text($string); $array = $obj->get_result(); foreach ($array as $key => $value) { $data .= $value['word'] . ','; } echo rtrim($data, ',');// 安能,摧眉折腰,摧眉,眉折,折腰,事,权贵,使我,我,不得,开心,颜

参考资料:、。

转载地址:http://xnyqa.baihongyu.com/

你可能感兴趣的文章
【184】FileZilla 搭建 FTP 及访问
查看>>
mysql 权限处理
查看>>
MySQL应用层传输协议分析
查看>>
mysql-protocol中对编码长度整数型的规则
查看>>
Razor学习(二)@Html标签
查看>>
飞思卡尔 imx6 GC0308 摄像头驱动配置调试过程
查看>>
pthread/Linux多线程编程
查看>>
添加tomcat8为服务
查看>>
统治世界的算法
查看>>
matlab练习程序(图像旋转,双线性插值)
查看>>
Vim 1 2 3
查看>>
jQuery如何动态添加具有删除按钮的行
查看>>
leetcode 5 最长回文子串
查看>>
3.4 FPGA JTAG配置模式
查看>>
第一周web作业1:新人报到
查看>>
在指定路径或者是文件名查找指定的字符串
查看>>
zoj1414
查看>>
DAY2-jmeter分布式压测,charls操作基础,python基础
查看>>
一般处理程序的加法器
查看>>
JavaCAS深入理解(鼠篇)
查看>>