一般文章系统在搜索的时候都会以标题做为被查询的字段,但是大家都知道MYSQL对中文的全文索引支持的不太好,网上多数的解决办法都是通过分词处理。今天分享一个利用函数将中文标题转为由字母和数字组成的区位码,这样再利用全文索引就可以了。
毛票票对文章的搜索就采用了以存储文章标题为区位码的方式进行检索,这样检索速度肯定会快很多,尤其是文章很多的时候。
将标题转为区位码后存储于MYSQL表里的样式:
下面是转为区位码的函数:
function quweima($str){ //转为区位码 $str=str_replace(' ','',$str); $str_qwm = ''; for($i=0; $i<strlen($str); $i++){ if(preg_match("/^[a-z0-9]+$/i",$str[$i])){ $str_qwm_new = str_pad($str[$i],6,"A"); }else{ $str_c=(@ord($str[$i])>0xa0?substr($str, $i++, 2):substr($str, $i, 1));//提字 $str_qwm_new = sprintf("%02d%02d",ord($str_c[0])-160,ord($str_c[1])-160);//转为区位码 $str_qwm_new = $str_qwm_new.$str_qwm_new; } $str_qwm = $str_qwm.$str_qwm_new." ";//重复组合,防止小于4字符,全文索引不认 } $str_qwm =substr($str_qwm,0,-1); return $str_qwm; }
调用方式:
$title_code = quweima($title);//将标题转为数字、字母区位索引
这样在写入标题字段的同时,再写入$title_code字段存储区位码,下次检索的时候就直接检索区位码字段就行了。别忘了给title_code(区位码)字段设置为全文索引。