中电云集是国内领先的云服务器、虚拟主机、服务器租用提供商




上一主题下一主题
主题 : 求帮助
UID: 291488
级别: 齐博新生
发帖: 30
威望: 35 点
积分: 33 个
铜板: 0
精华风格度: 0 点
在线时间: 53 小时
注册时间: 2017-09-29
最后登录: 2017-11-17
楼主  发表于: 2017-10-14 09:35

求帮助

前几天编写采集规则的时候发现了ASCII 194 + 160这个问题,就是中文空格被转码以后出现的问题。
再一篇文章里有几处空格属于的是特殊的中文空格,由UTF8转码到GBK以后这个空格不能被解析,变成特殊字符,经过几天的研究终于找到了这个问题的原因,但是不知道怎么过滤掉,我的分析应该是在转码前过滤掉,但是我试用了总代码都没有成功,是不是我放置的位置不对还是怎么的,希望论坛里的各位神仙帮帮忙。

第一种、
$new['content'] = preg_replace('/^[(\xc2\xa0)|\s]+/', '', $new['content']);
第二种、
str = str.replaceAll("[^/u4E00-/u9FA5/u3000-/u303F/uFF00-/uFFEF/u0000-/u007F/u201c-/u201d]", " ");
第三种、
$str = 'jkgsd
gsgsdgs gsdg gsd';
echo myTrim($str);
function myTrim($str)
{
$search = array(" "," ","\n","\r","\t");
$replace = array("","","","","");
return str_replace($search, $replace, $str);
}
第四种、
function deletehtml($str)
{
$str = "This line contains\tliberal \r\n use of   whitespace.\n\n";
$str = trim($str);
$str = preg_replace('/\s(?=\s)/','' ', $str);
$str=preg_replace("/([\n\r\t])/',' ', $str);
return trim($str)
}
请各位大神帮帮忙
UID: 291488
级别: 齐博新生
发帖: 30
威望: 35 点
积分: 33 个
铜板: 0
精华风格度: 0 点
在线时间: 53 小时
注册时间: 2017-09-29
最后登录: 2017-11-17
沙发  发表于: 2017-10-14 09:36

在线等

UID: 243423
级别: 齐博超管
发帖: 10799
威望: 11137 点
积分: 24163 个
铜板: 7350
精华风格度: 1 点
在线时间: 12128 小时
注册时间: 2010-10-01
最后登录: 2017-11-17
板凳  发表于: 2017-10-14 17:18

这个要慢慢调试的。建议你花一百几十块。找个版主帮你看看吧
UID: 291488
级别: 齐博新生
发帖: 30
威望: 35 点
积分: 33 个
铜板: 0
精华风格度: 0 点
在线时间: 53 小时
注册时间: 2017-09-29
最后登录: 2017-11-17
3楼  发表于: 2017-10-14 17:52

回 2楼(齐博) 的帖子

好吧谢谢
齐博软件技术交流区 » 站务咨询
承接网站制作等业务QQ191698811 以铜板换广告位二 以铜板换广告位三 以铜板换广告位四
以铜板换广告位五 以铜板换广告位六 以铜板换广告位七 以铜板换广告位八
以铜板换广告位九 以铜板换广告位十 以铜板换广告位十一 以铜板换广告位十二
打造最专业的门户系统建站程序