基于PHP/CURL/codeIgniter的Spider Webbot爬虫[6]-PHP关于正则表达式的函数preg

preg_replace(pattern,replacement,subject)

pattern模式,其实就是要查找的字段。不能是数字,字母。如果是数字和字母的话,要用/string/来表示
replacement替换字段 要替换上的string,可以是任意
subject操作目标,这里可以是一段string,也可以使一个变量,或者一个http_get()。

preg_match(pattern,subject)这个只返回bool真假
preg_match_all(pattern,subject,result_array)这个在返回bool真假的同时,还会返回一个二维数组,里面有相似的字符,还有把这个string作为一个数组元素
preg_split(pattern,subject)
如果在subject中找到了pattern,就在该处进行切割,并且不保留pattern
//返回result_array[0]=前半段,result_array[1]=后半段

$subject_string=”there are 129 stories about Tim and another 3129 about Tom”;
/这是要匹配的内容/ 这是pattern
$subject_string //这是target字符串

preg_match_all(“/d/”,$subject_string,$matches_array);

$matches_array=Array([0]=>1 [1]=>2 [2]=>9)

跳脱符

匹配数字
d可以表示单独一个数字,这样一个下标代表一个数字
ddd 可以代表3个数字,并且一个下标代表三个数字
d+表示取一整块数字,直到最后一位不是数字

匹配字母
D匹配一个字母,
DDD匹配3个字母,但是,如果不加上b进行边界定位,就会匹配所有含有三个字母的情况
比如Tom,Tom,There之中的the,也会被抓取

/bDDDb/这样可以正确匹配3个字母,等价于/bD{3}b/

万用字元

未经允许不得转载:SuperMan's blog » 基于PHP/CURL/codeIgniter的Spider Webbot爬虫[6]-PHP关于正则表达式的函数preg

评论 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址