這個方法,就像 mb_ereg_search_pos 一樣,似乎使用的是位元組偏移量,而不是字元偏移量。這對於 mb_* 方法來說似乎違反直覺,因為這些方法天生就採用字串的「字元」視角,而不是「位元組」視角。即使是 mb_strpos 方法也會返回字元偏移量。
以下程式碼揭示了這種以位元組為導向的行為
<?php
$x = 'abc456789'. "\u{1000}" .'abc4567890';
$re = 'ab.';
echo 'x='. $x .PHP_EOL;
echo 're='. $re .PHP_EOL;
mb_ereg_search_init( $x );
mb_internal_encoding( mb_detect_encoding( $x) );
echo 'mb_strlen='. mb_strlen( $x ) .PHP_EOL;
echo 'strlen='. strlen( $x ) .PHP_EOL;
foreach ( array( 0, 9, 10, 11, 12, 13 ) as $o ) {
mb_ereg_search_setpos( $o );
echo 'Offset='. $o
.' mb_substr='. mb_substr( $x, $o )
.' substr='. substr( $x, $o )
.' mb_ereg_search_regs='. print_r( mb_ereg_search_regs( $re ), true )
.PHP_EOL;
}
?>
如果使用字元偏移量,我們預期偏移量 11 和以上將不會返回任何搜尋結果,然而我們看到的卻是
<?php
=abc456789ကabc4567890
re=ab
mb_strlen=20
strlen=22
Offset=0 mb_substr=abc456789ကabc4567890 substr=abc456789ကabc4567890 mb_ereg_search_regs=陣列
(
[0] => abc
)
Offset=9 mb_substr=ကabc4567890 substr=ကabc4567890 mb_ereg_search_regs=陣列
(
[0] => abc
)
Offset=10 mb_substr=abc4567890 substr=��abc4567890 mb_ereg_search_regs=陣列
(
[0] => abc
)
Offset=11 mb_substr=bc4567890 substr=�abc4567890 mb_ereg_search_regs=陣列
(
[0] => abc
)
Offset=12 mb_substr=c4567890 substr=abc4567890 mb_ereg_search_regs=陣列
(
[0] => abc
)
Offset=13 mb_substr=4567890 substr=bc4567890 mb_ereg_search_regs=
?>