<?xml version="1.0" encoding="SHIFT_JIS"?>の、

Question

gdwtseq

28

28もっと見る

100pt

ウェブ制作

<?xml version="1.0" encoding="SHIFT_JIS"?>の、

要素に日本語文字（他のマルチバイト文字も含む）が使われている
xmlファイルをパースして、
その文字を一文字ずつ取り出し、SJISのコード値の指定のものだったら
cp932のコード値に変換して、保存する、Javaソースコードがあります。
前任者がで書いたこのコードを、PHPに書き直してくれと言われました。
（言っている人は、JavaもPHPも詳しくないSEです。）

前任者の方はその文字列（Stringオブジェクト）から、charAt( )で
一文字ずつ取り出し、switch文で指定のSJISコード値かどうかを
判定しています。
例．
case '\u2014': // '―' だったら、
　　→ \u2015 に置き換え。
case '\u301C': // '～' だったら、
　　→ \uFF5E に置き換え。
case '\u00A2': // '￠' だったら、
　　→ \uFFE0 に置き換え。
case '\u00A3': // '￡' だったら、
　　→ \uFFE1 に置き換え。
といった具合にです。

そこで質問ですが、このような判定をPHPでは、出来なくない
ですか？マルチバイト文字を一文字ずつ取り出す方法ってある
でしょうか？

回答の条件

URL必須
1人5回まで

登録：2013/03/12 21:42:33
終了：2013/03/19 21:45:03

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

コメントはまだありません

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

きゃづみぃ · Answer 1 · 2013-03-12T21:54:03+09:00

No.1

きゃづみぃ1353911982013/03/12 21:54:03

34pt

http://php.net/manual/ja/function.str-replace.php

PHPにはstr_replaceという置換の関数があります。

他1件のコメントを見る

$buf = mb_convert_encoding( file_get_contents( './sjis.xml'), 'UTF-8', 'SJIS');
$e1 = mb_convert_encoding('/\xE3\x80\x9C/' , 'utf8', 'sjis-win');
$html = preg_replace($e1,"\xEF\xBD\x9E",$buf);

こんな感じで正規表現を使うなら置換できると思いますが。

2013/03/14 10:54:49

<?php
$buf = mb_convert_encoding( file_get_contents( './sjis.xml'), 'UTF-8', 'SJIS');

// 波ダッシュを全角チルダ(～)へ変換
$html =preg_replace(
mb_convert_encoding('/\xE3\x80\x9C/', 'utf8', 'sjis-win'),
"\xEF\xBD\x9E",
$buf);

// 全角マイナス記号(－)の変換
$html =preg_replace(
mb_convert_encoding('/\xE2\x88\x92/', 'utf8', 'sjis-win'),
"\xEF\xBC\x8D",
$html);

// 双柱・平行記号(∥)の変換
$html =preg_replace(
mb_convert_encoding('/\xE2\x80\x96/', 'utf8', 'sjis-win'),
"\xE2\x88\xA5",
$html);

// セント記号(￠)の変換
$html =preg_replace(
mb_convert_encoding('/\xC2\xA2/', 'utf8', 'sjis-win'),
"\xEF\xBF\xA0",
$html);

// ポンド記号(￡)の変換
$html =preg_replace(
mb_convert_encoding('/\xC2\xA3/', 'utf8', 'sjis-win'),
"\xEF\xBF\xA1",
$html);

// 否定記号(￢)の変換
$html =preg_replace(
mb_convert_encoding('/\xC2\xAC/', 'utf8', 'sjis-win'),
"\xEF\xBF\xA2",
$html);


echo $html;
?>

2013/03/14 17:58:59

oil999 · Answer 2 · 2013-03-12T22:32:14+09:00

PHPのmb_substr関数を使えば、マルチバイト文字を1文字ずつ取り出せます。
http://php.net/manual/ja/function.mb-substr.php

a-kuma3 · Answer 3 · 2013-03-12T22:37:42+09:00

mb_strlen で、マルチバイト文字列としての文字数を取得して、それでループしながら mb_substr でマルチバイトとしての１文字ずつを切り出していく、という感じになると思います。
http://www.php.net/manual/ja/function.mb-strlen.php
http://www.php.net/manual/ja/function.mb-substr.php
＃効率悪そう...

mb_ereg_replace_callback か mb_ereg_replace を使うと、もうちょっとスマートに書けそうな気もしますが、ソースの移植なら愚直に元のコードのロジックをそのまま使う、という方がトラブルが少ないような気もします。
http://www.php.net/manual/ja/function.mb-ereg-replace-callback.php
http://www.php.net/manual/ja/function.mb-ereg-replace.php

<?xml version="1.0" encoding="SHIFT_JIS"?>の、

回答（3件）

きゃづみぃ1353911982013/03/12 21:54:03

oil99917283202013/03/12 22:32:14

a-kuma3497321542013/03/12 22:37:42

コメント（0件)

この質問への反応（ブックマークコメント）