Perl 上で　Jcode.pm を利用しています。

Question

zachouR

282

274もっと見る

70pt

インターネットウェブ制作

Perl 上で　Jcode.pm を利用しています。

任意のコードに変換する場合、

例１
&Jcode::convert(\$line, "euc");

と

例２
&jcode::convert(\$line, "euc", "sjis");

では、例２の方が確実なのでしょうか？

どなたか教えてください。

回答の条件

URL必須
1人20回まで

登録：2007/02/19 18:11:10
終了：2007/02/20 19:24:56

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

No.1

b-wind33444402007/02/19 18:50:42

35pt

例２は

＆Jcode::convert(\$line, "euc", "sjis");

ですよね？

２の方が確実です。

入力文字列指定を省略した場合、getcode で推測を行いますが少なくとも日本語のコード判別率は 100% ではありません。

もし事前に入力文字列のコードが分かっているなら、指定したほうが確実です。

また、getcode を使わなくて済む分早いです。（たぶんちょっとだけ）

http://search.cpan.org/dist/Jcode/Jcode/Nihongo.pod#(12469)(12502)(12523)(12540)(12481)(12531)

回答ありがとうございます

コード判別はややこしいですね、、、

2007/02/20 15:17:43

コメントはまだありません

finalventの日記 2007-02-19 18:30:09

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

まきのっぴ · Accepted Answer · 2007-02-20T00:07:49+09:00

はい、例2の方が確実です。

自動判別は完全ではありませんので、失敗して文字化けを起こすことがあります。

例えばJcode.pm の文字コード自動判定にて、自動判別に失敗した事例が挙げられています。

また、自動判別するとその分遅くなります。

Encode, Text::Iconv, Unicode::Japanese, Jcode, jcode.pl のベンチマーク比較によれば、

「ASCII, 漢字、カタカナ、ひらがなの混じったtext」という短い文章を1秒間にどれだけ SJIS に変換できるかというテストを行ったところ、

変換元を指定した場合 (Jcode::convert(fixed-sjis-pp206)) → 21,739回/秒

変換元を自動判別した場合 (Jcode::convert(guess-sjis-pp206)) → 5,945回/秒

と、4倍近い速度差が出ています。

(もっともこのテストでは1行程度の短い文章だから相対的に自動判別のコストが大きくなっているのであって、実際に使われるであろう長い文章では判別コストはもっと低くなると思われますが)

とにかく、変換元の文字コードがあらかじめ判っているなら面倒でも指定した方が良いです。

まきのっぴ · Accepted Answer · 2007-02-20T00:07:49+09:00

はい、例2の方が確実です。

自動判別は完全ではありませんので、失敗して文字化けを起こすことがあります。

例えばJcode.pm の文字コード自動判定にて、自動判別に失敗した事例が挙げられています。

また、自動判別するとその分遅くなります。

Encode, Text::Iconv, Unicode::Japanese, Jcode, jcode.pl のベンチマーク比較によれば、

「ASCII, 漢字、カタカナ、ひらがなの混じったtext」という短い文章を1秒間にどれだけ SJIS に変換できるかというテストを行ったところ、

変換元を指定した場合 (Jcode::convert(fixed-sjis-pp206)) → 21,739回/秒

変換元を自動判別した場合 (Jcode::convert(guess-sjis-pp206)) → 5,945回/秒

と、4倍近い速度差が出ています。

(もっともこのテストでは1行程度の短い文章だから相対的に自動判別のコストが大きくなっているのであって、実際に使われるであろう長い文章では判別コストはもっと低くなると思われますが)

とにかく、変換元の文字コードがあらかじめ判っているなら面倒でも指定した方が良いです。

Perl 上で　Jcode.pm を利用しています。

ベストアンサー

まきのっぴ358302007/02/20 00:07:49

その他の回答（1件）

b-wind33444402007/02/19 18:50:42

まきのっぴ358302007/02/20 00:07:49ここでベストアンサー

コメント（0件)

この質問への反応（ブックマークコメント）

トラックバック

Perl 上で Jcode.pm を利用しています。

ベストアンサー

まきのっぴ358302007/02/20 00:07:49

その他の回答（1件）

b-wind33444402007/02/19 18:50:42

まきのっぴ358302007/02/20 00:07:49ここでベストアンサー

コメント（0件)

この質問への反応（ブックマークコメント）

トラックバック

Perl 上で　Jcode.pm を利用しています。