[Namazu-devel-ja 759] decode_numbered_entity 関係修正

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2005年 12月 7日 (水) 07:47:18 JST


寺西です。

Malformed UTF-8 character .... というワーニングや
Wide character in print at mknmz といったワーニングが発生し、
インデックスを壊す可能性があるので、とりあえず
filter/html.pl の decode_numbered_entity で、256以上を削除するよう
にしました。(本来ですと 128以上は削除しなければなりませんが...。)
日本語環境では元々128以上は削除されるので、あまり関係ありません。

filter/gnumeric.pl も似たような問題があったので修正しました。
gnumeric では日本語はEUC-JPのままエンコードされるらしいです。
(というより何も考えずにエンコードしているのでしょう。)
このため、日本語環境以外でデコードすると文字化けの原因となるため、
日本語環境以外では128以上は削除するようにしました。
また、EUC-JPの範囲外のコードをデコードするのは好ましくないため、
簡単なコードの範囲チェックを加えました。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E




Namazu-devel-ja メーリングリストの案内