2008年10月23日

MacOSX 上の Acrobat の OCR の奇妙な文字化けに対処する

MacOSX の OCR の選択肢は狭く、ちょっと躊躇する分野である。そのため、Acrobat 搭載の OCR が重宝すると思う。

しかし!!

僕の持っている Acrobat 8.1.2 では OCR 処理後に埋め込まれる文字が奇妙な文字化けを起こして、全く使えなかった。

ググりまくっても対処法が見つからずに途方に暮れていた。

はて?なんすかね?

ふと文字化け文字列をコピペして UTF-8として再認識させると 80% 位が日本語として識別できるようになった。

詳しく調べてみると、OCR処理後に埋め込まれる文字列が「90ms-RKSJ-H」というエンコードで符号化される(要するにShift-JISの亜流)はずが、コイツの中身が勝手に「UTF-8」になってるっぽい?らしい。

小一日後、、、ふと思ったのが、環境変数LANGかなくらい。。。

LANG変数は、結構昔に ~/.MacOSX/environment.plistで ja_JP.UTF-8 と設定してある。

コイツを削除してみた。。。

あぁぁ、奇妙な文字化けがなくなったぁぁ。

どうやら、MacOSX 版の Acrobat Pro 8.1.2 に含まれる OCR 機能は、勝手に環境変数LANGを参照して、文字化けになってるっぽい。

なんだかなぁ、、、疲れる仕様だなぁ


[全文を読む]