MacOSX の OCR の選択肢は狭く、ちょっと躊躇する分野である。そのため、Acrobat 搭載の OCR が重宝すると思う。
しかし!!
僕の持っている Acrobat 8.1.2 では OCR 処理後に埋め込まれる文字が奇妙な文字化けを起こして、全く使えなかった。
ググりまくっても対処法が見つからずに途方に暮れていた。
はて?なんすかね?
ふと文字化け文字列をコピペして UTF-8として再認識させると 80% 位が日本語として識別できるようになった。
詳しく調べてみると、OCR処理後に埋め込まれる文字列が「90ms-RKSJ-H」というエンコードで符号化される(要するにShift-JISの亜流)はずが、コイツの中身が勝手に「UTF-8」になってるっぽい?らしい。
小一日後、、、ふと思ったのが、環境変数LANGかなくらい。。。
LANG変数は、結構昔に ~/.MacOSX/environment.plistで ja_JP.UTF-8 と設定してある。
コイツを削除してみた。。。
あぁぁ、奇妙な文字化けがなくなったぁぁ。
どうやら、MacOSX 版の Acrobat Pro 8.1.2 に含まれる OCR 機能は、勝手に環境変数LANGを参照して、文字化けになってるっぽい。
なんだかなぁ、、、疲れる仕様だなぁ
0 件のコメント:
コメントを投稿