あるサイトでアクセスログをとっているのですが、ログ解析のシステムが英語ベースのためキーワードランキングが文字化けしてしまいます。諸事情により根本的な解決は難しい状況ですので「現状の文字化けした文字」を「化ける前の正しい文字」に再変換する方法を教えてください。
ちなみに化けた文字の一例を以下に転記します。
例1:?n?[?g?x?^?[?g
例2:セノホ翊ソ、、ノツア。
例3:・ュ・イ・ゥ・?・?・ュ・?・ウ蠑キ隱ソ
以上、よろしくお願いします。
※判断材料として必要な情報が不足している場合はその旨ご回答ください。コメントの中で可能な限り情報提供します。
※対処法が無い場合はその旨ご回答ください。ただし明確な根拠を併記いただくことを条件とします。
文字化けしているテキストをテキストエディタにコピペし、文字コードを変更して読み込み直してはどうでしょうか?
秀丸エディタで文字コードをEUC-JPに指定して試したところ、
一応例2の先頭文字は「症例」と確認できました。
URL はダミーです。
私が使っているアクセス解析ツール(Webalizer, Modlogan, Awstats)はどれも英語版で、たしかに検索文字列は化けますが、ブラウザの表示文字エンコーディングを EUC-JP や UTF-8 に切り替えると、それぞれのエンコードでのキーワードが正しく表示されますよ。
一旦保存してコードを切り替えられるエディタで見てもいいですが、簡単に確認するだけならブラウザのままでもいけることがあると思います。
ありがとうございます、それができれば一番簡単そうです!
えーと…解決策ではありません。スイマセン。
はてなでは、半角カナを全角に直してしまいます。(多分?の部分も、置換されてしまっているかと思います)
なので、転記されている文字列が、もとのままのコードからかわってしまっているようです…
試しに「セノホ翊」の部分のカタカナを半角にしてEUC→SJISになおすと、「症例」が出てきました。「翊、、ノツア。」の部分は「い病院」が出てきました。
ありがとうございます。
基本的なことですが気づいていませんでした・・・
有力な回答ありがとうございます。
まずはその線で確認してみたいと思います。
引き続き回答募集中です。