CSVで渡されたデータの中に旧字を使われているため、PostgresにCopyでもっていったときその字が消えます。（高島屋の高が古い字）この場合、データに外字や98文字があるとそれらは消えます。手で変換するもどんな文字があるかわからないので対応が出来ません。どうすれば良いでしょうか？

Question

23

75pt

回答の条件

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

コメントはまだありません

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません

SigZ · Answer 1 · 2005-04-11T15:48:43+09:00

PostgreSQL & Utf-8

消えてしまう文字とは、UNICODEにはあるけどShiftJISにはない文字のことでしょう。便宜的にUNICODE依存文字とでも呼びましょう。

まずCSVの中で、ほんとうにUNICODE依存文字が使われているのかどうかです。Excelで保存したCSVデータは、バージョンによってはShiftJISでしか保存されませんから、CSVの段階で既にUNICODE依存文字が”?”に置換されている場合があります。

CSVの段階でもUNICODE依存文字が表示できているなら、PostgreSQLをUTF-8に対応させればよいのではないでしょうか？

外字は個々のPC環境に依存する話ですから、個別に対応しなくてはならないでしょう。

sight · Answer 2 · 2005-04-11T19:00:57+09:00

UNICODEとShiftJISの話がでていますが、

もとのCSVの文字コードがShiftJISと仮定してお話させて頂きます。

高島屋の高（はしご高）はShiftJIS環境でも扱われます。

ただし、IBM拡張文字として扱われていると思います。

このため、PostgreSQL及びDBへのデータプロバイダ（ODBCドライバとかOLEDBプロバイダとか）がIBM拡張文字に対応している必要があるのではないかと思います。

バージョン的にPostgreSQLが未対応ならどうにもなりませんが、ODBCドライバとかの問題なら、ドライバのバージョンアップで改善できるかもしれません。

何れにせよ、未対応の文字がある場合は何らかの規則を決めて、ＤＢに渡す前に空白なら空白に変換してしまうほうがいいかもしれません。

IBM拡張文字を始め、ShiftJISの第二表領域にあるもの、第一表領域のものでも、JIS0208相当で未定義になっている区点に割り当てられた文字などは注意が必要です。

SigZ · Answer 3 · 2005-04-11T21:02:35+09:00

No.3

25pt

> PGではmb_convert_encodeing($p,”UTF8”,”SJIS”)かけてます。

CSVが既にUTF-8でencoding されているなら、mb_convert_encodeingは不要だったりしませんか？そういう意味ではないのかな？

うみ、SJIS（でみせてるから変換なんですが、明日やってみますね。）社内の作りが悪いので、こちらがUTFでやると、他のサイトが化ける数が多いので、、、

ただ、DB作り直しは、Debug機でやってみます。明日から社内利用開始なもので、、、

5/11 13:00 に公開しましたが、　Debug環境の構築手間取り時間がかかるのでいったん終了します。

ありがとうございました。

2005/04/12 12:49:10

回答（3件）