投稿の管理 - Visual Basic 中学校掲示板

この投稿へのリンク

https://keijiban.umayadia.com/ThreadDetail.aspx?ThreadId=10323#CommentId21047

この投稿の削除

削除パスワード

コメント本文

投稿者 魔界の仮面弁士 (社会人) 投稿日時 2011/7/7 07:43:29

> http://hogehoge.com/foobar.html
> なおURLを仮のものです。

URL やメールアドレスを例示する場合には、hogehoge.com を使うのではなく
example.com や example.net 等を使うようにしましょう。
これは例示するために予約されたドメイン名です。(RFC 2606 の 3 章を参照)

http://allabout.co.jp/gm/gc/23887/
http://neta.ywcafe.net/000501.html

> どのようにすれば正しい文字コードを読み込む前に判別できるのでしょうか？
Web ページにおける文字コードの取得には
　(1) HTTPレスポンスヘッダー中の
　　「Content-Type:text/html; charset=ISO-2022-JP」。
　(2) HTML の <head> タグ配下にある
　　「<meta http-equiv="Content-Type" content="text/html; charset=euc-jp">」。
　(3) 文書の先頭にある XML 宣言
　　「<?xml version="1.0" encoding="Shift_JIS"?>」。
　(4) 文書の先頭数バイトが示すバイトオーダーマーク(BOM)。
　　「EF BB BF」のバイナリだった場合は UTF-8、
　　「FF FE」のバイナリだった場合は、(リトルエンディアンの) UTF-16、
　　「FE FF」のバイナリだった場合は、(ビッグエンディアンの) UTF-16、
を使う事ができるとされています。

しかし(1)は、charset が未指定なサーバーも少なくないため、当てにはできません。
そもそも、ここの charset が実際のファイルの内容と合致していないケースもままあります。
HTML ファイルの内容と違って、HTTP ヘッダーの内容は確認しずらいということもあり、
サイト管理者が十分な知識を持たない場合、誤った設定であることに気づきにくいためです。

次に(2)。これは文書自体に誤記されていなければある程度信頼できますが、
これが記載されていない HTML 文書も存在するため、確実な方法ではありません。

(3) はかなり信頼できる情報ですが、そもそも HTML 文書では XML 宣言がありません。
これが含まれるのは、XML 文書や XHTML 文書用の記述に限られます。しかも、たとえ
XML 文書であったとしても、Unicode (UTF-8 とか UTF-16 とか)で記述された文書では、
XML 宣言を省略できることになっています。

(4) も信頼性の高い情報です。これが検出された場合は、確実に文字コードを判定できます。
ただし、BOM そのものは必須ではありませんので、これらが検出されない文書の方が多いです。
しかも BOM が使われるのは UTF-7、UTF-8、UTF-16、UTF-32 に限られており、
Shift_JIS や EUC-JP 等では利用されません。

…ということで、残念ながら確実な方法というものは実はありません。

ですから、まずは文字列として読み取るのではなく、バイナリとして取得しておき、
そこから複数のエンコーディング候補を一つ一つ試してみて、その中で
デコードエラーが起きた物を除外する方向で実装してみては如何でしょう。

エンコードエラーやデコードエラーを検知する場合には、
System.Text.Encoding.GetEncoding メソッドの第2/第3引数に
　System.Text.EncoderExceptionFallback クラス
　System.Text.DecoderExceptionFallback クラス
を指定すれば OK です。その文字コードでは扱えないデータが
含まれていた場合には例外が発生しますので、Try～Catch で検知します。
(例外の内容から、どのデータが例外の原因になったのかを調べることもできます)

0