投稿者 まこ  (社会人) 投稿日時 2021/9/6 07:27:35
魔界の仮面弁士様、ありがとうございます。

すみません。Webで見たのは、頭に「&」が付いていました。
よくWeb上でデコードに失敗した場合、表示できない文字がそのように表示されています。
#xxxxx;のxが5つは、xの後に4桁の16進数のつもりで書きましたが、分かりにくかったですね。
申し訳ありません。HTMLで文字をスカラー値で表す場合に用いて「文字参照」と呼ぶのですね。
こちらの件は了解しました。

サロゲートの件は、完全に私が勘違いしているみたいでした。
ご教示、頂いた内容を自分なりに解釈したのが↓です。

この文字は「サロゲート文字」である。という考え方をしていたのですが、
(例えばU+29E3D(ホッケ)は「サロゲート文字」である。)
これは、「UTF-16なら当てはまるが、UTF-8には当てはまらない」ので、
そもそも「サロゲート文字」というように「文字」を末尾に付ける表現自体おかしい。
「UTF-16においては、4バイトでないと表現できない文字」を「サロゲートペア」と呼ぶ。
と理解しましたが、合ってるでしょうか?
それとUTF-8では漢字等は3バイトで表現するので、そもそも「サロゲート自体存在しない」
との認識で合ってるでしょうか?

お忙しい時に恐縮です。お時間の空いた時でいいので、コメント頂ければ幸いです。