JIS X 0213対応に際しての作業課題


2007年6月22日 作成
2007年6月26日 修正
2013年4月11日 最終修正(消し線追加。消し線以下を追記。)
富田倫生

※このファイルは、UTF-8(UCSの符号化手法の一つ。)でエンコーディングしてあります。
※使用している文字は、JIS X 0208とJIS X 0213にある範囲に限っています。


青空文庫はこれまで、JIS X 0208で作品ファイルを作ってきた。

これをJIS X 0213に対応させれば、外字注記の多くを、文字コードに置き換えられる。
外字注記の多いテキスト版は、大幅に読みやすくなる。

ただし、JIS X 0213化に当たっては、以下の作業が求められる。

1 JIS X 0213にある文字を、通常のコードに


・外字注記からコードに


 ※[#二の字点、1-2-22]
 ※[#「てへん+劣」、第3水準1-84-77]

といった外字注記を、面-区-点を表す文字列をみて、当該のコードに置き換える。(自動化が求められる。)

 ※[#二の字点、1-2-22] → 〻
 ※[#「てへん+劣」、第3水準1-84-77] → 挘

・アクセント分解された文字を、通常のコードに


 裏にかくれた 〔e'rotique〕 であつた → 裏にかくれた érotique であつた

といった変換を行う。(自動化が求められる。)

※0213の2バイト文字を、1バイトの欧文文字列の中に入れるのか?(上記の例では、2バイトの「é」と1バイトの「rotique」を並べている。プロポーショナル・フォントであれば、これでもバランス良く見えるはず。) 前後の半角空きは、どう扱うのか?

・くの字点の代用記号を、通常のコードに


 足がふら/\して → 足がふら〳〵して

といった変換を行う。(自動化が求められる。)

・他の文字で代用しているものを、通常のコードに


 二重ハイフンとして用いてる「=」は、「゠」に。

「[ァ-ヶ]=[ァ-ヶ]」だったら「[ァ-ヶ]゠[ァ-ヶ]」に変換」とすることでかなり行けそうな気もするが、失敗の可能性は残る。

2 包摂規準が変わる文字をチェックし、必要に応じて変更


「新JIS漢字時代の扉を開こう>新JIS漢字で書いてみよう[2]>【注意が必要な「包摂の扱いが変わる文字」】」で説明しているとおり、JIS X 0208単独で用いるときと、JIS X 0213と組み合わせて使う時とでは、以下のように、包摂規準の扱いが変わる文字がある。

これらに関しては、底本を当たり直し、必要に応じて文字を変更する必要がある。(0213化の中心は、この作業になると思われる。)

※ただし、以下に関する底本の当たり直しは行わず、外字注記だけをコードに置き換える、「簡易(似非?)0213化」ですませようと言う意見が出てくる可能性がある。

78互換包摂の29文字


A 唖焔鴎噛侠躯鹸麹屡繍蒋醤蝉掻騨箪掴填顛祷涜嚢溌醗頬麺莱蝋攅
B 啞焰鷗嚙俠軀鹼麴屢繡蔣醬蟬搔驒簞摑塡顚禱瀆囊潑醱頰麵萊蠟攢

ほとんどのケースで、A→Bの変更が求められると予想される。(底本と照合するしかないと思われる。)

包摂規準の適用が除外される104字


A 侮併僧免勉勤卑即喝嘆器塚塀増墨寛層巣廊徴徳悔慨憎懲戻掲撃敏既晩暑暦朗梅概横欄歩歴殺毎海渉涙渚渇温漢瀬煮状猪琢瓶研碑社祉祈祐祖祝神祥禍禎福穀突節緑緒縁練繁署者臭著薫虚虜褐視諸謁謹賓頼贈逸郎都郷録錬隆難響頻類黄黒
B 侮倂僧免勉勤卑卽喝嘆器塚塀增墨寬層巢廊徵德悔慨憎懲戾揭擊敏既晚暑曆朗梅槪橫欄步歷殺每海涉淚渚渴溫漢瀨煮狀猪琢甁硏碑社祉祈祐祖祝神祥禍禎福穀突節綠緖緣練繁署者臭著薰虛虜褐視諸謁謹賓賴贈逸郞都鄕錄鍊隆難響頻類黃黑

新字の底本では、Aのまま変更の必要なし。
旧字の底本では、A→Bの変更が求められることが多いと予想される。(底本と照合するしかないと思われる。)

包摂規準の適用が除外される10字(JIS X 0213:2004で追加)


A 倶剥叱呑嘘妍屏并痩繋
B 俱剝𠮟吞噓姸屛幷瘦繫

ほとんどのケースで、A→Bの変更が求められると予想される。(底本と照合するしかないと思われる。)

3 エンコーディング、文字集合の選択と作業環境


テキスト版は、UTF-8、JIS X 0213。
XHTML版は、UTF-8、JIS X 0213。

で良いか?

※文字集合をJIS X 0213と設定すれば、定義されたJIS X 0213の包摂規準に依拠できる。ただし、JIS X 0213にもない文字は、外字注記として残さざるを得ない。
文字集合をUCSに拡張すれば、コード化できる文字はより広がるが、依拠できる包摂規準が、実質的に存在しないという問題がある。統合漢字拡張A、拡張Bに続いて、拡張C、拡張Dが追加された場合、そのどこまでに合わせるのか、という問題も生じる。
それでも、外字注記をほとんど皆無にできるということは魅力的なので、第1〜第4水準までは包摂規準に依拠。それでもコード化できないものが、UCSの例示字体とドンピシャあっている場合に限って使ってしまうという、行き方もあるのかもしれない。

文字集合をUCSに拡張すれば、コード化できる文字はより広がる。JISの包摂規準にあたるものとして、
UCV (Unifiable Component Variations) of Ideograhsを利用できるのではないかと思われる。
ただし、どの範囲までをコード化し(例えば、BMPまでといった具合に)、どこからを外字注記として残すかといった方針を定めて、作業を進めることが必要になる。実質上の標準が、どの範囲までのフォントをカバーするかの動向によっては、いったん下したコード化の範囲に対する判断が、陳腐化する可能性はある。