「明日」のファイルへの準備

0208対応ファイルを、0213に移行させる際、必要となる情報

2002年1月10日 作成
2003年10月29日 修正
富田倫生
この文書の狙い

青空文庫ではこれまで、第1第2水準の漢字などを定義した、JIS X 0208という文字コードを使って、ファイルを作ってきました。
「0208でファイルを作る」という姿勢は、今後もしばらくの間、維持することになりそうです。

ただし、青空文庫では将来的に、第3第4水準の漢字などを定義した、JIS X 0213という文字コードに対応することを考えています。
移行に際しては、それ以後作成するテキストを0213で作るというだけではなく、それまで0208で作ってきたものも、0213に対応させたいと思います。

0213でファイルを作る際には、第3第4水準の漢字が使えます。
0208では、外字として注記するしかなかったもののかなりを、普通の文字として扱えるようになります。

一方、0213への移行に際しては、やっかいな問題も生じます。
細かな字体差で、コードを区別するかしないかを決める、包摂規準と呼ばれるルールが、0208と0213では、一部違ってくるのです。
そのため、0208で作業しているときには「区別しない」はずだったものが、0213では「区別する」に変わります。

整理すれば、0208から0213への移行に際しては、
1 外字として注記してきたものの中で、第3第4水準にあるものは、注記部分全体を、当該の文字コードに置き換える。
ことと、
2 包摂規準の扱いが変わって、新たにテキスト上でも「区別される」文字に関して、底本どおりの扱いとする。
という、二つのことが求められます。

2の実施にあたっては、底本が、新たに区別される二つの字体のどちらを用いていたのかを確かめ直し、必要に応じてファイルを修正しなくてはなりません。

こうした作業が必要になることは、現時点ですでにわかっています。
ならば、そのための準備をしておいてはどうでしょう?
現在進めている入力、校正の作業中には、手もとに底本を置くことになるのだから、先々必要になる情報をメモとして残しておこうというわけです。

では具体的に、どんな情報を、どんな形で、どこに書き込んでおけばよいか。
ある工作員の方からいただいた、この問い合わせに対する返答を、以下に示します。

すべての工作員の方に、ここまでの作業をお願いするものではありません。 とはいえ、ここまで踏み込んで作業していただければ、0213への移行時の作業負担は、大幅に軽減できます。
青空文庫への登録から時を置かず、あるいは文庫への登録と同時に0213化を行って、「明日の本棚」に収録してしまうことも、無理な話ではなくなります。

なお、この文書を作成するに当たっては、柴田卓治さんが考案されたメモの形式を参考にさせていただきました。

Hさんへの返信

青空文庫の旧JISファイル(0208対応)を、新JIS(0213対応)に移行させようとする際に、求められる情報は次の二つです。

1 これまでの外字のうち、第3第4水準に入ったものに関しては、そのコード。
2 旧JISと新JISで包摂の扱いが変わる文字が、底本でどうなっているか。

この二つが分かっていれば、新JIS対応が楽に進みます。
特に2が分かっていると、あらためて底本にあたる必要が生じません。

【第3第4水準のコード】

これに関しては、Hさんはすでに理解しておられますね。
第1第2にない文字に関しては、「新JIS漢字総合索引」で調べてみる。

もし第3第4にあれば、面区点番号を、外字注記の中に次のような形で書き込んでおく。

※[#「牛+建」、第3水準1-87-71]

この作業です。

こうやってコードを入れておけば、この外字注記全体を、「「牛建」に置き換えられます。

【旧JISと新JISで包摂の扱いが変わる文字が、底本でどうなっているか】

加えて、移行時には、新JISで包摂の扱いが変わるものに関する情報が求められます。

旧JISと、新JISで包摂の扱いが変わるものには、「78互換包摂」と「適用除外」の二種類があります。

●78互換包摂

一貫した方針で包摂のルールを貫く上では、本当は旧JISでも、包摂するべきではなかった。
けれど現実に、「包摂と言っておくしかない」事情が生じていた。

例えば、「区鳥」と「區鳥」を区別せずに、「鴎」の区点位置に対応させることになった、といったものが「78互換包摂」です。
これが、29字存在します。

これ、旧JISの規格のミスだったので、新JISを設けるに当たって、「区鳥」と「區鳥」といったように、区別できるようにしました。

「区鳥」だけが、従来どおりの[第1水準1-18-10]ということにする。
一方「區鳥」には新たに、[第3水準1-94-69]というコードが与えられました。

こうした事情に関しては、↓この文章の、「78互換包摂」の前後で説明しています。
http://www.aozora.gr.jp/newJIS-Kanji/newJIS5.html#5-2

そこを踏まえて、青空文庫の作業に戻りましょう。

文庫のファイルは、旧JISの包摂規準で入れることになっています。今でも、そうですね。

ですから底本に「区鳥」があっても、「區鳥」があっても、これは「78互換包摂」扱いなのだから、[第1水準1-18-10]の「鴎」で入れるのが正解です。

ところがこうして作ったファイルを新JISに対応させようとすると、新JISでは、「区鳥」と、「區鳥」が区別されてしまいます。
だから移行の際には、あらためて底本にあたって、「鴎」で入れたものが本当は「区鳥」だったのか、それとも「區鳥」だったのか、確認しなければなりません。

そこで、旧JIS対応で行う入力や校正の際に、これらに関して、底本ではどっちが使ってあるのかというメモを残しておけば、将来新JISに対応させるときに、もういっぺん底本を引っぱり出してくる必要がなくなるというわけです。

「78互換包摂」には、次の29字があります。
唖焔鴎噛侠躯鹸麹屡繍蒋醤蝉掻騨箪掴填顛祷涜嚢溌醗頬麺莱蝋攅
これらに関しては、底本では極めて高い確率で、今画面上で見えている簡易字体ではなく、第3第4に新たに加えられた、少し込み入った字体の方が使われていると思います。
「区鳥」ではなくて、「區鳥」がほとんどでしょう。

でも一応確認してみてください。
底本がやはり、第3第4水準にある、込み入った字体の方を使っていたら、ファイルの末尾に、置き換えを指示するメモを残しておいてください。

メモの形式に関しては、以下でまとめて説明します。

●適用除外

さて、新JISではもう一種類、「包摂規準適用除外」と呼ばれるパターンで、包摂の扱いが変わってくるものがあります。

http://www.aozora.gr.jp/newJIS-Kanji/newJIS5.html#5-2 に、「104字」として掲げてあるものです。

これらは、「包摂規準の一貫性」という意味では、ずっと包摂にしておきたかったのだけれど、「人名用漢字」といった行政上の要請に応えるために、簡易な字体と込み入った字体とを区別する事になったものです。

これも青空文庫の現在の作業方針では、「簡易」、「込み入り」の双方を、同じコードで入力するのが正解です。
それが新JISで別れてしまうために、対応版を作るときは、底本がどうなっていたかを確かめる必要が出てきます。

そこでこれらに関しても、あらかじめ底本でどうなっているかメモを残しておけば、将来の新JIS対応時に、底本を当たり直す必要がなくなります。

これに該当するのは、以下の104字です。
侮併僧免勉勤卑即喝嘆器塚塀増墨寛層巣廊徴徳悔慨憎懲戻掲撃敏既晩暑暦朗梅概横欄歩歴殺毎海渉涙渚渇温漢瀬煮状猪琢瓶研碑社祉祈祐祖祝神祥禍禎福穀突節緑緒縁練繁署者臭著薫虚虜褐視諸謁謹賓頼贈逸郎都郷録錬隆難響頻類黄黒
底本が新字新仮名なら、今画面で見えている簡易な字体で入っているものと、第3第4に新たに加えられた、少し込み入った字体で入っているものとの両方があるはずです。(少しやってみればパターンが見えてくるでしょう。104字の内、常用漢字にあるものは簡易字体、ないものは込み入った字体になっている例が、ほとんどだと思います。)

一方、底本が旧字旧仮名なら、第3第4に新たに加えられた、少し込み入った字体が、ほとんど例外なく使われていると思います。

確認してみて、第3第4にあるものが使われていれば、ファイルの末尾に以下のようにメモを残しておいてください。

●メモの形式

新JIS対応のための情報を、メモとして残す際には、以下に青く示すように書いてください。

※「JIS X 0213」では、ファイル中の「躯、屡、繍、掻、嚢、溌、頬、蝋、頻」は、すべて次の面区点番号の文字に置き換える。

 「躯」  第3水準1-92-42
 「屡」  第3水準1-47-64
 「繍」  第3水準1-90-22
 「掻」  第3水準1-84-86
 「嚢」  第3水準1-15-32
 「溌」  第3水準1-87-9
 「頬」  第3水準1-93-90
 「蝋」  第3水準1-91-71
 「頻」  第3水準1-93-91

書き込み位置は、以下のように、ファイルの最後尾としてください。

 彼は急がずせかず、新聞の間から落ちた広告のビラを拾い上げた。彼は、顎の辺が俄かに蒼白になったような表情で顔を歪めながら、世にも躊躇せぬ手軽さで熊蠅をその紙の中にまるめ込んでしまった。源一は肱掛窓の格子の隙から、ボールを投げるように境のトタン塀に向ってそれを投げつけた。



底本:「宮本百合子全集 第二巻」新日本出版社
   1979(昭和54)年6月20日初版発行
   1986(昭和61)年3月20日第5刷発行
親本:「宮本百合子全集 第二巻」河出書房
   1953(昭和28)年1月発行
初出:「若草」
   1926(大正15)年10月号
入力:柴田卓治
校正:原田頌子
ファイル作成:
YYYY年MM月DD日公開
YYYY年MM月DD日修正
青空文庫作成ファイル:
このファイルは、インターネットの図書館、青空文庫(http://www.aozora.gr.jp/)で作られました。入力、校正、制作にあたったのは、ボランティアの皆さんです。

-------------------------------------------------------
※「JIS X 0213」では、ファイル中の「焔、箪、塀」は、すべて次の面区点番号の文字に置き換える。

 「焔」  第3水準1-87-49
 「箪」  第3水準1-89-73
 「塀」  第3水準1-15-58

破線以下のメモは、旧JISでの公開時には外しておきますが、世話役の手もとにはちゃんと残しておきます。

●「互換包摂」と「適用除外」の探し方

問題となる29字と104字を、人間の目で探していくのは、到底不可能です。 ファイル中にある「78互換包摂」と「適用除外」のチェックは、「文字チェッカー」に全面的に任せて下さい。

http://www.hyuki.com/aozora/checker.cgi

「文字チェッカー」の入力画面で、オプションの「[78] 78互換包摂29字をチェックする」と「[jyogai] 新JIS漢字で包摂規準の適用除外となる104字をチェックする」にマークを付けてチェックすると、底本の状況を確認すべき文字が、色変わりで示されます。

文章が一定量を超えると、文字チェッカーはエラーになってしまうので、その際は少しずつ文章を区切って、チェックしてみてください。

以上