――MacJPerlで使う「旧字体に置き換えられるか調べるスクリプト」――
【Windowsの方へのお願い】
ここで紹介する「旧字体に置き換えられるか調べるスクリプト」は、旧字旧仮名作品の入力、校正にかかわるすべての方に使っていただきたいツールです。
本来ならWindowsで動かす際の手順も並べて書きたかったのですが、とりまとめに当たっている者にその力がないので、とりあえずMacintoshのみを想定して書きました。
この情報のかたよりを見て、双方を使いこなせる仲間が、Windowsユーザーのための補足ページを書いてくれました。
Windowsで使うために必要な、PerlとJPerl、そして「旧字体に置き換えられるか調べるスクリプト」そのもののインストールと使い方に関しては、「Windowsのための補足」を参照してください。
●校閲君でチェックする。
【目標】
旧字旧仮名のファイルには、しばしば旧字、正字に置き換えるべき新字、俗字が残ってしまいます。
「旧字体に置き換えられるか調べるスクリプト」(以下、「校閲君」と書きます。)で、紛れ込んだ新字、俗字を洗い出します。
【準備】
とりあえず新字・俗字洗い出しツールを試してみたいと思われる方は、ここをクリックして「すぐやる校閲君」を引き落とし、解凍してください。(StuffItで圧縮した状態で、980Kバイトあります。)
Perlで書かれたスクリプトを動かすためには、Perlという言語そのものをシステムに組み込んでおかなければなりません。
ところがMacJPerlでは、言語なしで動かせる、「実行専用」という形式が選べます。
「すぐやる校閲君」はこの「実行専用」に仕立ててあるので、MacJPerlの準備抜きで、すぐに働いてくれるのです。
解凍すると、ファイル名「shinji_check_runonly」、富士山にラクダの下のようなアイコンが現れるはずです。
すでにMacJPerlをインストールしている方は、こちらの「校閲君Droplet」を引き落とし、解凍してください。(圧縮した状態で12Kバイトとごく小さい上に、この形式のものはスクリプトの修正が可能です。)
ファイル名「shinji_check_droplet」の、富士山にラクダのアイコンが現れるでしょう。
【さあ、チェックしてみよう】
旧字旧仮名のファイルを、校閲君のアイコンにドラッグ&ドロップしてみましょう。
手許に適当なものがなければ、森鴎外「寒山拾得」(旧字・旧仮名)のテキスト版をダウンロードしてください。
チェックするファイルを校閲君にドロップすると、同じ場所(同じフォールダー内、元ファイルをFinderに置いていた場合はFinder上)に、検査結果を書き込んだファイルが、白紙のアイコンの形で新しく作られます。
もともとのファイル名の後ろに、「.rep」とついているのを確認してください。 「kanzanjittoku.txt」をドロップすると、「kanzanjittoku.txt.rep」ができているはずです。
いつも使っているエディターで、「.rep」の付いたチェック済みファイルを開いてみて下さい。
●校閲君のチェック結果。冒頭の「▼号號▲」は、「このファイルでは「号」が使われていますが、底本中にあるのは「號」ではないですか?」との問いかけを意味している。
チェック結果のウインドウの中で青く示されている「▼飲飮▲」は、一見したところ、どこが違うのか、見きわめがつかないでしょう。
別のウインドウを開き、表示フォントを大きくして確かめてみましょう。
●先に示された本文に使われている「飲」は、新字。後に示されている代替候補の「飮」が、旧字。
「▼台臺▲」や「▼言云▲」など、明らかに形が異なっているものでは、入力ミスは起こりにくいはずです。
一方、「▼飲飮▲」のように、小さなサイズではほとんど見分けの付かない文字は、誤りの確率がグンと高くなります。
チェック済みのファイルで、「▼飲飮▲」のようにマークされた箇所を底本と照合し、置き換えの必要はないのか、確認してみてください。
新しいファイルを続けてチェックする際、実行専用のすぐやる校閲君では、メニューの「ファイル」から「終了」を選んでいったんプログラムを終了させてから、新しいファイルをアイコンにドロップしてください。
Dropletにした校閲君では、この操作は不要です。次々に新しいファイルをドロップして、チェックしていけます。
●チェック結果を連絡する。
【雇用促進のお願い】
旧字旧仮名作品にかかわりを持っておられる方に、お願いします。
みなさんの作業を、校閲君に手伝わせてください。
校閲君を常勤として雇っていただきたいのは、
・現在、旧字旧仮名作品の入力、または校正にあたっている方
・今後、旧字旧仮名作品の入力、または校正を開始する方
できればアルバイトとして雇っていただきたいのは
・かつて旧字旧仮名作品の入力にあたられた方
です。
旧字旧仮名作品の入力にあたっている方は、必ず校閲君によるチェックを作業工程に組み込んでください。
旧字旧仮名作品の校正に取り組んでおられる方にも、校閲君によるチェックをお願いします。
ゲラ(校正用のプリントアウト)だけで作業している方は、info@aozora.gr.jpに求めてもらえれば、ファイルをお送りします。
(ただし、校閲君の導入が難しすぎると感じられた場合は、この作業は省いていただいてかまいません。旧字旧仮名のファイルで校閲君のチェックを行わない場合は、校正紙の返却時に「校閲君によるチェックは行っていない」旨を必ず書き添えてください。)
かつて旧字旧仮名作品の入力にあたられた方に、お願いいたします。
青空文庫に登録済みの旧字旧仮名作品には、置き換えるべき新字、俗字が大量に紛れ込んでいます。
あなたが作業された作品のうち、底本が手許に残っているもの、底本の手配がつきやすいものに関しては、可能なときに校閲君によるチェックと底本の照合を行っていただけないでしょうか?
【連絡のしかた】
チェックと照合の結果は、info@aozora.gr.jp宛、お知らせください。
ファイル中に使われている「飲」(新字)がすべて、底本中では「飮」(旧字)であった場合は、「「飲」はすべて「飮」に変更」と、まとめて指示してください。
場合によっては、新字(俗字)と旧字(正字)が同一作品中で使い分けられていることもあるかもしれません。
万が一、使い分けが行われている場合は、該当個所を含む適当な範囲をコピーして、「「ろくな藥は飲ませて貰ふことが出來なかつたのである。」の「「飲」は「飮」に変更」と個別に指示してください。
皆さんからまとめてご指摘をいただいても、ファイルの修正は少しずつ進めていくことしかできません。
世話役の側もぼちぼち作業していきますので、皆さんもどうぞ、ご自分のペースでチェックに取り組んでみてください。
●校閲君の手口をのぞいてみる。
校閲君は、Perlというプログラミング言語で組み立てられたスクリプトです。
Perlそのもの(MacintoshならMacJPerl)を導入しておけば、中味をのぞいて作業手順を確認できます。
さらに、働きっぷりに注文があれば、スクリプトを修正して仕立て直すことも可能です。
【Perlの導入】
校閲君の中味をのぞき、修正を行うために、Perlをインストールしましょう。
Macintoshの方は、「猫に真珠」の「最初の一歩 ―ともあれ動かしてみよう―」、「(1) インストールする」の指示に従って、MacJperlを導入してください。
Windows用のPerlの置き場所と導入の手順は、「青空文庫 「文の道具箱」」「●新字新仮名のファイルを、旧字旧仮名に変換」の「Windowsの場合 (2000.9.14現在)」、「その1 perlの準備」に示してあります。
【校閲君は何をみているか】
校閲君が、何をどんなふうに見ているか、作業手順をのぞいてみましょう。
MacJPerlのアイコンをダブルクリックして、起動してください。
メニューの「ファイル」から「開く」を選びます。
ダイアログボックスで、校閲君(ファイル名は、「shinji_check_droplet」です。)を探して選択し、「開く」をクリックしてください。
●ここでは、あらかじめ「校閲君」というフォルダーを作り、そこに「shinji_check_droplet」を収めておいた。解凍した校閲君をFinder上に置いていれば、「shinji_check_droplet」はそこで見つかる。
校閲君の中味が、以下のように表示されるでしょう。
1行目の、「# 旧字体に置き換え可能か調べるスクリプト」のように、頭に「#」のマークが付いているところは、作者の大野裕さんが付した、コメントです。
ともかくコメントのところだけ、最初にざっと目を通してみてください。
次に、校閲君が何をしているか、上から順に確認していきましょう。
青く反転させているところは、新字と旧字の対応リストです。
二文字ずつ、漢字がペアになっているところの冒頭に、「亜亞」が並んでいます。
検査対象のファイルの中に新字の「亜」があると、校閲君は旧字の「亞」を添え、「▼亜亞▲」の形で置換します。
次に、「# その他の異体字のうち、無条件の置き換えが問題なさそうなもの」を見ていきましょう。
「@itaiji = qw(」以下に示された、「芦蘆」からはじまる組み合わせが、チェックの対象となっているセットです。ここには、正字と俗字(略字)の組み合わせが並んでいます。
一方、「# 抜いたもの」には、チェックするべきか否か検討した結果、大野さんが「外そう」と決めたものが並んでいます。
しばらく校閲君を使ってみると、「この字のチェックは不要だな」と思われるものが出てくるかも知れません。
例えば、「@itaiji = qw(」から続く行の最後から二番目に入っている、「言云」に関しては、形が明らかに違っていて、入力時・校正時に不注意で見逃す可能性は低いはずだから、外しても良いかもしれません。
そうしたければ、「言云」を「# 抜いたもの」にうつします。
これで、「言」が「▼言云▲」に置き換えられることはなくなります。
「# 他にもこんなのもある」に置かれたものも、この状態ではチェックされません。
【校閲君の隠し機能】
「# その他の置き換えリスト」以下には、現時点では発揮されていない、校閲君の秘められた力が組み込まれています。
「互換包摂の29字」と「包摂除外の104字」が何を意味するかは、【注意が必要な「包摂の扱いが変わる文字」】を参照してください。
あなたがMacJPerlの表示フォントを、KandataもしくはHabianに切り替えていなければ、置き換えの候補として示される文字は、上の図のように白抜きの□で示されているでしょう。
MacJPerlのメニューの「編集」から「編集様式」を選び、フォントをKandataもしくはHabianに切り替えると、下の図のように置き換えの候補として示される文字を確認できるようになります。
例えば「互換包摂の29字」をチェックさせたいときには、「# @newjis_a = qw(」の頭に付いている「#」を削除します。
コメントを意味する「#」が外れたことで、校閲君は以下のペアも処理するようになります。
「包摂除外の104字」をチェックさせたいときも、同様に「# @newjis_b = qw(」の頭の「# 」を削除してください。
旧字旧仮名のファイルを、第3第4水準も使って作る場合には、「互換包摂の29字」と「包摂除外の104字」のチェックが必要です。
一方、青空文庫が現時点の標準的な作業手順としている、第1第2水準の範囲で作る場合には、この二種類のチェックを行う必要はありません。
(第3第4水準、Kandata、Habianなどは、かなり込み入った新しい話題です。これらの言葉を、あなたがこの文書ではじめてご覧になったのなら、意味が分からなくて当然です。「新JIS漢字時代の扉を開こう!」という文書で、平易を心がけてこれらについて説明していますので、参照してみてください。)
「# 一つの配列に」以下には、校閲君の処理の手順が記述されています。
Perlスクリプトの組み立て方には、ここでは立ち入りません。
興味のある方は、「猫に真珠(Perl)」に示された関連ページなどから、踏み込んでいってください。
●校閲君がチェックする新字・旧字と正字・俗字。
新字・旧字、正字・俗字などと、ここまでは説明を付けずに書いてきました。
果たしてこれらは、正確には何を指す言葉なのか、改めて確認しておきたいと思います。
【新字と旧字】
「新字」「旧字」という言葉が生まれるきっかけをつくったのは、いわゆる戦後改革の柱の一つとして進められた、国語改革です。
敗戦から間もない、1946(昭和21)年11月16日、「当用漢字表」が内閣告示されました。
これまで我が国で用いられてきた漢字は大変多く、使い方も複雑で、不便な点があった。そこで漢字の使い方を制限し、「国民の生活能率をあげ、文化水準を高める」ようとする、試みでした。
この当用漢字表では、一部の文字で、それまで慣用的に使われてきた簡易字体が、「本体」として採用されました。
「これからは簡単なこの字体で行こう」と、いくつかの文字に関しては、決められたのです。
このとき採用された簡易字体は、漢字字書などにまとめられてきた従来の規範の中では、俗字や略字とされてきたものでした。
実は、当用漢字表には、字体の吟味に十分でない点がありました。
そこで、「当用漢字表制定の趣旨を徹底させるため」として、さらに字体の整理を推し進めた「当用漢字字体表」が、1949(昭和24)年4月28日に内閣告示されます。
当用漢字表では131字で採用された簡易字体が、都合約500字と大幅に増えることになりました。(当用漢字字体表で新たに採用された簡易字体には、俗字や略字に加え、新たに点画が整理されたものがありました。)
国の定めた当用漢字で、たくさんの簡易字体が「これからの形」としてお墨付きを得たのですから、これらを今までのように、俗字や略字などと呼ぶのは不適当でしょう。
そこで用いられるようになったのが、「新字」という新しい呼称です。
あらためて新字を定義すれば、「当用漢字に採用された、簡易字体」と言えるでしょう。
一方の旧字は、「従来、正字とされてきたもののうち、対応する簡易字体が当用漢字に採用されたもの」となるでしょうか。(「新字」に表看板を奪われて、裏に回らざるを得なくなった、従来の「正字」なんて言い方の方が、ピンとくるかもしれません。)
「乱」は、当用漢字表制定以前は、正字「亂」の俗字でした。
ところが、当用漢字表で「乱」が「本体」と決められたため、こちらが「新」となって表に立ち、「亂」は「旧」となって裏に回った。
このように当用漢字によって表裏が逆転した関係を表すのが、新字、旧字という言葉です。
当用漢字はその後、制限の色彩を薄めた常用漢字へと引き継がれます。
1981(昭和56)年10月1日、常用漢字表が内閣告示され、これに伴って「当用漢字表」「当用漢字字体表」は廃止されました。
新字に対する定義はこれに伴って、「常用漢字に採用された、簡易字体」に、旧字は「従来、正字とされてきたもののうち、対応する簡易字体が常用漢字に採用されたもの」となりました。
【正字と俗字、略字】
これまでの説明の中で、これも断りなしに使ってきた「正字」と「俗字」「略字」も、改めて定義しておきましょう。
「正字」とは、その漢字の仕組みからして「正しいと判断される形のもの」を指します。
漢字字書の編纂者などによる判断の結果、「正しい」とされるわけですから、別の認識が示されたり、時をへて異なった判断が下されることがあり得ます。
「正しい」とする有力な根拠となってきたのは、1716(康煕55)年に、歴代の字書を集大成して刊行された、康煕字典に示された形です。
ただし、康煕字典体が必ず正字体とされるかといえば、そうではありません。
康煕字典体を有力な根拠としながら、個々の判定者による認識の揺れや、時代の移り変わりに伴う変化も組み込みながら、「正字」はそのつど決められてきました。
正字を指して、「いわゆる康煕字典体」と多少の含みを持たせながら書かれることがあるのは、こうした事情からきています。
一方の「俗字」とは、「本来の形がくずれた形で通用しているもの」を指します。
中でも、「字画の一部が省略されて通用しているもの」は特に、「略字」と呼ばれます。
参考:「フォント情報処理用語 標準情報(TR) TR X 0003:2000」