拡張ラテン文字の処理

※この文書には、JIS X 0213でコード化された文字を使用し、該当の文字はKandataで表示するように指定しています。

山本有二さんの分解方式を採用するという前提で、実施上の問題点を検討する。

【対象とする文字種】

拡張ラテン文字は、JIS X 0213に収録されているもので、224種類ある。一方山本さんの、「各国語文字の変換表0.03」に収録されたものは、60種類である。
収録するべきものは、この60種類でよいのか。減らすか。増やすか。増やすとすれば、何を規準にどこまで増やすか。

対象文字種確定の際、判断の目安となりうるものとしては、まず「英語、フランス語、ドイツ語をカバーする」といった、〈言語単位〉が考えられるだろう。
もう一方、何らかの〈規格〉に準拠する手もありそうだ。
規格の制定に当たっては、「何語をカバーする」という目標設定が行われているものと思われる。その目標設定と、今、我々にとってカバーすべき言語がうまく合致してくれれば、二つのアプローチがうまく交差し、解決策となってくれるかも知れない。

こうした問題意識を持ちながら、先ず、山本さんの「各国語文字の変換表」が何をもとに作成されているかを確認したい。

ASCIIコード(ISO-646)は、128のコードポイントに英数字などを割り振っている。これを拡張し、256のコードポイント(ASCIIの128+α)に文字や制御記号を割り振ったのが、拡張ASCIIコード(ISO-8859)である。 拡張ASCIIコードには、西ヨーロッパの言語をカバーしたLatin1、東ヨーロッパのLatin-2、南ヨーロッパのLatin-3など、10種類のバージョンがある
ちなみに、UNICODEの最初の128のコードポイントまではASCIIと同一であり、256ポイントまではLatin1と同じである。

Latin-1は、フランス語(fr)、スペイン語(es)、カタロニア語(Ca)、バスク語(Eu)、ポルトガル語(Pt)、イタリア語(It)、アルバニア語(Sq)、レートロマンス語(Rm)、オランダ語(Nl)、ドイツ語(De)、デンマーク語(Da)、スウェーデン語(Sv)、ノルウェー語(No)、フィンランド語(Fi)、フェロー語(Fo)、アイスランド語(Is)、アイルランド語(Ga)、スコットランド語(Gd)、英語(En)など、ほとんどの西ヨーロッパの言語をカバーする。
Latin-1には、オランダ語のIJとフランス語のOEのリガチャー、ドイツ語の引用符がないという問題点があるが、それらは受認の限度内と解されているということらしい。

ASCIIと同一の0〜127までは、UNICODEではBasic Latinと名付けられている。128〜255までのLatin-1と同じところは、そのままLatin 1 Supplementと命名されている。UNICODEのBMP(Basic Multilingual Plane)の構成表によれば、続く256から383までにはLatin Extended-Aがくる。
Latin-1に欠けている上記の要素のうち、「オランダ語のIJとフランス語のOEのリガチャー」は、このLatin Extended-Aに収められている。
「IJ」の大文字は、2と013の交点(306)。「IJ」の小文字は、3と013の交点(307)。
「OE」の大文字は、2と015の交点(338)。「OE」の小文字は、3と015の交点(339)にある。

ここまで確認した後、あらためて山本さんの「変換表」を見てみよう。 この表は基本的に、拡張ASCIIコードのLatin-1(UNICODEでは、Basic LatinプラスLatin 1 Supplement)に含まれる拡張ラテン文字(逆感嘆符、逆疑問符を含む)を抜きだしたものである。

ただし、表にはいくつかブランクになっているところがある。
「各国文字」の208、221、222、240、253、254は空白で、それらのうち208、222、240、254に関しては、代替表記法を示す「テキスト表記」も示されていない。
他資料を当たって確認した結果を先に示せば、208、222、240、254はいずれも、アイスランド語に固有のものがくる。

逆にLatin-1にプラスされている要素としては、まずLatin Extended-Aから「OE」のリガチャー。
加えて、いずれもLatin Extended-Aからマクロン(長音記号)付きの母音、256、257、274、275、298、299、332、333、362、363の番号のみが上げてある。ただ、これらに関しては、文字も代替表記法も示されていない。

総括すれば、山本さんの「変換表」は、Latin-1に含まれる拡張ラテン文字からアイスランド語に固有の4文字をのぞき、UNICODEのLatin Extended-Aから、「OE」のリガチャーを補い、マクロン付きの母音を対象文字種の候補として加えたものである。

西ヨーロッパ語をカバーするLatin-1を基本とする、という山本さんの方針は、青空文庫にとっても妥当なものでないかと思われる。
より多くの文字種をカバーしようと考えると、どこまで拡張していけばいいのか見きわめが付かなくなるし、字体から大きく離れた表記法の採用が避けられなくなるだろう。

文字種に関する検討課題として残るのは、以下の諸要素ではなかろうか?

1 「IJ」のリガチャーは入れなくて良いか?

「IJ」のリガチャーの大文字は、Latin Extended-Aの306、小文字は307に登録されている。ただし、JIS X 0213には登録がない。IとJを並べて組んだときと字体差がほとんどないので、合字としての別個の登録を行わなかったと言うことだろうか?
もちろん、0213にないと言っても、山本さんの略記法設計方針を適用して、これの大文字を「IJ&」、小文字を「ij&」などとすることは可能であろう。
ただし、「IJ」のリガチャーと「IJ」を区別するのだという方針を採ると、ファイルを0213化した段階でも、これは外字として扱わざるを得なくなる。
とすると、「IJ」のリガチャーはこの略記法の対象とはせず、「これが底本中に現れたときには、IJと入力してください。」と明示しておくのが妥当かも知れない。

2 アイスランド語に固有の4文字は、補わなくて良いか?

空白となっている208は、アイスランド語のETH大文字。240は同小文字。
山本さんの略記法設計方針を適用して、それぞれETH&、eth&とできるだろうか?

同じく222と254は、アイスランド語のTHORNの大文字と小文字。
研究社のリーダーズ英和辞典によれば、THORNは、「近代英語のthに相当する。」という。
これと山本さんの設計方針を組み合わせて、それぞれTH&、th&とすることができるだろうか?

「各国語文字の変換表」に付した前文で、山本さんは「実用上頻度が少ない言語and/or頻度が少ない文字は変換効率を上げるため、留保します。」としている。 この方針に沿って、これら4文字に関しては、対象外とするか?

3 マクロン付きの母音は、補わなくて良いか?

マクロン付きの母音は、日本語のローマ字表記中で用いられる場合があるだろう。
山本さんの設計方針に沿って、たとえばA_といった形で表記すると決め、これらを対象文字種に加えなくて良いだろうか?

これも、対象外としたままで行くか?


以上検討してきた、対象とすべき文字種選定の参考のために、山本さんによる「各国語文字の変換表」にJIS X 0213の面区点位置、0213による名称を加えたものを、「拡張ラテン文字の表記法」と題して以下に置く。

例はとりあえず入れていないが、単純にさぼっただけで、ここは充実させるという考え方もあるだろう。

「拡張ラテン文字の表記法」

ISO-8859-1
Latin1
JIS X 0213
面区点番号
 名称(山本有二さんによる)対象言語
(山本さん)
JIS X 0213名称記述法
(山本さん)
1611-9-3 Es逆感嘆符!@
1911-9-22 Es逆疑問符?@
1921-9-23アクサン・グラーヴFrグレーブアクセント付きAA`
1931-9-24アセントEsアキュートアクセント付きAA'
1941-9-25アクサン・シルコンフレクスFrサーカムフレックスアクセント付きA^
1951-9-26 Ptチルド付きAA~
1961-9-27ウムラウトDeダイエレシス付きAA:
1971-9-28  上リング付きAA@
1981-9-29リガチャーEnAEAE&
1991-9-30セディーユFrセディラ付きCC,
2001-9-31アクサン・グラーヴFrグレーブアクセント付きEE`
2011-9-32アクサン・テギュ、アセントFr,Esアキュートアクセント付きEE'
2021-9-33アクサン・シルコンフレクスFrサーカムフレックスアクセント付きEE^
2031-9-34トレマFrダイエレシス付きEE:
2041-9-35グレイヴ・アクセント グレーブアクセント付きII`
2051-9-36アキュート・アクセントEsアキュートアクセント付きII'
2061-9-37アクサン・シルコンフレクスFrサーカムフレックスアクセント付きII^
2071-9-38トレマFrダイエレシス付きII:
2081-9-39 Isアイスランド語ETHETH&(?)
2091-9-40ティルデEsチルド付きNN~
2101-9-41グレイヴ・アクセント グレーブアクセント付きOO`
2111-9-42アセントEsアキュートアクセント付きOO'
2121-9-43サーカムフレックス サーカムフレックスアクセント付きOO^
2131-9-44 Ptチルド付きOO~
2141-9-45ウムラウトDeダイエレシス付きO:
2151-1-63  乗算記号(0208にあり)×
2161-9-46 Noストローク付きOO/
2171-9-47グレイヴ・アクセント グレーブアクセント付きUU`
2181-9-48アセントEsアキュートアクセント付きUU'
2191-9-49サーカムフレックス サーカムフレックスアクセント付きUU^
2201-9-50ウムラウト、トレマDeダイエレシス付きUU:
2211-9-51アキュート・アクセント アキュートアクセント付きYY'
2221-9-52 Isアイスランド語THORNTH&(?)
2231-9-53エスツェットDeドイツ語エスツェットs&
2241-9-54アクサン・グラーヴFrグレーブアクセント付きA小文字a`
2251-9-55アセントEsアキュートアクセント付きA小文字a'
2261-9-56アクサン・シルコンフレクスFrサーカムフレックスアクセント付きA小文字a^
2271-9-57 Ptチルド付きA小文字a~
2281-9-58ウムラウトDeダイエレシス付きA小文字a:
2291-9-59  上リング付きA小文字a@
2301-9-60リガチャーEnAE小文字ae&
2311-9-61セディーユFrセディラ付きC小文字c,
2321-9-62アクサン・グラーヴFrグレーブアクセント付きE小文字e`
2331-9-63アクサン・テギュ、アセントFrアキュートアクセント付きE小文字e'
2341-9-64アクサン・シルコンフレクスFrサーカムフレックスアクセント付きE小文字e^
2351-9-65トレマFrダイエレシス付きE小文字e:
2361-9-66グレイブ・アクセント グレーブアクセント付きI小文字i`
2371-9-67アセントEsアキュートアクセント付きI小文字i'
2381-9-68アクサン・シルコンフレクスFrサーカムフレックスアクセント付きI小文字i^
2391-9-69トレマFrダイエレシス付きI小文字i:
2401-9-70 Isアイスランド語ETH小文字eth&(?)
2411-9-71ティルデEsチルド付きN小文字n~
2421-9-72グレイヴ・アクセント グレーブアクセント付きO小文字o`
2431-9-73アセントEsアキュートアクセント付きO小文字o'
2441-9-74アクサン・シルコンフレクスFrサーカムフレックスアクセント付きO小文字o^
2451-9-75 Ptチルド付きO小文字o~
2461-9-76ウムラウトDeダイエレシス付きO小文字o:
2471-1-64  除算記号(0208にあり)÷
2481-9-77 Noストローク付きO小文字o/
2491-9-78アクサン・グラーヴFrグレーブアクセント付きU小文字u`
2501-9-79アセントEsアキュートアクセント付きU小文字u'
2511-9-80サーカムフレックス サーカムフレックスアクセント付きU小文字u^
2521-9-81ウムラウト、トレマ、クレーマDe,Fr,Esダイエレシス付きU小文字u:
2531-9-82  アキュートアクセント付きY小文字y'
2541-9-83 Isアイスランド語THORN小文字th&(?)
2551-9-84  ダイエレシス付きY小文字y:
2561-9-85マクロンJpマクロン付きAA_(?)
2571-9-90マクロンJpマクロン付きA小文字a_(?)
2741-9-88マクロンJpマクロン付きEE_(?)
2751-9-93マクロンJpマクロン付きE小文字e_(?)
2981-9-86マクロンJpマクロン付きII_(?)
2991-9-91マクロンJpマクロン付きI小文字i_(?)
3321-9-89マクロンJpマクロン付きOO_(?)
3331-9-94マクロンJpマクロン付きO小文字o_(?)
3381-11-11 FrリガチャOE大文字、円唇前舌広・中段母音OE&
3391-11-10 FrリガチャOE小文字、円唇前舌広・中段母音oe&
3621-9-87マクロンJpマクロン付きUU_(?)
3631-9-92マクロンJpマクロン付きU小文字u_(?)


【冒頭の注記の書き方】

もしテキスト版冒頭に関連の注を置くとすれば、どんなものが考えるか、文案を示す。

該当作品に現れるものを残し、他は削除。 (例)には、文中に現れるものを示す。

-------------------------------------------------------
【欧文中に現れる記号について】

@:逆を意味する記号、上リング
(例)!@、A@

`:アクサングラーブ、グレーブアクセント(`)
(例)auste`re

':アクサンテギュ、アキュートアクセント(´)
(例) re'sume'

^:アクサンシルコンフレックス、サーカムフレックスアクセント(^)
(例)ha^te

~:チルド
(例)

::ウムラウト、ダイエレシス(¨)
(例)Scho:nen

&:リガチャーを表す記号
(例)cae&sium

,:セディラ
(例)fac,on

/:ストローク
(例)

_:マクロン
(例)to_kaido_

詳細は、下記URLの「拡張ラテン文字の表記法」を参照してください。
http://aozora.gr.jp/xxxx/xxxx/xxxx/
-------------------------------------------------------

検討課題

・名称
現在は、0213規格票の「附属書4 表3 ダイアクリティカルマーク」をなぞって名称を示している。
ただ、フランス語、ドイツ語の名称を付けると、「スペイン語名称は良いのか?」(アキュートアクセントは、アセント)となってくるだろう。
いっそここも、英語名称だけにするか?

・上リングの字体イメージ
他はだいたい、字体のイメージに近い記号が使えていると思うが、「@」と「&」は乖離が大きい。
特に「上リング」に関してはイメージが掴めないだろうから、他の記号を流用して「(°)」と形を示しておくか?
やはり他の記号の流用は、不適当か?

【説明の併記】

上に示した、凡例をファイルの冒頭に置くことで足りるか?

それとも、aozora:1095でLUNA CATさんから提案があった、説明の併記も行うか?

(例)de'ja`-vu[#e'はアクサンテギュ、a`はアクサングラーブ]

大野裕さんからは、aozora:1127で「山本さん式の分解方式+引用のまとまりごとに注記」という修正提案があり。

(例)(Oskar Becker, Von der Hinfa:lligkeit des Scho:nen und der Abenteuerlichkeit des Ku:nstlers; Jahrbuch fu:r Philosophie und pha:nomenologische Forschung, Erga:nzungsband: Husserl-Festschrift, 1929, S. 40)[#母音字に続くコロン(:)はウムラウト(¨)]

ただ、引用のまとまりごとの注記を付ける作業は、担当者の理解の程度によってばらついてくる可能性があるだろう。

【分解方式区間を示すタグは必要か】

aozora:1107で山本有二さんから、「分解方式区間を示す「タグ」をつける」という提案があった。

(例)《ここから欧文》 de'ja`-vu 《ここまで欧文》

要るだろうか?

-以上-