拡張ラテン文字の処理
※この文書には、JIS X 0213でコード化された文字を使用し、該当の文字はKandataで表示するように指定しています。
山本有二さんの分解方式を採用するという前提で、実施上の問題点を検討する。
【対象とする文字種】
拡張ラテン文字は、JIS X 0213に収録されているもので、224種類ある。一方山本さんの、「各国語文字の変換表0.03」に収録されたものは、60種類である。
収録するべきものは、この60種類でよいのか。減らすか。増やすか。増やすとすれば、何を規準にどこまで増やすか。
対象文字種確定の際、判断の目安となりうるものとしては、まず「英語、フランス語、ドイツ語をカバーする」といった、〈言語単位〉が考えられるだろう。
もう一方、何らかの〈規格〉に準拠する手もありそうだ。
規格の制定に当たっては、「何語をカバーする」という目標設定が行われているものと思われる。その目標設定と、今、我々にとってカバーすべき言語がうまく合致してくれれば、二つのアプローチがうまく交差し、解決策となってくれるかも知れない。
こうした問題意識を持ちながら、先ず、山本さんの「各国語文字の変換表」が何をもとに作成されているかを確認したい。
ASCIIコード(ISO-646)は、128のコードポイントに英数字などを割り振っている。これを拡張し、256のコードポイント(ASCIIの128+α)に文字や制御記号を割り振ったのが、拡張ASCIIコード(ISO-8859)である。
拡張ASCIIコードには、西ヨーロッパの言語をカバーしたLatin1、東ヨーロッパのLatin-2、南ヨーロッパのLatin-3など、10種類のバージョンがある。
ちなみに、UNICODEの最初の128のコードポイントまではASCIIと同一であり、256ポイントまではLatin1と同じである。
Latin-1は、フランス語(fr)、スペイン語(es)、カタロニア語(Ca)、バスク語(Eu)、ポルトガル語(Pt)、イタリア語(It)、アルバニア語(Sq)、レートロマンス語(Rm)、オランダ語(Nl)、ドイツ語(De)、デンマーク語(Da)、スウェーデン語(Sv)、ノルウェー語(No)、フィンランド語(Fi)、フェロー語(Fo)、アイスランド語(Is)、アイルランド語(Ga)、スコットランド語(Gd)、英語(En)など、ほとんどの西ヨーロッパの言語をカバーする。
Latin-1には、オランダ語のIJとフランス語のOEのリガチャー、ドイツ語の引用符がないという問題点があるが、それらは受認の限度内と解されているということらしい。
ASCIIと同一の0〜127までは、UNICODEではBasic Latinと名付けられている。128〜255までのLatin-1と同じところは、そのままLatin 1 Supplementと命名されている。UNICODEのBMP(Basic Multilingual Plane)の構成表によれば、続く256から383までにはLatin Extended-Aがくる。
Latin-1に欠けている上記の要素のうち、「オランダ語のIJとフランス語のOEのリガチャー」は、このLatin Extended-Aに収められている。
「IJ」の大文字は、2と013の交点(306)。「IJ」の小文字は、3と013の交点(307)。
「OE」の大文字は、2と015の交点(338)。「OE」の小文字は、3と015の交点(339)にある。
ここまで確認した後、あらためて山本さんの「変換表」を見てみよう。
この表は基本的に、拡張ASCIIコードのLatin-1(UNICODEでは、Basic LatinプラスLatin 1 Supplement)に含まれる拡張ラテン文字(逆感嘆符、逆疑問符を含む)を抜きだしたものである。
ただし、表にはいくつかブランクになっているところがある。
「各国文字」の208、221、222、240、253、254は空白で、それらのうち208、222、240、254に関しては、代替表記法を示す「テキスト表記」も示されていない。
他資料を当たって確認した結果を先に示せば、208、222、240、254はいずれも、アイスランド語に固有のものがくる。
逆にLatin-1にプラスされている要素としては、まずLatin Extended-Aから「OE」のリガチャー。
加えて、いずれもLatin Extended-Aからマクロン(長音記号)付きの母音、256、257、274、275、298、299、332、333、362、363の番号のみが上げてある。ただ、これらに関しては、文字も代替表記法も示されていない。
総括すれば、山本さんの「変換表」は、Latin-1に含まれる拡張ラテン文字からアイスランド語に固有の4文字をのぞき、UNICODEのLatin Extended-Aから、「OE」のリガチャーを補い、マクロン付きの母音を対象文字種の候補として加えたものである。
西ヨーロッパ語をカバーするLatin-1を基本とする、という山本さんの方針は、青空文庫にとっても妥当なものでないかと思われる。
より多くの文字種をカバーしようと考えると、どこまで拡張していけばいいのか見きわめが付かなくなるし、字体から大きく離れた表記法の採用が避けられなくなるだろう。
文字種に関する検討課題として残るのは、以下の諸要素ではなかろうか?
1 「IJ」のリガチャーは入れなくて良いか?
「IJ」のリガチャーの大文字は、Latin Extended-Aの306、小文字は307に登録されている。ただし、JIS X 0213には登録がない。IとJを並べて組んだときと字体差がほとんどないので、合字としての別個の登録を行わなかったと言うことだろうか?
もちろん、0213にないと言っても、山本さんの略記法設計方針を適用して、これの大文字を「IJ&」、小文字を「ij&」などとすることは可能であろう。
ただし、「IJ」のリガチャーと「IJ」を区別するのだという方針を採ると、ファイルを0213化した段階でも、これは外字として扱わざるを得なくなる。
とすると、「IJ」のリガチャーはこの略記法の対象とはせず、「これが底本中に現れたときには、IJと入力してください。」と明示しておくのが妥当かも知れない。
2 アイスランド語に固有の4文字は、補わなくて良いか?
空白となっている208は、アイスランド語のETH大文字。240は同小文字。
山本さんの略記法設計方針を適用して、それぞれETH&、eth&とできるだろうか?
同じく222と254は、アイスランド語のTHORNの大文字と小文字。
研究社のリーダーズ英和辞典によれば、THORNは、「近代英語のthに相当する。」という。
これと山本さんの設計方針を組み合わせて、それぞれTH&、th&とすることができるだろうか?
「各国語文字の変換表」に付した前文で、山本さんは「実用上頻度が少ない言語and/or頻度が少ない文字は変換効率を上げるため、留保します。」としている。
この方針に沿って、これら4文字に関しては、対象外とするか?
3 マクロン付きの母音は、補わなくて良いか?
マクロン付きの母音は、日本語のローマ字表記中で用いられる場合があるだろう。
山本さんの設計方針に沿って、たとえばA_といった形で表記すると決め、これらを対象文字種に加えなくて良いだろうか?
これも、対象外としたままで行くか?
以上検討してきた、対象とすべき文字種選定の参考のために、山本さんによる「各国語文字の変換表」にJIS X 0213の面区点位置、0213による名称を加えたものを、「拡張ラテン文字の表記法」と題して以下に置く。
例はとりあえず入れていないが、単純にさぼっただけで、ここは充実させるという考え方もあるだろう。
「拡張ラテン文字の表記法」
ISO-8859-1 Latin1 | JIS X 0213 面区点番号 | | 名称(山本有二さんによる) | 対象言語 (山本さん) | JIS X 0213名称 | 記述法 (山本さん) |
| 161 | 1-9-3 |  | | Es | 逆感嘆符 | !@ |
| 191 | 1-9-22 |  | | Es | 逆疑問符 | ?@ |
| 192 | 1-9-23 |  | アクサン・グラーヴ | Fr | グレーブアクセント付きA | A` |
| 193 | 1-9-24 |  | アセント | Es | アキュートアクセント付きA | A' |
| 194 | 1-9-25 |  | アクサン・シルコンフレクス | Fr | サーカムフレックスアクセント付き | A^ |
| 195 | 1-9-26 |  | | Pt | チルド付きA | A~ |
| 196 | 1-9-27 |  | ウムラウト | De | ダイエレシス付きA | A: |
| 197 | 1-9-28 |  | | | 上リング付きA | A@ |
| 198 | 1-9-29 |  | リガチャー | En | AE | AE& |
| 199 | 1-9-30 |  | セディーユ | Fr | セディラ付きC | C, |
| 200 | 1-9-31 |  | アクサン・グラーヴ | Fr | グレーブアクセント付きE | E` |
| 201 | 1-9-32 |  | アクサン・テギュ、アセント | Fr,Es | アキュートアクセント付きE | E' |
| 202 | 1-9-33 |  | アクサン・シルコンフレクス | Fr | サーカムフレックスアクセント付きE | E^ |
| 203 | 1-9-34 |  | トレマ | Fr | ダイエレシス付きE | E: |
| 204 | 1-9-35 |  | グレイヴ・アクセント | | グレーブアクセント付きI | I` |
| 205 | 1-9-36 |  | アキュート・アクセント | Es | アキュートアクセント付きI | I' |
| 206 | 1-9-37 |  | アクサン・シルコンフレクス | Fr | サーカムフレックスアクセント付きI | I^ |
| 207 | 1-9-38 |  | トレマ | Fr | ダイエレシス付きI | I: |
| 208 | 1-9-39 |  | | Is | アイスランド語ETH | ETH&(?) |
| 209 | 1-9-40 |  | ティルデ | Es | チルド付きN | N~ |
| 210 | 1-9-41 |  | グレイヴ・アクセント | | グレーブアクセント付きO | O` |
| 211 | 1-9-42 |  | アセント | Es | アキュートアクセント付きO | O' |
| 212 | 1-9-43 |  | サーカムフレックス | | サーカムフレックスアクセント付きO | O^ |
| 213 | 1-9-44 |  | | Pt | チルド付きO | O~ |
| 214 | 1-9-45 |  | ウムラウト | De | ダイエレシス付き | O: |
| 215 | 1-1-63 |  | | | 乗算記号(0208にあり) | × |
| 216 | 1-9-46 |  | | No | ストローク付きO | O/ |
| 217 | 1-9-47 |  | グレイヴ・アクセント | | グレーブアクセント付きU | U` |
| 218 | 1-9-48 |  | アセント | Es | アキュートアクセント付きU | U' |
| 219 | 1-9-49 |  | サーカムフレックス | | サーカムフレックスアクセント付きU | U^ |
| 220 | 1-9-50 |  | ウムラウト、トレマ | De | ダイエレシス付きU | U: |
| 221 | 1-9-51 |  | アキュート・アクセント | | アキュートアクセント付きY | Y' |
| 222 | 1-9-52 |  | | Is | アイスランド語THORN | TH&(?) |
| 223 | 1-9-53 |  | エスツェット | De | ドイツ語エスツェット | s& |
| 224 | 1-9-54 |  | アクサン・グラーヴ | Fr | グレーブアクセント付きA小文字 | a` |
| 225 | 1-9-55 |  | アセント | Es | アキュートアクセント付きA小文字 | a' |
| 226 | 1-9-56 |  | アクサン・シルコンフレクス | Fr | サーカムフレックスアクセント付きA小文字 | a^ |
| 227 | 1-9-57 |  | | Pt | チルド付きA小文字 | a~ |
| 228 | 1-9-58 |  | ウムラウト | De | ダイエレシス付きA小文字 | a: |
| 229 | 1-9-59 |  | | | 上リング付きA小文字 | a@ |
| 230 | 1-9-60 |  | リガチャー | En | AE小文字 | ae& |
| 231 | 1-9-61 |  | セディーユ | Fr | セディラ付きC小文字 | c, |
| 232 | 1-9-62 |  | アクサン・グラーヴ | Fr | グレーブアクセント付きE小文字 | e` |
| 233 | 1-9-63 |  | アクサン・テギュ、アセント | Fr | アキュートアクセント付きE小文字 | e' |
| 234 | 1-9-64 |  | アクサン・シルコンフレクス | Fr | サーカムフレックスアクセント付きE小文字 | e^ |
| 235 | 1-9-65 |  | トレマ | Fr | ダイエレシス付きE小文字 | e: |
| 236 | 1-9-66 |  | グレイブ・アクセント | | グレーブアクセント付きI小文字 | i` |
| 237 | 1-9-67 |  | アセント | Es | アキュートアクセント付きI小文字 | i' |
| 238 | 1-9-68 |  | アクサン・シルコンフレクス | Fr | サーカムフレックスアクセント付きI小文字 | i^ |
| 239 | 1-9-69 |  | トレマ | Fr | ダイエレシス付きI小文字 | i: |
| 240 | 1-9-70 |  | | Is | アイスランド語ETH小文字 | eth&(?) |
| 241 | 1-9-71 |  | ティルデ | Es | チルド付きN小文字 | n~ |
| 242 | 1-9-72 |  | グレイヴ・アクセント | | グレーブアクセント付きO小文字 | o` |
| 243 | 1-9-73 |  | アセント | Es | アキュートアクセント付きO小文字 | o' |
| 244 | 1-9-74 |  | アクサン・シルコンフレクス | Fr | サーカムフレックスアクセント付きO小文字 | o^ |
| 245 | 1-9-75 |  | | Pt | チルド付きO小文字 | o~ |
| 246 | 1-9-76 |  | ウムラウト | De | ダイエレシス付きO小文字 | o: |
| 247 | 1-1-64 |  | | | 除算記号(0208にあり) | ÷ |
| 248 | 1-9-77 |  | | No | ストローク付きO小文字 | o/ |
| 249 | 1-9-78 |  | アクサン・グラーヴ | Fr | グレーブアクセント付きU小文字 | u` |
| 250 | 1-9-79 |  | アセント | Es | アキュートアクセント付きU小文字 | u' |
| 251 | 1-9-80 |  | サーカムフレックス | | サーカムフレックスアクセント付きU小文字 | u^ |
| 252 | 1-9-81 |  | ウムラウト、トレマ、クレーマ | De,Fr,Es | ダイエレシス付きU小文字 | u: |
| 253 | 1-9-82 |  | | | アキュートアクセント付きY小文字 | y' |
| 254 | 1-9-83 |  | | Is | アイスランド語THORN小文字 | th&(?) |
|
| 255 | 1-9-84 |  | | | ダイエレシス付きY小文字 | y: |
|
| 256 | 1-9-85 |  | マクロン | Jp | マクロン付きA | A_(?) |
| 257 | 1-9-90 |  | マクロン | Jp | マクロン付きA小文字 | a_(?) |
| 274 | 1-9-88 |  | マクロン | Jp | マクロン付きE | E_(?) |
| 275 | 1-9-93 |  | マクロン | Jp | マクロン付きE小文字 | e_(?) |
| 298 | 1-9-86 |  | マクロン | Jp | マクロン付きI | I_(?) |
| 299 | 1-9-91 |  | マクロン | Jp | マクロン付きI小文字 | i_(?) |
| 332 | 1-9-89 |  | マクロン | Jp | マクロン付きO | O_(?) |
| 333 | 1-9-94 |  | マクロン | Jp | マクロン付きO小文字 | o_(?) |
| 338 | 1-11-11 |  | | Fr | リガチャOE大文字、円唇前舌広・中段母音 | OE& |
| 339 | 1-11-10 |  | | Fr | リガチャOE小文字、円唇前舌広・中段母音 | oe& |
| 362 | 1-9-87 |  | マクロン | Jp | マクロン付きU | U_(?) |
| 363 | 1-9-92 |  | マクロン | Jp | マクロン付きU小文字 | u_(?) |
【冒頭の注記の書き方】
もしテキスト版冒頭に関連の注を置くとすれば、どんなものが考えるか、文案を示す。
該当作品に現れるものを残し、他は削除。
(例)には、文中に現れるものを示す。
-------------------------------------------------------
【欧文中に現れる記号について】
@:逆を意味する記号、上リング
(例)!@、A@
`:アクサングラーブ、グレーブアクセント(`)
(例)auste`re
':アクサンテギュ、アキュートアクセント(´)
(例) re'sume'
^:アクサンシルコンフレックス、サーカムフレックスアクセント(^)
(例)ha^te
~:チルド
(例)
::ウムラウト、ダイエレシス(¨)
(例)Scho:nen
&:リガチャーを表す記号
(例)cae&sium
,:セディラ
(例)fac,on
/:ストローク
(例)
_:マクロン
(例)to_kaido_
詳細は、下記URLの「拡張ラテン文字の表記法」を参照してください。
http://aozora.gr.jp/xxxx/xxxx/xxxx/
-------------------------------------------------------
検討課題
・名称
現在は、0213規格票の「附属書4 表3 ダイアクリティカルマーク」をなぞって名称を示している。
ただ、フランス語、ドイツ語の名称を付けると、「スペイン語名称は良いのか?」(アキュートアクセントは、アセント)となってくるだろう。
いっそここも、英語名称だけにするか?
・上リングの字体イメージ
他はだいたい、字体のイメージに近い記号が使えていると思うが、「@」と「&」は乖離が大きい。
特に「上リング」に関してはイメージが掴めないだろうから、他の記号を流用して「(°)」と形を示しておくか?
やはり他の記号の流用は、不適当か?
【説明の併記】
上に示した、凡例をファイルの冒頭に置くことで足りるか?
それとも、aozora:1095でLUNA CATさんから提案があった、説明の併記も行うか?
(例)de'ja`-vu[#e'はアクサンテギュ、a`はアクサングラーブ]
大野裕さんからは、aozora:1127で「山本さん式の分解方式+引用のまとまりごとに注記」という修正提案があり。
(例)(Oskar Becker, Von der Hinfa:lligkeit des Scho:nen und der Abenteuerlichkeit des Ku:nstlers; Jahrbuch fu:r Philosophie und pha:nomenologische Forschung, Erga:nzungsband: Husserl-Festschrift, 1929, S. 40)[#母音字に続くコロン(:)はウムラウト(¨)]
ただ、引用のまとまりごとの注記を付ける作業は、担当者の理解の程度によってばらついてくる可能性があるだろう。
【分解方式区間を示すタグは必要か】
aozora:1107で山本有二さんから、「分解方式区間を示す「タグ」をつける」という提案があった。
(例)《ここから欧文》 de'ja`-vu 《ここまで欧文》
要るだろうか?
-以上-