タイ語のHTML文書を作成する

HTML文書でタイ語を扱う方法をご紹介します。

ロケール

HTML文書全体をタイ語で記述する場合には、html要素のlang属性にタイ語(th)を指定する。

<html lang="th">

言語に加えて、国(タイ)を指定することもできる。

<html lang="th-TH">

ただし、これはイギリス英語やアメリカ英語など、複数の国で使われている言語を指定する方法である。タイ語はタイでしか使われていないので、言語の指定だけで充分である。

HTML文書の一部にだけタイ語を使う場合には、必要な要素のlang属性にタイ語を指定する。

<span lang="th">สวัสดีครับ</span>

発音記号

タイ語の発音は、通常のアルファベットに加えて、次に示す発音記号を使って表す。

タイ語の発音記号
文字 Unicode 文字参照 説明
ʔ U+0294 &#660;
ŋ U+014B &#331;
ɯ U+026F &#623; -ึ
ɛ U+025B &#603; แ-ะ
ɔ U+0254 &#596; เ-าะ
ə U+0259 &#601; เ-อะ
U+0301 &#769; 高声(構成文字)
U+030C &#780; 上声(構成文字)
U+0302 &#770; 下声(構成文字)
U+0300 &#768; 低声(構成文字)
á U+00E1 &#225; 上声

これらに併せて、ローマ字も発音記号として使われる。

構成文字(composing character)とは、単独で使う文字ではなく、他の文字に付加する文字である。

sawàtdii khráp

sawàtdii khâ

タイ文字

文字 Unicode 文字参照 説明
U+0E01 &#3585; 鶏のk
U+0E02 &#3586; 卵のkh
U+0E03 &#3587; 瓶のkh
U+0E04 &#3588; 水牛のkh
U+0E05 &#3589; 人のkh
U+0E06 &#3590; 鐘のkh
U+0E07 &#3591; 蛇のng
U+0E08 &#3592; 皿のc
U+0E09 &#3593; シンバルのch
U+0E0A &#3594; 象のch
U+0E0B &#3595; 鎖のs
U+0E0C &#3596; 樹のch
U+0E0D &#3597; 女のy
U+0E0E &#3598; 冠のk
U+0E0F &#3599; 水牛操作棒のt
U+0E10 &#3600; 礎台のth
U+0E11 &#3601; モントー夫人のth
U+0E12 &#3602; 老人のth
U+0E13 &#3603; 少年僧のn
U+0E14 &#3604; 子供のd
U+0E15 &#3605; 亀のt
U+0E16 &#3606; 袋のth
U+0E17 &#3607; 軍人のth
U+0E18 &#3608; 旗のth
U+0E19 &#3609; 鼠のn
U+0E1A &#3610; 木の葉のb
U+0E1B &#3611; 魚のp
U+0E1C &#3612; 蜜蜂のph
U+0E1D &#3613; 蓋のf
U+0E1E &#3614; 脚付き盆のph
U+0E1F &#3615; 歯のf
U+0E20 &#3616; ジャンク船のph
U+0E21 &#3617; 馬のm
U+0E22 &#3618; 夜叉のy
U+0E23 &#3619; 船のr
U+0E24 &#3620;
U+0E25 &#3621; 猿のl
U+0E26 &#3622;
U+0E27 &#3623; 指輪のw
U+0E28 &#3624; 四阿(あずまや)のs
U+0E29 &#3625; 仙人のs
U+0E2A &#3626; 虎のs
U+0E2B &#3627; 箱のh
U+0E2C &#3628; 雄凧のl
U+0E2D &#3629; 洗面器のʔ ʔɔɔ ʔàaŋ
U+0E2E &#3630; 梟のh
U+0E2F &#3631; 省略記号
กะ U+0E30 &#3632; a
U+0E31 &#3633;
กา U+0E32 &#3634; aa
กำ U+0E33 &#3635; am
กิ U+0E34 &#3636; i
กี U+0E35 &#3637; ii
กึ U+0E36 &#3638; ɯ
กื U+0E37 &#3639; ɯɯ
กุ U+0E38 &#3640; u
กู U+0E39 &#3641; uu
อฺ U+0E3A &#3642; 構成文字
฿ U+0E3F &#3647; タイバーツ
เก U+0E40 &#3648; ee
แก U+0E41 &#3649; ɛɛ
โก U+0E42 &#3650; oo
ใก U+0E43 &#3651; ay
ไก U+0E44 &#3652; ay
U+0E45 &#3653;
U+0E46 &#3654; 踊り字(日本語の々に相当)
U+0E47 &#3655;
ก่ U+0E48 &#3656; 第一声調符号
ก้ U+0E49 &#3657; 第二声調符号
ก๊ U+0E4A &#3658; 第三声調符号
ก๋ U+0E4B &#3659; 第四声調符号
ก์ U+0E4C &#3660; 黙示記号
U+0E4D &#3661;
U+0E4E &#3662;
U+0E4F &#3663; 節の始まり
U+0E5A &#3674; 章の終わり
U+0E5B &#3675; 文の終わり

構成文字(composing character)とは、単独で使う文字ではなく、他の文字に付加する文字である。

タイ数字

タイではアラビア数字も使われているが、伝統的なタイ数字も使われている。

タイ数字
文字 Unicode 文字参照 説明
U+0E50 &#3664; 0
U+0E51 &#3665; 1
U+0E52 &#3666; 2
U+0E53 &#3667; 3
U+0E54 &#3668; 4
U+0E55 &#3669; 5
U+0E56 &#3670; 6
U+0E57 &#3671; 7
U+0E58 &#3672; 8
U+0E59 &#3673; 9

฿๑๐๐

参考文献

Unicode, Inc. 2023. UAX #15: Unicode Normalization Forms