1# © 2016 and later: Unicode, Inc. and others. 2# License & terms of use: http://www.unicode.org/copyright.html#License 3# 4# File: es_FONIPA_zh.txt 5# Generated from CLDR 6# 7 8# Tranforms Spanish to Mandarin Chinese. The input Spanish string must be in 9# phonemic IPA transcription (es_FONIPA); the output is in Simplified Chinese. 10$word_boundary = [-\ $]; 11$vowel = [aeijouw]; # Vowels and glides 12$not_vowel = [^$vowel]; 13# First pass: Collapse phonetic distinctions not preserved in Mandarin. 14ð → | d; 15ɣ → | g; 16ŋ → | n; 17θ → | s; 18ɾ → | r; 19ff → f ; 20kk → k ; 21mm → m ; 22nn → n ; 23pp → p ; 24tt → t ; 25tʧ → ʧ ; 26aa → a ; 27oi\u032F → oi ; 28oo → o ; 29uu → u ; 30[^dgktx] { ei\u032F → e ; 31[^-\ .$] { eu\u032F → eu ; 32[^-\ .$] { ou\u032F → o; 33[^j] { ui → wi ; 34[^$word_boundary] { m } [bp] → n; # GB/T 17693.5-2009, 5.3.2 35s[θs] → s; # GB/T 17693.5-2009, 5.3.4 36[^ʧ] { jo → io; # GB/T 17693.5-2009 表 1, 注 7 37::Null; 38j } an $not_vowel → i ; # GB/T 17693.5-2009 表 1, 注 8 39# GB/T 17693.5-2009 表 1, 注 8 also says that <uai> should be treated as if 40# it was <u> plus <ai>. This is not borne out by the observed data, which 41# suggests that <ua> plus <i> is the more appropriate choice in some 42# situations. 43[g.$] { wai\u032F → wai ; 44wai\u032F → uai\u032F ; 45[g.$] { wau\u032F → wau ; 46wau\u032F → uau\u032F ; 47jau\u032F → iau\u032F ; 48# Even though "ao" is not a diphthong in Spanish, Mandarin treats it as one. 49[^jw] { ao } [^n] → au\u032F ; 50[^jw] { ao } n $vowel → au\u032F ; 51# Main pass: Phoneme to Hanzi conversion. 52# This generally follows GB/T 17693.5-2009 表 1, unless otherwise noted. 53::Null; 54'.' → ; 55ai\u032F → 艾 ; 56an } $not_vowel → 安 ; 57au\u032F → 奥 ; 58a → 阿 ; 59bai\u032F → 拜 ; 60ban } $not_vowel → 班 ; 61bau\u032F → 包 ; 62ba → 巴 ; 63ben } $not_vowel → 本 ; 64be → 贝 ; 65bin } $not_vowel → 宾 ; 66bi → 比 ; 67bja → 比亚 ; 68bjen } $not_vowel → 比恩 ; 69bje → 别 ; 70bju → 比乌 ; 71bon } $not_vowel → 邦 ; 72bo → 博 ; 73bun } $not_vowel → 本 ; 74bu → 布 ; 75bwan } $not_vowel → 布安 ; 76bwa → 布阿 ; 77bwen } $not_vowel → 布恩 ; # Should be be 本, per GB/T 17693.5-2009 表 1. 78bwe → 布埃 ; 79bwin } $not_vowel → 布因 ; # Nonstandard, but fits observed data. 80bwi → 布伊 ; 81bwo → 博 ; 82b → 布 ; 83βai\u032F → 瓦伊 ; 84βan } $not_vowel → 万 ; 85βau\u032F → 沃 ; 86βa → 瓦 ; 87βen } $not_vowel → 文 ; 88βe → 韦 ; 89βin } $not_vowel → 温 ; 90βi → 维 ; 91βja → 维亚 ; 92βjen } $not_vowel → 维恩 ; 93βje → 维耶 ; 94βju → 维乌 ; 95βon } $not_vowel → 翁 ; 96βo → 沃 ; 97βun } $not_vowel → 文 ; 98βu → 武 ; 99βwan } $not_vowel → 万 ; 100βwa → 瓦 ; 101βwen } $not_vowel → 文 ; 102βwe → 武埃 ; 103βwi → 维 ; 104βwo → 沃 ; 105β → 夫 ; 106dai\u032F → 代 ; 107dan } $not_vowel → 丹 ; 108dau\u032F → 道 ; 109da → 达 ; 110dei\u032F → 代 ; 111den } $not_vowel → 登 ; 112de → 德 ; 113din } $not_vowel → 丁 ; 114di → 迪 ; 115dja → 迪亚 ; 116djen } $not_vowel → 迪恩 ; 117dje → 迭 ; 118dju → 迪乌 ; 119don } $not_vowel → 东 ; 120do → 多 ; 121dun } $not_vowel → 敦 ; 122du → 杜 ; 123dwan } $not_vowel → 端 ; 124dwa → 杜阿 ; 125dwen } $not_vowel → 敦 ; 126dwe → 杜埃 ; 127dwi → 杜伊 ; 128dwo → 多 ; 129d } $word_boundary → ; 130d → 德 ; 131ei\u032F → 埃 ; 132en } $not_vowel → 恩 ; 133eu\u032F → 欧 ; 134e → 埃 ; 135fai\u032F → 法伊 ; 136fan } $not_vowel → 凡 ; 137fau\u032F → 福 ; 138fa → 法 ; 139fe → 费 ; 140fin } $not_vowel → 芬 ; 141fi → 菲 ; 142fja → 菲亚 ; 143fjen } $not_vowel → 菲恩 ; 144fje → 菲耶 ; 145fju → 菲乌 ; 146fon } $not_vowel → 丰 ; 147fo → 福 ; 148fun } $not_vowel → 丰 ; 149fu → 富 ; 150fwan } $not_vowel → 富安 ; 151fwa → 富阿 ; 152fwen } $not_vowel → 丰 ; 153fwe → 富埃 ; 154fwi → 富伊 ; 155fwo → 福 ; 156# The choice of 弗 vs. 夫 sounds simple according to the GB/T standard, but the 157# data suggest otherwise. Ideally, 弗 should occur at the beginning of a 158# morpheme (e.g. in "villafranca" 比利亚弗兰卡) and 夫 everywhere else. Since 159# we don't have morpheme boundaries, we'll fudge it by writing 夫 at the end of 160# a word and 弗 everywhere else. 161f } $word_boundary → 夫 ; 162f → 弗 ; 163gai\u032F → 盖 ; 164gan } $not_vowel → 甘 ; 165gau\u032F → 高 ; 166ga → 加 ; 167gei\u032F → 盖 ; 168gen } $not_vowel → 根 ; 169ge → 格 ; 170gin } $not_vowel → 金 ; 171gi → 吉 ; 172gja → 吉亚 ; 173gjen } $not_vowel → 吉恩 ; 174gje → 吉耶 ; 175gju → 吉乌 ; 176gon } $not_vowel → 贡 ; 177go → 戈 ; 178gun } $not_vowel → 贡 ; 179gu → 古 ; 180gwan } [$] → 古安 ; # Nonstandard, but fits observed data. 181gwan } $not_vowel → 关 ; 182gwa → 瓜 ; 183gwen } $not_vowel → 古恩 ; 184gwe → 圭 ; 185gwi → 圭 ; 186gwo → 果 ; 187g → 格 ; 188in } $not_vowel → 因 ; 189i → 伊 ; 190ʝai\u032F → 亚伊 ; 191ʝan } $not_vowel → 扬 ; 192ʝau\u032F → 尧 ; 193ʝa → 亚 ; 194ʝen } $not_vowel → 延 ; 195ʝe → 耶 ; 196ʝin } $not_vowel → 因 ; 197ʝi → 伊 ; 198ʝon } $not_vowel → 永 ; 199ʝo → 约 ; 200ʝun } $not_vowel → 云 ; 201ʝu → 尤 ; 202ʝwan } $not_vowel → 元 ; 203ʝwa → 尤阿 ; 204ʝwen } $not_vowel → 云 ; 205ʝwe → 尤埃 ; 206ʝwi → 尤伊 ; 207ʝwo → 约 ; 208ʝ → 伊 ; 209kai\u032F → 凯 ; 210kan } $not_vowel → 坎 ; 211kau\u032F → 考 ; 212ka → 卡 ; 213kei\u032F → 凯 ; 214ken } $not_vowel → 肯 ; 215ke → 克 ; 216kin } $not_vowel → 金 ; 217ki → 基 ; 218kja → 基亚 ; 219kjen } $not_vowel → 基恩 ; 220kje → 基耶 ; 221kju → 基乌 ; 222kon } $not_vowel → 孔 ; 223ko → 科 ; 224kun } $not_vowel → 昆 ; 225ku → 库 ; 226kwan } $not_vowel → 宽 ; 227kwa → 夸 ; 228kwen } $not_vowel → 昆 ; 229kwe → 库埃 ; 230kwin } $not_vowel → 昆 ; 231kwi → 奎 ; 232kwo → 阔 ; 233k → 克 ; 234lae } [^n] → 莱 ; 235lai\u032F → 莱 ; 236lan } $not_vowel → 兰 ; 237lau\u032F → 劳 ; 238la → 拉 ; 239len } $not_vowel → 伦 ; 240le → 莱 ; 241lin } $not_vowel → 林 ; 242li → 利 ; 243lja → 利亚 ; 244ljen } $not_vowel → 连 ; 245lje → 列 ; 246lju → 柳 ; 247lon } $not_vowel → 隆 ; 248lo → 洛 ; 249lun } $not_vowel → 伦 ; 250lu → 卢 ; 251lwan } $not_vowel → 卢安 ; 252lwa → 卢阿 ; 253lwen } $not_vowel → 伦 ; 254lwe → 卢埃 ; 255lwi → 卢伊 ; 256lwo → 洛 ; 257l → 尔 ; 258ʎan } $not_vowel → 良 ; 259ʎau\u032F → 廖 ; 260ʎa → 利亚 ; 261ʎen } $not_vowel → 连 ; 262ʎe → 列 ; 263ʎin } $not_vowel → 林 ; 264ʎi → 利 ; 265ʎon } $not_vowel → 利翁 ; 266ʎo → 略 ; 267ʎu → 柳 ; 268ʎwan } $not_vowel → 柳安 ; 269ʎwa → 柳阿 ; 270ʎwen } $not_vowel → 柳恩 ; 271ʎwe → 柳埃 ; 272ʎwi → 柳伊 ; 273ʎwo → 略 ; 274ʎ → 尔 ; 275mai\u032F → 迈 ; 276man } $not_vowel → 曼 ; 277martin → 马丁 ; 278mau\u032F → 毛 ; 279ma → 马 ; 280men } $not_vowel → 门 ; 281me → 梅 ; 282min } $not_vowel → 明 ; 283mi → 米 ; 284mja → 米亚 ; 285mjen } $not_vowel → 缅 ; 286mje → 米耶 ; 287mju → 缪 ; 288mon } $not_vowel → 蒙 ; 289mo → 莫 ; 290mun } $not_vowel → 蒙 ; 291mu → 穆 ; 292mwan } $not_vowel → 穆安 ; 293mwa → 穆阿 ; 294mwen } $not_vowel → 门 ; 295mwe → 穆埃 ; 296mwin } $not_vowel → 穆因 ; # Nonstandard, but fits observed data. 297mwi → 穆伊 ; 298mwo → 莫 ; 299m → 姆 ; 300nai\u032F → 奈 ; 301nan } $not_vowel → 南 ; 302nau\u032F → 瑙 ; 303na → 纳 ; 304nen } $not_vowel → 嫩 ; 305ne → 内 ; 306nin } $not_vowel → 宁 ; 307ni → 尼 ; 308nja → 尼亚 ; 309njen } $not_vowel → 年 ; 310nje → 涅 ; 311nju → 纽 ; 312non } $not_vowel → 农 ; 313no → 诺 ; 314nun } $not_vowel → 嫩 ; 315nu → 努 ; 316nwan } $not_vowel → 努安 ; 317nwa → 努阿 ; 318nwen } $not_vowel → 农 ; 319nwe → 努埃 ; 320nwi → 努伊 ; 321nwo → 诺 ; 322n → 恩 ; 323ɲan } $not_vowel → 尼扬 ; 324ɲau\u032F → 尼奥 ; 325ɲa → 尼亚 ; 326ɲen } $not_vowel → 年 ; 327ɲe → 涅 ; 328ɲin } $not_vowel → 宁 ; 329ɲi → 尼 ; 330ɲon } $not_vowel → 尼翁 ; 331ɲo → 尼奥 ; 332ɲu → 纽 ; 333ɲwan } $not_vowel → 纽安 ; 334ɲwa → 纽阿 ; 335ɲwen } $not_vowel → 纽恩 ; 336ɲwe → 纽埃 ; 337ɲwi → 纽伊 ; 338ɲwo → 尼奥 ; 339on } $not_vowel → 翁 ; 340ou\u032F → 欧 ; 341o → 奥 ; 342pai\u032F → 派 ; 343pan } $not_vowel → 潘 ; 344pau\u032F → 保 ; 345pa → 帕 ; 346pen } $not_vowel → 彭 ; 347pe → 佩 ; 348pin } $not_vowel → 平 ; 349pi → 皮 ; 350pja → 皮亚 ; 351pjen } $not_vowel → 皮恩 ; 352pje → 彼 ; 353pju → 皮乌 ; 354pon } $not_vowel → 蓬 ; 355po → 波 ; 356pun } $not_vowel → 蓬 ; 357pu → 普 ; 358pwan } $not_vowel → 普安 ; 359pwa → 普阿 ; 360pwen } $not_vowel → 蓬 ; 361pwe → 普埃 ; 362pwi → 普伊 ; 363pwo → 波 ; 364p → 普 ; 365rai\u032F → 赖 ; 366ran } $not_vowel → 兰 ; 367rau\u032F → 劳 ; 368ra → 拉 ; 369ren } $not_vowel → 伦 ; 370re → 雷 ; 371rin } $not_vowel → 林 ; 372ri → 里 ; 373rja → 里亚 ; 374rjen } $not_vowel → 连 ; 375rje → 列 ; 376rju → 留 ; 377ron } $not_vowel → 龙 ; 378ro → 罗 ; 379run } $not_vowel → 伦 ; 380ru → 鲁 ; 381rwan } $not_vowel → 鲁安 ; 382rwa → 鲁阿 ; 383rwen } $not_vowel → 伦 ; 384rwe → 鲁埃 ; 385rwi → 鲁伊 ; 386rwo → 罗 ; 387r → R ; 388sai\u032F → 赛 ; 389san } $not_vowel → 桑 ; 390sau\u032F → 绍 ; 391sa → 萨 ; 392sen } $not_vowel → 森 ; 393se → 塞 ; 394sin } $not_vowel → 辛 ; 395si → 西 ; 396sja → 西亚 ; 397sjen } $not_vowel → 先 ; 398sje → 谢 ; 399sju → 休 ; 400son } $not_vowel → 松 ; 401so → 索 ; 402sun } $not_vowel → 孙 ; 403su → 苏 ; 404swan } $not_vowel → 苏安 ; 405swa → 苏阿 ; 406swen } $not_vowel → 孙 ; 407swe → 苏埃 ; 408swi → 绥 ; 409swo → 索 ; 410s → 斯 ; 411tai\u032F → 泰 ; 412tan } $not_vowel → 坦 ; 413tau\u032F → 陶 ; 414ta → 塔 ; 415tei\u032F → 泰 ; 416ten } $not_vowel → 滕 ; 417te → 特 ; 418tin } $not_vowel → 廷 ; 419ti → 蒂 ; 420tja → 蒂亚 ; 421tjen } $not_vowel → 蒂恩 ; 422tje → 铁 ; 423tju → 蒂乌 ; 424ton } $not_vowel → 通 ; 425to → 托 ; 426# The rules for /ts/ (tz in the orthography) are nonstandard and derived 427# entirely from the observed data. They apply mostly to native toponyms 428# in Mexico. 429tsa → 察 ; 430tsen } $not_vowel → 岑 ; 431tse → 采 ; 432tsin } $not_vowel → 钦 ; 433tsi → 齐 ; 434tso → 措 ; 435tsun } $not_vowel → 聪 ; 436tsu → 楚 ; 437ts → 茨 ; 438tun } $not_vowel → 通 ; 439tu → 图 ; 440twan } $not_vowel → 图安 ; 441twa → 图阿 ; 442twen } $not_vowel → 通 ; 443twe → 图埃 ; 444twi → 图伊 ; 445two → 托 ; 446t → 特 ; 447ʧai\u032F → 柴 ; 448ʧan } $not_vowel → 钱 ; 449ʧau\u032F → 乔 ; 450ʧa → 查 ; 451ʧen } $not_vowel → 琴 ; 452ʧe → 切 ; 453ʧin } $not_vowel → 钦 ; 454ʧi → 奇 ; 455ʧjan } $not_vowel → 钱 ; 456ʧja → 恰 ; 457ʧjen } $not_vowel → 钱 ; 458ʧje → 切 ; 459ʧjon } $not_vowel → 琼 ; 460ʧju → 丘 ; 461ʧon } $not_vowel → 琼 ; 462ʧo → 乔 ; 463ʧun } $not_vowel → 琼 ; # Should be 春, per GB/T 17693.5-2009 表 1. 464ʧu → 丘 ; 465ʧwan } $not_vowel → 丘安 ; 466ʧwa → 丘阿 ; 467ʧwen } $not_vowel → 琼 ; 468ʧwe → 丘埃 ; 469ʧwi → 崔 ; 470ʧwo → 乔 ; 471ʧ → 奇 ; 472un } $not_vowel → 温 ; 473u → 乌 ; 474wan } $not_vowel → 万 ; 475wa → 瓦 ; 476wen } $not_vowel → 温 ; 477we → 韦 ; 478win } $not_vowel → 温 ; 479wi → 维 ; 480won } $not_vowel → 翁 ; # Unseen. 481wo → 沃 ; 482xai\u032F → 海 ; 483xan } $not_vowel → 汉 ; 484xau\u032F → 豪 ; 485xa → 哈 ; 486xei\u032F → 黑 ; 487xen } $not_vowel → 亨 ; 488xe → 赫 ; 489xin } $not_vowel → 欣 ; 490xi → 希 ; 491xja → 希亚 ; 492xjen } $not_vowel → 希恩 ; 493xje → 希耶 ; 494xju → 休 ; 495xon } $not_vowel → 洪 ; 496xo → 霍 ; 497xun } $not_vowel → 洪 ; 498xu → 胡 ; 499xwan } $not_vowel → 胡安 ; 500xwa → 华 ; 501xwen } $not_vowel → 洪 ; 502xwe → 胡埃 ; 503xwi → 惠 ; 504xwo → 霍 ; 505x → 赫 ; 506# 尔 simplification pass. The idea is to drop most occurences of 尔 507# corresponding to <r> (not to <l> or <ll>) from a word if there is another /l/ 508# sound nearby. There is a vague pattern like this in the data, but the details 509# remain to be determined. At the moment, this does nothing, it just puts 尔 in 510# for every <r> in a syllable coda. 511::Null; 512$r = [R利拉]; 513# 514# 515# R } . $r → ; 516# R } .. $r → ; 517# R } ... $r → ; 518# R } .... $r → ; 519R → 尔 ; 520# Dong-nan-xi-hai pass. Per GB/T 17693.5-2009 表 1, 注 4, replace confusing 521# characters at the beginning and end of a word. 522::Null; 523$word_boundary { 东 → 栋 ; 524$word_boundary { 南 → 楠 ; 525$word_boundary { 西 → 锡 ; 526海 } $word_boundary → 亥 ; 527::NFC; 528 529