1# © 2016 and later: Unicode, Inc. and others. 2# License & terms of use: http://www.unicode.org/copyright.html 3# Generated using tools/cldr/cldr-to-icu/build-icu-data.xml 4# 5# File: es_FONIPA_zh.txt 6# Generated from CLDR 7# 8 9# Tranforms Spanish to Mandarin Chinese. The input Spanish string must be in 10# phonemic IPA transcription (es_FONIPA); the output is in Simplified Chinese. 11$word_boundary = [-\ $]; 12$vowel = [aeijouw]; # Vowels and glides 13$not_vowel = [^$vowel]; 14# First pass: Collapse phonetic distinctions not preserved in Mandarin. 15ð → | d; 16ɣ → | g; 17ŋ → | n; 18θ → | s; 19ɾ → | r; 20ff → f ; 21kk → k ; 22mm → m ; 23nn → n ; 24pp → p ; 25tt → t ; 26tʧ → ʧ ; 27aa → a ; 28oi\u032F → oi ; 29oo → o ; 30uu → u ; 31[^dgktx] { ei\u032F → e ; 32[^-\ .$] { eu\u032F → eu ; 33[^-\ .$] { ou\u032F → o; 34[^j] { ui → wi ; 35[^$word_boundary] { m } [bp] → n; # GB/T 17693.5-2009, 5.3.2 36s[θs] → s; # GB/T 17693.5-2009, 5.3.4 37[^ʧ] { jo → io; # GB/T 17693.5-2009 表 1, 注 7 38::Null; 39j } an $not_vowel → i ; # GB/T 17693.5-2009 表 1, 注 8 40# GB/T 17693.5-2009 表 1, 注 8 also says that <uai> should be treated as if 41# it was <u> plus <ai>. This is not borne out by the observed data, which 42# suggests that <ua> plus <i> is the more appropriate choice in some 43# situations. 44[g.$] { wai\u032F → wai ; 45wai\u032F → uai\u032F ; 46[g.$] { wau\u032F → wau ; 47wau\u032F → uau\u032F ; 48jau\u032F → iau\u032F ; 49# Even though "ao" is not a diphthong in Spanish, Mandarin treats it as one. 50[^jw] { ao } [^n] → au\u032F ; 51[^jw] { ao } n $vowel → au\u032F ; 52# Main pass: Phoneme to Hanzi conversion. 53# This generally follows GB/T 17693.5-2009 表 1, unless otherwise noted. 54::Null; 55'.' → ; 56ai\u032F → 艾 ; 57an } $not_vowel → 安 ; 58au\u032F → 奥 ; 59a → 阿 ; 60bai\u032F → 拜 ; 61ban } $not_vowel → 班 ; 62bau\u032F → 包 ; 63ba → 巴 ; 64ben } $not_vowel → 本 ; 65be → 贝 ; 66bin } $not_vowel → 宾 ; 67bi → 比 ; 68bja → 比亚 ; 69bjen } $not_vowel → 比恩 ; 70bje → 别 ; 71bju → 比乌 ; 72bon } $not_vowel → 邦 ; 73bo → 博 ; 74bun } $not_vowel → 本 ; 75bu → 布 ; 76bwan } $not_vowel → 布安 ; 77bwa → 布阿 ; 78bwen } $not_vowel → 布恩 ; # Should be be 本, per GB/T 17693.5-2009 表 1. 79bwe → 布埃 ; 80bwin } $not_vowel → 布因 ; # Nonstandard, but fits observed data. 81bwi → 布伊 ; 82bwo → 博 ; 83b → 布 ; 84βai\u032F → 瓦伊 ; 85βan } $not_vowel → 万 ; 86βau\u032F → 沃 ; 87βa → 瓦 ; 88βen } $not_vowel → 文 ; 89βe → 韦 ; 90βin } $not_vowel → 温 ; 91βi → 维 ; 92βja → 维亚 ; 93βjen } $not_vowel → 维恩 ; 94βje → 维耶 ; 95βju → 维乌 ; 96βon } $not_vowel → 翁 ; 97βo → 沃 ; 98βun } $not_vowel → 文 ; 99βu → 武 ; 100βwan } $not_vowel → 万 ; 101βwa → 瓦 ; 102βwen } $not_vowel → 文 ; 103βwe → 武埃 ; 104βwi → 维 ; 105βwo → 沃 ; 106β → 夫 ; 107dai\u032F → 代 ; 108dan } $not_vowel → 丹 ; 109dau\u032F → 道 ; 110da → 达 ; 111dei\u032F → 代 ; 112den } $not_vowel → 登 ; 113de → 德 ; 114din } $not_vowel → 丁 ; 115di → 迪 ; 116dja → 迪亚 ; 117djen } $not_vowel → 迪恩 ; 118dje → 迭 ; 119dju → 迪乌 ; 120don } $not_vowel → 东 ; 121do → 多 ; 122dun } $not_vowel → 敦 ; 123du → 杜 ; 124dwan } $not_vowel → 端 ; 125dwa → 杜阿 ; 126dwen } $not_vowel → 敦 ; 127dwe → 杜埃 ; 128dwi → 杜伊 ; 129dwo → 多 ; 130d } $word_boundary → ; 131d → 德 ; 132ei\u032F → 埃 ; 133en } $not_vowel → 恩 ; 134eu\u032F → 欧 ; 135e → 埃 ; 136fai\u032F → 法伊 ; 137fan } $not_vowel → 凡 ; 138fau\u032F → 福 ; 139fa → 法 ; 140fe → 费 ; 141fin } $not_vowel → 芬 ; 142fi → 菲 ; 143fja → 菲亚 ; 144fjen } $not_vowel → 菲恩 ; 145fje → 菲耶 ; 146fju → 菲乌 ; 147fon } $not_vowel → 丰 ; 148fo → 福 ; 149fun } $not_vowel → 丰 ; 150fu → 富 ; 151fwan } $not_vowel → 富安 ; 152fwa → 富阿 ; 153fwen } $not_vowel → 丰 ; 154fwe → 富埃 ; 155fwi → 富伊 ; 156fwo → 福 ; 157# The choice of 弗 vs. 夫 sounds simple according to the GB/T standard, but the 158# data suggest otherwise. Ideally, 弗 should occur at the beginning of a 159# morpheme (e.g. in "villafranca" 比利亚弗兰卡) and 夫 everywhere else. Since 160# we don't have morpheme boundaries, we'll fudge it by writing 夫 at the end of 161# a word and 弗 everywhere else. 162f } $word_boundary → 夫 ; 163f → 弗 ; 164gai\u032F → 盖 ; 165gan } $not_vowel → 甘 ; 166gau\u032F → 高 ; 167ga → 加 ; 168gei\u032F → 盖 ; 169gen } $not_vowel → 根 ; 170ge → 格 ; 171gin } $not_vowel → 金 ; 172gi → 吉 ; 173gja → 吉亚 ; 174gjen } $not_vowel → 吉恩 ; 175gje → 吉耶 ; 176gju → 吉乌 ; 177gon } $not_vowel → 贡 ; 178go → 戈 ; 179gun } $not_vowel → 贡 ; 180gu → 古 ; 181gwan } [$] → 古安 ; # Nonstandard, but fits observed data. 182gwan } $not_vowel → 关 ; 183gwa → 瓜 ; 184gwen } $not_vowel → 古恩 ; 185gwe → 圭 ; 186gwi → 圭 ; 187gwo → 果 ; 188g → 格 ; 189in } $not_vowel → 因 ; 190i → 伊 ; 191ʝai\u032F → 亚伊 ; 192ʝan } $not_vowel → 扬 ; 193ʝau\u032F → 尧 ; 194ʝa → 亚 ; 195ʝen } $not_vowel → 延 ; 196ʝe → 耶 ; 197ʝin } $not_vowel → 因 ; 198ʝi → 伊 ; 199ʝon } $not_vowel → 永 ; 200ʝo → 约 ; 201ʝun } $not_vowel → 云 ; 202ʝu → 尤 ; 203ʝwan } $not_vowel → 元 ; 204ʝwa → 尤阿 ; 205ʝwen } $not_vowel → 云 ; 206ʝwe → 尤埃 ; 207ʝwi → 尤伊 ; 208ʝwo → 约 ; 209ʝ → 伊 ; 210kai\u032F → 凯 ; 211kan } $not_vowel → 坎 ; 212kau\u032F → 考 ; 213ka → 卡 ; 214kei\u032F → 凯 ; 215ken } $not_vowel → 肯 ; 216ke → 克 ; 217kin } $not_vowel → 金 ; 218ki → 基 ; 219kja → 基亚 ; 220kjen } $not_vowel → 基恩 ; 221kje → 基耶 ; 222kju → 基乌 ; 223kon } $not_vowel → 孔 ; 224ko → 科 ; 225kun } $not_vowel → 昆 ; 226ku → 库 ; 227kwan } $not_vowel → 宽 ; 228kwa → 夸 ; 229kwen } $not_vowel → 昆 ; 230kwe → 库埃 ; 231kwin } $not_vowel → 昆 ; 232kwi → 奎 ; 233kwo → 阔 ; 234k → 克 ; 235lae } [^n] → 莱 ; 236lai\u032F → 莱 ; 237lan } $not_vowel → 兰 ; 238lau\u032F → 劳 ; 239la → 拉 ; 240len } $not_vowel → 伦 ; 241le → 莱 ; 242lin } $not_vowel → 林 ; 243li → 利 ; 244lja → 利亚 ; 245ljen } $not_vowel → 连 ; 246lje → 列 ; 247lju → 柳 ; 248lon } $not_vowel → 隆 ; 249lo → 洛 ; 250lun } $not_vowel → 伦 ; 251lu → 卢 ; 252lwan } $not_vowel → 卢安 ; 253lwa → 卢阿 ; 254lwen } $not_vowel → 伦 ; 255lwe → 卢埃 ; 256lwi → 卢伊 ; 257lwo → 洛 ; 258l → 尔 ; 259ʎan } $not_vowel → 良 ; 260ʎau\u032F → 廖 ; 261ʎa → 利亚 ; 262ʎen } $not_vowel → 连 ; 263ʎe → 列 ; 264ʎin } $not_vowel → 林 ; 265ʎi → 利 ; 266ʎon } $not_vowel → 利翁 ; 267ʎo → 略 ; 268ʎu → 柳 ; 269ʎwan } $not_vowel → 柳安 ; 270ʎwa → 柳阿 ; 271ʎwen } $not_vowel → 柳恩 ; 272ʎwe → 柳埃 ; 273ʎwi → 柳伊 ; 274ʎwo → 略 ; 275ʎ → 尔 ; 276mai\u032F → 迈 ; 277man } $not_vowel → 曼 ; 278martin → 马丁 ; 279mau\u032F → 毛 ; 280ma → 马 ; 281men } $not_vowel → 门 ; 282me → 梅 ; 283min } $not_vowel → 明 ; 284mi → 米 ; 285mja → 米亚 ; 286mjen } $not_vowel → 缅 ; 287mje → 米耶 ; 288mju → 缪 ; 289mon } $not_vowel → 蒙 ; 290mo → 莫 ; 291mun } $not_vowel → 蒙 ; 292mu → 穆 ; 293mwan } $not_vowel → 穆安 ; 294mwa → 穆阿 ; 295mwen } $not_vowel → 门 ; 296mwe → 穆埃 ; 297mwin } $not_vowel → 穆因 ; # Nonstandard, but fits observed data. 298mwi → 穆伊 ; 299mwo → 莫 ; 300m → 姆 ; 301nai\u032F → 奈 ; 302nan } $not_vowel → 南 ; 303nau\u032F → 瑙 ; 304na → 纳 ; 305nen } $not_vowel → 嫩 ; 306ne → 内 ; 307nin } $not_vowel → 宁 ; 308ni → 尼 ; 309nja → 尼亚 ; 310njen } $not_vowel → 年 ; 311nje → 涅 ; 312nju → 纽 ; 313non } $not_vowel → 农 ; 314no → 诺 ; 315nun } $not_vowel → 嫩 ; 316nu → 努 ; 317nwan } $not_vowel → 努安 ; 318nwa → 努阿 ; 319nwen } $not_vowel → 农 ; 320nwe → 努埃 ; 321nwi → 努伊 ; 322nwo → 诺 ; 323n → 恩 ; 324ɲan } $not_vowel → 尼扬 ; 325ɲau\u032F → 尼奥 ; 326ɲa → 尼亚 ; 327ɲen } $not_vowel → 年 ; 328ɲe → 涅 ; 329ɲin } $not_vowel → 宁 ; 330ɲi → 尼 ; 331ɲon } $not_vowel → 尼翁 ; 332ɲo → 尼奥 ; 333ɲu → 纽 ; 334ɲwan } $not_vowel → 纽安 ; 335ɲwa → 纽阿 ; 336ɲwen } $not_vowel → 纽恩 ; 337ɲwe → 纽埃 ; 338ɲwi → 纽伊 ; 339ɲwo → 尼奥 ; 340on } $not_vowel → 翁 ; 341ou\u032F → 欧 ; 342o → 奥 ; 343pai\u032F → 派 ; 344pan } $not_vowel → 潘 ; 345pau\u032F → 保 ; 346pa → 帕 ; 347pen } $not_vowel → 彭 ; 348pe → 佩 ; 349pin } $not_vowel → 平 ; 350pi → 皮 ; 351pja → 皮亚 ; 352pjen } $not_vowel → 皮恩 ; 353pje → 彼 ; 354pju → 皮乌 ; 355pon } $not_vowel → 蓬 ; 356po → 波 ; 357pun } $not_vowel → 蓬 ; 358pu → 普 ; 359pwan } $not_vowel → 普安 ; 360pwa → 普阿 ; 361pwen } $not_vowel → 蓬 ; 362pwe → 普埃 ; 363pwi → 普伊 ; 364pwo → 波 ; 365p → 普 ; 366rai\u032F → 赖 ; 367ran } $not_vowel → 兰 ; 368rau\u032F → 劳 ; 369ra → 拉 ; 370ren } $not_vowel → 伦 ; 371re → 雷 ; 372rin } $not_vowel → 林 ; 373ri → 里 ; 374rja → 里亚 ; 375rjen } $not_vowel → 连 ; 376rje → 列 ; 377rju → 留 ; 378ron } $not_vowel → 龙 ; 379ro → 罗 ; 380run } $not_vowel → 伦 ; 381ru → 鲁 ; 382rwan } $not_vowel → 鲁安 ; 383rwa → 鲁阿 ; 384rwen } $not_vowel → 伦 ; 385rwe → 鲁埃 ; 386rwi → 鲁伊 ; 387rwo → 罗 ; 388r → R ; 389sai\u032F → 赛 ; 390san } $not_vowel → 桑 ; 391sau\u032F → 绍 ; 392sa → 萨 ; 393sen } $not_vowel → 森 ; 394se → 塞 ; 395sin } $not_vowel → 辛 ; 396si → 西 ; 397sja → 西亚 ; 398sjen } $not_vowel → 先 ; 399sje → 谢 ; 400sju → 休 ; 401son } $not_vowel → 松 ; 402so → 索 ; 403sun } $not_vowel → 孙 ; 404su → 苏 ; 405swan } $not_vowel → 苏安 ; 406swa → 苏阿 ; 407swen } $not_vowel → 孙 ; 408swe → 苏埃 ; 409swi → 绥 ; 410swo → 索 ; 411s → 斯 ; 412tai\u032F → 泰 ; 413tan } $not_vowel → 坦 ; 414tau\u032F → 陶 ; 415ta → 塔 ; 416tei\u032F → 泰 ; 417ten } $not_vowel → 滕 ; 418te → 特 ; 419tin } $not_vowel → 廷 ; 420ti → 蒂 ; 421tja → 蒂亚 ; 422tjen } $not_vowel → 蒂恩 ; 423tje → 铁 ; 424tju → 蒂乌 ; 425ton } $not_vowel → 通 ; 426to → 托 ; 427# The rules for /ts/ (tz in the orthography) are nonstandard and derived 428# entirely from the observed data. They apply mostly to native toponyms 429# in Mexico. 430tsa → 察 ; 431tsen } $not_vowel → 岑 ; 432tse → 采 ; 433tsin } $not_vowel → 钦 ; 434tsi → 齐 ; 435tso → 措 ; 436tsun } $not_vowel → 聪 ; 437tsu → 楚 ; 438ts → 茨 ; 439tun } $not_vowel → 通 ; 440tu → 图 ; 441twan } $not_vowel → 图安 ; 442twa → 图阿 ; 443twen } $not_vowel → 通 ; 444twe → 图埃 ; 445twi → 图伊 ; 446two → 托 ; 447t → 特 ; 448ʧai\u032F → 柴 ; 449ʧan } $not_vowel → 钱 ; 450ʧau\u032F → 乔 ; 451ʧa → 查 ; 452ʧen } $not_vowel → 琴 ; 453ʧe → 切 ; 454ʧin } $not_vowel → 钦 ; 455ʧi → 奇 ; 456ʧjan } $not_vowel → 钱 ; 457ʧja → 恰 ; 458ʧjen } $not_vowel → 钱 ; 459ʧje → 切 ; 460ʧjon } $not_vowel → 琼 ; 461ʧju → 丘 ; 462ʧon } $not_vowel → 琼 ; 463ʧo → 乔 ; 464ʧun } $not_vowel → 琼 ; # Should be 春, per GB/T 17693.5-2009 表 1. 465ʧu → 丘 ; 466ʧwan } $not_vowel → 丘安 ; 467ʧwa → 丘阿 ; 468ʧwen } $not_vowel → 琼 ; 469ʧwe → 丘埃 ; 470ʧwi → 崔 ; 471ʧwo → 乔 ; 472ʧ → 奇 ; 473un } $not_vowel → 温 ; 474u → 乌 ; 475wan } $not_vowel → 万 ; 476wa → 瓦 ; 477wen } $not_vowel → 温 ; 478we → 韦 ; 479win } $not_vowel → 温 ; 480wi → 维 ; 481won } $not_vowel → 翁 ; # Unseen. 482wo → 沃 ; 483xai\u032F → 海 ; 484xan } $not_vowel → 汉 ; 485xau\u032F → 豪 ; 486xa → 哈 ; 487xei\u032F → 黑 ; 488xen } $not_vowel → 亨 ; 489xe → 赫 ; 490xin } $not_vowel → 欣 ; 491xi → 希 ; 492xja → 希亚 ; 493xjen } $not_vowel → 希恩 ; 494xje → 希耶 ; 495xju → 休 ; 496xon } $not_vowel → 洪 ; 497xo → 霍 ; 498xun } $not_vowel → 洪 ; 499xu → 胡 ; 500xwan } $not_vowel → 胡安 ; 501xwa → 华 ; 502xwen } $not_vowel → 洪 ; 503xwe → 胡埃 ; 504xwi → 惠 ; 505xwo → 霍 ; 506x → 赫 ; 507# 尔 simplification pass. The idea is to drop most occurences of 尔 508# corresponding to <r> (not to <l> or <ll>) from a word if there is another /l/ 509# sound nearby. There is a vague pattern like this in the data, but the details 510# remain to be determined. At the moment, this does nothing, it just puts 尔 in 511# for every <r> in a syllable coda. 512::Null; 513$r = [R利拉]; 514# 515# 516# R } . $r → ; 517# R } .. $r → ; 518# R } ... $r → ; 519# R } .... $r → ; 520R → 尔 ; 521# Dong-nan-xi-hai pass. Per GB/T 17693.5-2009 表 1, 注 4, replace confusing 522# characters at the beginning and end of a word. 523::Null; 524$word_boundary { 东 → 栋 ; 525$word_boundary { 南 → 楠 ; 526$word_boundary { 西 → 锡 ; 527海 } $word_boundary → 亥 ; 528::NFC; 529 530