• Home
  • Line#
  • Scopes#
  • Navigate#
  • Raw
  • Download
1<?xml version="1.0" encoding="UTF-8" ?>
2<!DOCTYPE supplementalData SYSTEM "../../common/dtd/ldmlSupplemental.dtd">
3<!--
4Copyright © 1991-2013 Unicode, Inc.
5CLDR data files are interpreted according to the LDML specification (http://unicode.org/reports/tr35/)
6For terms of use, see http://www.unicode.org/copyright.html
7-->
8<supplementalData>
9	<version number="$Revision: 12243 $"/>
10	<transforms>
11		<transform source="es_FONIPA" target="zh" direction="forward" alias="zh-t-es-fonipa">
12			<tRule><![CDATA[
13# Tranforms Spanish to Mandarin Chinese. The input Spanish string must be in
14# phonemic IPA transcription (es_FONIPA); the output is in Simplified Chinese.
15
16$word_boundary = [-\ $];
17$vowel = [aeijouw];       # Vowels and glides
18$not_vowel = [^$vowel];
19
20# First pass: Collapse phonetic distinctions not preserved in Mandarin.
21
22ð → | d;
23ɣ → | g;
24ŋ → | n;
25θ → | s;
26ɾ → | r;
27
28ff → f ;
29kk → k ;
30mm → m ;
31nn → n ;
32pp → p ;
33tt → t ;
34tʧ → ʧ ;
35
36aa → a ;
37oi̯ → oi ;
38oo → o ;
39uu → u ;
40
41[^dgktx] { ei̯ → e ;
42[^-\ .$] { eu̯ → eu ;
43[^-\ .$] { ou̯ → o;
44[^j]     { ui → wi ;
45
46[^$word_boundary] { m } [bp] → n;  # GB/T 17693.5-2009, 5.3.2
47s[θs] → s;               # GB/T 17693.5-2009, 5.3.4
48[^ʧ] { jo → io;          # GB/T 17693.5-2009 表 1, 注 7
49
50::Null;
51
52j } an $not_vowel → i ;  # GB/T 17693.5-2009 表 1, 注 8
53
54
55# GB/T 17693.5-2009 表 1, 注 8 also says that <uai> should be treated as if
56# it was <u> plus <ai>.  This is not borne out by the observed data, which
57# suggests that <ua> plus <i> is the more appropriate choice in some
58# situations.
59
60[g.$] { wai̯ → wai ;
61wai̯ → uai̯ ;
62[g.$] { wau̯ → wau ;
63wau̯ → uau̯ ;
64jau̯ → iau̯ ;
65
66# Even though "ao" is not a diphthong in Spanish, Mandarin treats it as one.
67
68[^jw] { ao } [^n]     → au̯ ;
69[^jw] { ao } n $vowel → au̯ ;
70
71# Main pass: Phoneme to Hanzi conversion.
72# This generally follows GB/T 17693.5-2009 表 1, unless otherwise noted.
73::Null;
74
75'.' → ;
76ai̯ → 艾 ;
77an } $not_vowel → 安 ;
78au̯ → 奥 ;
79a → 阿 ;
80bai̯ → 拜 ;
81ban } $not_vowel → 班 ;
82bau̯ → 包 ;
83ba → 巴 ;
84ben } $not_vowel → 本 ;
85be → 贝 ;
86bin } $not_vowel → 宾 ;
87bi → 比 ;
88bja → 比亚 ;
89bjen } $not_vowel → 比恩 ;
90bje → 别 ;
91bju → 比乌 ;
92bon } $not_vowel → 邦 ;
93bo → 博 ;
94bun } $not_vowel → 本 ;
95bu → 布 ;
96bwan } $not_vowel → 布安 ;
97bwa → 布阿 ;
98bwen } $not_vowel → 布恩 ;  # Should be be 本, per GB/T 17693.5-2009 表 1.
99bwe → 布埃 ;
100bwin } $not_vowel → 布因 ;  # Nonstandard, but fits observed data.
101bwi → 布伊 ;
102bwo → 博 ;
103b → 布 ;
104βai̯ → 瓦伊 ;
105βan } $not_vowel → 万 ;
106βau̯ → 沃 ;
107βa → 瓦 ;
108βen } $not_vowel → 文 ;
109βe → 韦 ;
110βin } $not_vowel → 温 ;
111βi → 维 ;
112βja → 维亚 ;
113βjen } $not_vowel → 维恩 ;
114βje → 维耶 ;
115βju → 维乌 ;
116βon } $not_vowel → 翁 ;
117βo → 沃 ;
118βun } $not_vowel → 文 ;
119βu → 武 ;
120βwan } $not_vowel → 万 ;
121βwa → 瓦 ;
122βwen } $not_vowel → 文 ;
123βwe → 武埃 ;
124βwi → 维 ;
125βwo → 沃 ;
126β → 夫 ;
127dai̯ → 代 ;
128dan } $not_vowel → 丹 ;
129dau̯ → 道 ;
130da → 达 ;
131dei̯ → 代 ;
132den } $not_vowel → 登 ;
133de → 德 ;
134din } $not_vowel → 丁 ;
135di → 迪 ;
136dja → 迪亚 ;
137djen } $not_vowel → 迪恩 ;
138dje → 迭 ;
139dju → 迪乌 ;
140don } $not_vowel → 东 ;
141do → 多 ;
142dun } $not_vowel → 敦 ;
143du → 杜 ;
144dwan } $not_vowel → 端 ;
145dwa → 杜阿 ;
146dwen } $not_vowel → 敦 ;
147dwe → 杜埃 ;
148dwi → 杜伊 ;
149dwo → 多 ;
150d } $word_boundary → ;
151d → 德 ;
152ei̯ → 埃 ;
153en } $not_vowel → 恩 ;
154eu̯ → 欧 ;
155e → 埃 ;
156fai̯ → 法伊 ;
157fan } $not_vowel → 凡 ;
158fau̯ → 福 ;
159fa → 法 ;
160fe → 费 ;
161fin } $not_vowel → 芬 ;
162fi → 菲 ;
163fja → 菲亚 ;
164fjen } $not_vowel → 菲恩 ;
165fje → 菲耶 ;
166fju → 菲乌 ;
167fon } $not_vowel → 丰 ;
168fo → 福 ;
169fun } $not_vowel → 丰 ;
170fu → 富 ;
171fwan } $not_vowel → 富安 ;
172fwa → 富阿 ;
173fwen } $not_vowel → 丰 ;
174fwe → 富埃 ;
175fwi → 富伊 ;
176fwo → 福 ;
177
178
179# The choice of 弗 vs. 夫 sounds simple according to the GB/T standard, but the
180# data suggest otherwise.  Ideally, 弗 should occur at the beginning of a
181# morpheme (e.g. in "villafranca" 比利亚弗兰卡) and 夫 everywhere else.  Since
182# we don't have morpheme boundaries, we'll fudge it by writing 夫 at the end of
183# a word and 弗 everywhere else.
184
185f } $word_boundary → 夫 ;
186f → 弗 ;
187
188gai̯ → 盖 ;
189gan } $not_vowel → 甘 ;
190gau̯ → 高 ;
191ga → 加 ;
192gei̯ → 盖 ;
193gen } $not_vowel → 根 ;
194ge → 格 ;
195gin } $not_vowel → 金 ;
196gi → 吉 ;
197gja → 吉亚 ;
198gjen } $not_vowel → 吉恩 ;
199gje → 吉耶 ;
200gju → 吉乌 ;
201gon } $not_vowel → 贡 ;
202go → 戈 ;
203gun } $not_vowel → 贡 ;
204gu → 古 ;
205gwan } [$] → 古安 ;        # Nonstandard, but fits observed data.
206gwan } $not_vowel → 关 ;
207gwa → 瓜 ;
208gwen } $not_vowel → 古恩 ;
209gwe → 圭 ;
210gwi → 圭 ;
211gwo → 果 ;
212g → 格 ;
213in } $not_vowel → 因 ;
214i → 伊 ;
215ʝai̯ → 亚伊 ;
216ʝan } $not_vowel → 扬 ;
217ʝau̯ → 尧 ;
218ʝa → 亚 ;
219ʝen } $not_vowel → 延 ;
220ʝe → 耶 ;
221ʝin } $not_vowel → 因 ;
222ʝi → 伊 ;
223ʝon } $not_vowel → 永 ;
224ʝo → 约 ;
225ʝun } $not_vowel → 云 ;
226ʝu → 尤 ;
227ʝwan } $not_vowel → 元 ;
228ʝwa → 尤阿 ;
229ʝwen } $not_vowel → 云 ;
230ʝwe → 尤埃 ;
231ʝwi → 尤伊 ;
232ʝwo → 约 ;
233ʝ → 伊 ;
234kai̯ → 凯 ;
235kan } $not_vowel → 坎 ;
236kau̯ → 考 ;
237ka → 卡 ;
238kei̯ → 凯 ;
239ken } $not_vowel → 肯 ;
240ke → 克 ;
241kin } $not_vowel → 金 ;
242ki → 基 ;
243kja → 基亚 ;
244kjen } $not_vowel → 基恩 ;
245kje → 基耶 ;
246kju → 基乌 ;
247kon } $not_vowel → 孔 ;
248ko → 科 ;
249kun } $not_vowel → 昆 ;
250ku → 库 ;
251kwan } $not_vowel → 宽 ;
252kwa → 夸 ;
253kwen } $not_vowel → 昆 ;
254kwe → 库埃 ;
255kwin } $not_vowel → 昆 ;
256kwi → 奎 ;
257kwo → 阔 ;
258k → 克 ;
259lae } [^n] → 莱 ;
260lai̯ → 莱 ;
261lan } $not_vowel → 兰 ;
262lau̯ → 劳 ;
263la → 拉 ;
264len } $not_vowel → 伦 ;
265le → 莱 ;
266lin } $not_vowel → 林 ;
267li → 利 ;
268lja → 利亚 ;
269ljen } $not_vowel → 连 ;
270lje → 列 ;
271lju → 柳 ;
272lon } $not_vowel → 隆 ;
273lo → 洛 ;
274lun } $not_vowel → 伦 ;
275lu → 卢 ;
276lwan } $not_vowel → 卢安 ;
277lwa → 卢阿 ;
278lwen } $not_vowel → 伦 ;
279lwe → 卢埃 ;
280lwi → 卢伊 ;
281lwo → 洛 ;
282l → 尔 ;
283ʎan } $not_vowel → 良 ;
284ʎau̯ → 廖 ;
285ʎa → 利亚 ;
286ʎen } $not_vowel → 连 ;
287ʎe → 列 ;
288ʎin } $not_vowel → 林 ;
289ʎi → 利 ;
290ʎon } $not_vowel → 利翁 ;
291ʎo → 略 ;
292ʎu → 柳 ;
293ʎwan } $not_vowel → 柳安 ;
294ʎwa → 柳阿 ;
295ʎwen } $not_vowel → 柳恩 ;
296ʎwe → 柳埃 ;
297ʎwi → 柳伊 ;
298ʎwo → 略 ;
299ʎ → 尔 ;
300mai̯ → 迈 ;
301man } $not_vowel → 曼 ;
302martin → 马丁 ;
303mau̯ → 毛 ;
304ma → 马 ;
305men } $not_vowel → 门 ;
306me → 梅 ;
307min } $not_vowel → 明 ;
308mi → 米 ;
309mja → 米亚 ;
310mjen } $not_vowel → 缅 ;
311mje → 米耶 ;
312mju → 缪 ;
313mon } $not_vowel → 蒙 ;
314mo → 莫 ;
315mun } $not_vowel → 蒙 ;
316mu → 穆 ;
317mwan } $not_vowel → 穆安 ;
318mwa → 穆阿 ;
319mwen } $not_vowel → 门 ;
320mwe → 穆埃 ;
321mwin } $not_vowel → 穆因 ;  # Nonstandard, but fits observed data.
322mwi → 穆伊 ;
323mwo → 莫 ;
324m → 姆 ;
325nai̯ → 奈 ;
326nan } $not_vowel → 南 ;
327nau̯ → 瑙 ;
328na → 纳 ;
329nen } $not_vowel → 嫩 ;
330ne → 内 ;
331nin } $not_vowel → 宁 ;
332ni → 尼 ;
333nja → 尼亚 ;
334njen } $not_vowel → 年 ;
335nje → 涅 ;
336nju → 纽 ;
337non } $not_vowel → 农 ;
338no → 诺 ;
339nun } $not_vowel → 嫩 ;
340nu → 努 ;
341nwan } $not_vowel → 努安 ;
342nwa → 努阿 ;
343nwen } $not_vowel → 农 ;
344nwe → 努埃 ;
345nwi → 努伊 ;
346nwo → 诺 ;
347n → 恩 ;
348ɲan } $not_vowel → 尼扬 ;
349ɲau̯ → 尼奥 ;
350ɲa → 尼亚 ;
351ɲen } $not_vowel → 年 ;
352ɲe → 涅 ;
353ɲin } $not_vowel → 宁 ;
354ɲi → 尼 ;
355ɲon } $not_vowel → 尼翁 ;
356ɲo → 尼奥 ;
357ɲu → 纽 ;
358ɲwan } $not_vowel → 纽安 ;
359ɲwa → 纽阿 ;
360ɲwen } $not_vowel → 纽恩 ;
361ɲwe → 纽埃 ;
362ɲwi → 纽伊 ;
363ɲwo → 尼奥 ;
364on } $not_vowel → 翁 ;
365ou̯ → 欧 ;
366o → 奥 ;
367pai̯ → 派 ;
368pan } $not_vowel → 潘 ;
369pau̯ → 保 ;
370pa → 帕 ;
371pen } $not_vowel → 彭 ;
372pe → 佩 ;
373pin } $not_vowel → 平 ;
374pi → 皮 ;
375pja → 皮亚 ;
376pjen } $not_vowel → 皮恩 ;
377pje → 彼 ;
378pju → 皮乌 ;
379pon } $not_vowel → 蓬 ;
380po → 波 ;
381pun } $not_vowel → 蓬 ;
382pu → 普 ;
383pwan } $not_vowel → 普安 ;
384pwa → 普阿 ;
385pwen } $not_vowel → 蓬 ;
386pwe → 普埃 ;
387pwi → 普伊 ;
388pwo → 波 ;
389p → 普 ;
390rai̯ → 赖 ;
391ran } $not_vowel → 兰 ;
392rau̯ → 劳 ;
393ra → 拉 ;
394ren } $not_vowel → 伦 ;
395re → 雷 ;
396rin } $not_vowel → 林 ;
397ri → 里 ;
398rja → 里亚 ;
399rjen } $not_vowel → 连 ;
400rje → 列 ;
401rju → 留 ;
402ron } $not_vowel → 龙 ;
403ro → 罗 ;
404run } $not_vowel → 伦 ;
405ru → 鲁 ;
406rwan } $not_vowel → 鲁安 ;
407rwa → 鲁阿 ;
408rwen } $not_vowel → 伦 ;
409rwe → 鲁埃 ;
410rwi → 鲁伊 ;
411rwo → 罗 ;
412r → R ;
413sai̯ → 赛 ;
414san } $not_vowel → 桑 ;
415sau̯ → 绍 ;
416sa → 萨 ;
417sen } $not_vowel → 森 ;
418se → 塞 ;
419sin } $not_vowel → 辛 ;
420si → 西 ;
421sja → 西亚 ;
422sjen } $not_vowel → 先 ;
423sje → 谢 ;
424sju → 休 ;
425son } $not_vowel → 松 ;
426so → 索 ;
427sun } $not_vowel → 孙 ;
428su → 苏 ;
429swan } $not_vowel → 苏安 ;
430swa → 苏阿 ;
431swen } $not_vowel → 孙 ;
432swe → 苏埃 ;
433swi → 绥 ;
434swo → 索 ;
435s → 斯 ;
436tai̯ → 泰 ;
437tan } $not_vowel → 坦 ;
438tau̯ → 陶 ;
439ta → 塔 ;
440tei̯ → 泰 ;
441ten } $not_vowel → 滕 ;
442te → 特 ;
443tin } $not_vowel → 廷 ;
444ti → 蒂 ;
445tja → 蒂亚 ;
446tjen } $not_vowel → 蒂恩 ;
447tje → 铁 ;
448tju → 蒂乌 ;
449ton } $not_vowel → 通 ;
450to → 托 ;
451
452# The rules for /ts/ (tz in the orthography) are nonstandard and derived
453# entirely from the observed data.  They apply mostly to native toponyms
454# in Mexico.
455
456tsa → 察 ;
457tsen } $not_vowel → 岑 ;
458tse → 采 ;
459tsin } $not_vowel → 钦 ;
460tsi → 齐 ;
461tso → 措 ;
462tsun } $not_vowel → 聪 ;
463tsu → 楚 ;
464ts → 茨 ;
465
466tun } $not_vowel → 通 ;
467tu → 图 ;
468twan } $not_vowel → 图安	;
469twa → 图阿 ;
470twen } $not_vowel → 通 ;
471twe → 图埃 ;
472twi → 图伊 ;
473two → 托 ;
474t → 特 ;
475ʧai̯ → 柴 ;
476ʧan } $not_vowel → 钱 ;
477ʧau̯ → 乔 ;
478ʧa → 查 ;
479ʧen } $not_vowel → 琴 ;
480ʧe → 切 ;
481ʧin } $not_vowel → 钦 ;
482ʧi → 奇 ;
483ʧjan } $not_vowel → 钱 ;
484ʧja → 恰 ;
485ʧjen } $not_vowel → 钱 ;
486ʧje → 切 ;
487ʧjon } $not_vowel → 琼 ;
488ʧju → 丘 ;
489ʧon } $not_vowel → 琼 ;
490ʧo → 乔 ;
491ʧun } $not_vowel → 琼 ;  # Should be 春, per GB/T 17693.5-2009 表 1.
492ʧu → 丘 ;
493ʧwan } $not_vowel → 丘安 ;
494ʧwa → 丘阿 ;
495ʧwen } $not_vowel → 琼 ;
496ʧwe → 丘埃 ;
497ʧwi → 崔 ;
498ʧwo → 乔 ;
499ʧ → 奇 ;
500un } $not_vowel → 温 ;
501u → 乌 ;
502wan } $not_vowel → 万 ;
503wa → 瓦 ;
504wen } $not_vowel → 温 ;
505we → 韦 ;
506win } $not_vowel → 温 ;
507wi → 维 ;
508won } $not_vowel → 翁 ;  # Unseen.
509wo → 沃 ;
510xai̯ → 海 ;
511xan } $not_vowel → 汉 ;
512xau̯ → 豪 ;
513xa → 哈 ;
514xei̯ → 黑 ;
515xen } $not_vowel → 亨 ;
516xe → 赫 ;
517xin } $not_vowel → 欣 ;
518xi → 希 ;
519xja → 希亚 ;
520xjen } $not_vowel → 希恩 ;
521xje → 希耶 ;
522xju → 休 ;
523xon } $not_vowel → 洪 ;
524xo → 霍 ;
525xun } $not_vowel → 洪 ;
526xu → 胡 ;
527xwan } $not_vowel → 胡安 ;
528xwa → 华 ;
529xwen } $not_vowel → 洪 ;
530xwe → 胡埃 ;
531xwi → 惠 ;
532xwo → 霍 ;
533x → 赫 ;
534
535# 尔 simplification pass.  The idea is to drop most occurences of 尔
536# corresponding to <r> (not to <l> or <ll>) from a word if there is another /l/
537# sound nearby.  There is a vague pattern like this in the data, but the details
538# remain to be determined.  At the moment, this does nothing, it just puts 尔 in
539# for every <r> in a syllable coda.
540
541::Null;
542$r = [R利拉];
543#
544#
545# R } . $r → ;
546# R } .. $r → ;
547# R } ... $r → ;
548# R } .... $r → ;
549
550R → 尔 ;
551
552# Dong-nan-xi-hai pass.  Per GB/T 17693.5-2009 表 1, 注 4, replace confusing
553# characters at the beginning and end of a word.
554
555::Null;
556$word_boundary { 东 → 栋 ;
557$word_boundary { 南 → 楠 ;
558$word_boundary { 西 → 锡 ;
559海 } $word_boundary → 亥 ;
560
561::NFC;
562			]]></tRule>
563		</transform>
564	</transforms>
565</supplementalData>
566