[サンスクリットページ－雑感集・技術情報]

まんどぅーかネットで使っている技術(3)

Since 2004/8/24 Last Updated 2004/9/5

実はさらに内部表現が

文字
まんどぅーか式	aa	ai	au	a	ii	i	uu	u
内部コード	02	11	13	01	04	03	06	05
Unicode(記号)	2366( का )	2376( कै )	2380( कौ )	----	2368( की )	2367( कि )	2370( कू )	2369( कु )
Unicode(独立)	2310( आ )	2320( ऐ )	2324( औ )	2309( अ )	2312( ई )	2311( इ )	2314( ऊ )	2313( उ )

文字
まんどぅーか式	r3	r4	l3	e	o	h3	m3	'	m4
内部コード	07	08	09	10	12	21	22	23	24
Unicode(記号)	2371( कृ )	2372( कॄ )	2402( कॢ )	2375( के )	2379( को )	2307( कः )	2306( कं )	2365( ऽ )	2305( कँ )
Unicode(独立)	2315( ऋ )	2400( ॠ )	2316( ऌ )	2319( ए )	2323( ओ )	2307( कः )	2306( कं )	2365( ऽ )	2305( कँ )

文字
まんどぅーか式	kh	k	gh	g	n1
内部コード	32	31	34	33	35
Unicode	2326( ख )	2325( क )	2328( घ )	2327( ग )	2329( ङ )

文字
まんどぅーか式	ch	c	jh	h	n2
内部コード	37	36	39	38	40
Unicode	2331( छ )	2330( च )	2333( झ )	2332( ज )	2334( ञ )

文字
まんどぅーか式	t3h	t3	d3h	d3	n3
内部コード	42	41	44	43	45
Unicode	2336( ठ )	2335( ट )	2338( ढ )	2337( ड )	2339( ण )

文字
まんどぅーか式	th	t	dh	d	n
内部コード	47	46	49	48	50
Unicode	2341( थ )	2340( त )	2343( ध )	2342( द )	2344( न )

文字
まんどぅーか式	ph	p	bh	b	m
内部コード	52	51	54	53	55
Unicode	2347( फ )	2346( प )	2349( भ )	2348( ब )	2350( म )

文字
まんどぅーか式	y	r	l	v
内部コード	56	57	58	59
Unicode	2351( य )	2352( र )	2354( ल )	2357( व )

文字
まんどぅーか式	s2	s3	s	h
内部コード	60	61	62	63
Unicode	2358( श )	2359( ष )	2360( स )	2361( ह )

文字
まんどぅーか式	0	1	2	3	4	5	6	7	8	9
内部コード	70	71	72	73	74	75	76	77	78	79
Unicode	2406( ० )	2407( १ )	2408( २ )	2409( ३ )	2410( ४ )	2411( ५ )	2412( ६ )	2413( ७ )	2414( ८ )	2415( ९ )

文字
まんどぅーか式	.	,	-	!	?	;	:	(	)	~	+	$	%
内部コード	80	81	00	83	84	85	86	87	88	89	90	91	92
Unicode	2404( । )	2405( ॥ )								2416( ॰ )

文字
まんどぅーか式	_	@	\
内部コード	97	98	99

デーヴァナーガリー順ソート

そこから３文字切り取って、テーブルサーチをする
見つからなければ、２文字切り取って、テーブルサーチをする
見つからなければ、１文字切り取って、テーブルサーチをする

テーブルから機械的に３文字ずつ切り取ってきて、空白をつめた上で、解析する文字列の先頭とマッチングさせていく

内部コードをUnicodeにする際の注意点

Microsoft Officeでデーヴァナーガリーを使う

スペースの処理……いったん出力を保留する。次の文字を処理するときに、前が子音でない（母音や記号）のときは出力する。前が子音であれば何もしない。
記号と行末の処理……処理は１行単位で行う。記号や行末では、その前が子音の場合にヴィラーマ(2381)を出力する。
の処理……前が子音であれば何もしない。母音であれば独立形を出力。
結合子音処理……今の文字が子音であり、前が子音であれば、ヴィラーマのコード(2381)を出力する。

ウルドゥー、ヒンディー、パーリ語では

関連サイト

Unicode デーヴァナーガリーコード表

※ご意見、ご教示などは、に戻り、掲示板あるいはメールで賜るとありがたく思います。