isabelle: src/Pure/System/utf8.scala@a75040aaf369 (annotated)

50203 00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	1	/* Title: Pure/System/utf8.scala
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	2	Module: PIDE
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	3	Author: Makarius
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	4
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	5	Variations on UTF-8.
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	6	*/
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	7
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	8	package isabelle
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	9
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	10
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	11	import java.nio.charset.Charset
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	12	import scala.io.Codec
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	13
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	14
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	15	object UTF8
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	16	{
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	17	/* charset */
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	18
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	19	val charset_name: String = "UTF-8"
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	20	val charset: Charset = Charset.forName(charset_name)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	21	def codec(): Codec = Codec(charset)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	22
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	23	def string_bytes(s: String): Array[Byte] = s.getBytes(charset)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	24
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	25
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	26	/* permissive UTF-8 decoding */
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	27
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	28	// see also http://en.wikipedia.org/wiki/UTF-8#Description
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	29	// overlong encodings enable byte-stuffing
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	30
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	31	def decode_permissive(text: CharSequence): String =
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	32	{
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	33	val buf = new java.lang.StringBuilder(text.length)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	34	var code = -1
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	35	var rest = 0
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	36	def flush()
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	37	{
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	38	if (code != -1) {
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	39	if (rest == 0 && Character.isValidCodePoint(code))
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	40	buf.appendCodePoint(code)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	41	else buf.append('\uFFFD')
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	42	code = -1
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	43	rest = 0
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	44	}
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	45	}
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	46	def init(x: Int, n: Int)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	47	{
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	48	flush()
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	49	code = x
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	50	rest = n
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	51	}
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	52	def push(x: Int)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	53	{
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	54	if (rest <= 0) init(x, -1)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	55	else {
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	56	code <<= 6
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	57	code += x
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	58	rest -= 1
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	59	}
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	60	}
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	61	for (i <- 0 until text.length) {
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	62	val c = text.charAt(i)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	63	if (c < 128) { flush(); buf.append(c) }
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	64	else if ((c & 0xC0) == 0x80) push(c & 0x3F)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	65	else if ((c & 0xE0) == 0xC0) init(c & 0x1F, 1)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	66	else if ((c & 0xF0) == 0xE0) init(c & 0x0F, 2)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	67	else if ((c & 0xF8) == 0xF0) init(c & 0x07, 3)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	68	}
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	69	flush()
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	70	buf.toString
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	71	}
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	72
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	73	private class Decode_Chars(decode: String => String,
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	74	buffer: Array[Byte], start: Int, end: Int) extends CharSequence
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	75	{
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	76	def length: Int = end - start
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	77	def charAt(i: Int): Char = (buffer(start + i).asInstanceOf[Int] & 0xFF).asInstanceOf[Char]
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	78	def subSequence(i: Int, j: Int): CharSequence =
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	79	new Decode_Chars(decode, buffer, start + i, start + j)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	80
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	81	// toString with adhoc decoding: abuse of CharSequence interface
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	82	override def toString: String = decode(decode_permissive(this))
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	83	}
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	84
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	85	def decode_chars(decode: String => String,
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	86	buffer: Array[Byte], start: Int, end: Int): CharSequence =
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	87	{
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	88	require(0 <= start && start <= end && end <= buffer.length)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	89	new Decode_Chars(decode, buffer, start, end)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	90	}
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	91	}
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	92

author	wenzelm
	Sun, 03 Mar 2013 18:50:46 +0100
changeset 51326	a75040aaf369
parent 50203	00d8ad713e32
child 54440	2c4940d2edf7
permissions	-rw-r--r--