isabelle: src/Pure/General/utf8.scala@6d514e128a85 (annotated)

64639 bad5de3f9554 clarified directories; wenzelm parents: 64617 diff changeset	1	/* Title: Pure/General/utf8.scala
50203 00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	2	Author: Makarius
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	3
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	4	Variations on UTF-8.
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	5	*/
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	6
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	7	package isabelle
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	8
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	9
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	10	import java.nio.charset.Charset
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	11	import scala.io.Codec
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	12
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	13
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	14	object UTF8
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	15	{
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	16	/* charset */
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	17
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	18	val charset_name: String = "UTF-8"
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	19	val charset: Charset = Charset.forName(charset_name)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	20	def codec(): Codec = Codec(charset)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	21
62527 aae9a2a855e0 tuned signature; wenzelm parents: 54444 diff changeset	22	def bytes(s: String): Array[Byte] = s.getBytes(charset)
aae9a2a855e0 tuned signature; wenzelm parents: 54444 diff changeset	23
50203 00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	24
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	25	/* permissive UTF-8 decoding */
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	26
68224 1f7308050349 prefer HTTPS; wenzelm parents: 65196 diff changeset	27	// see also https://en.wikipedia.org/wiki/UTF-8#Description
54444 a2290f36d1d6 prefer UTF8.decode_permissive; wenzelm parents: 54440 diff changeset	28	// overlong encodings enable byte-stuffing of low-ASCII
50203 00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	29
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	30	def decode_permissive(text: CharSequence): String =
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	31	{
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	32	val buf = new java.lang.StringBuilder(text.length)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	33	var code = -1
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	34	var rest = 0
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	35	def flush()
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	36	{
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	37	if (code != -1) {
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	38	if (rest == 0 && Character.isValidCodePoint(code))
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	39	buf.appendCodePoint(code)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	40	else buf.append('\uFFFD')
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	41	code = -1
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	42	rest = 0
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	43	}
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	44	}
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	45	def init(x: Int, n: Int)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	46	{
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	47	flush()
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	48	code = x
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	49	rest = n
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	50	}
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	51	def push(x: Int)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	52	{
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	53	if (rest <= 0) init(x, -1)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	54	else {
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	55	code <<= 6
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	56	code += x
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	57	rest -= 1
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	58	}
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	59	}
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	60	for (i <- 0 until text.length) {
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	61	val c = text.charAt(i)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	62	if (c < 128) { flush(); buf.append(c) }
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	63	else if ((c & 0xC0) == 0x80) push(c & 0x3F)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	64	else if ((c & 0xE0) == 0xC0) init(c & 0x1F, 1)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	65	else if ((c & 0xF0) == 0xE0) init(c & 0x0F, 2)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	66	else if ((c & 0xF8) == 0xF0) init(c & 0x07, 3)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	67	}
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	68	flush()
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	69	buf.toString
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	70	}
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	71
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	72	private class Decode_Chars(decode: String => String,
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	73	buffer: Array[Byte], start: Int, end: Int) extends CharSequence
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	74	{
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	75	def length: Int = end - start
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	76	def charAt(i: Int): Char = (buffer(start + i).asInstanceOf[Int] & 0xFF).asInstanceOf[Char]
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	77	def subSequence(i: Int, j: Int): CharSequence =
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	78	new Decode_Chars(decode, buffer, start + i, start + j)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	79
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	80	// toString with adhoc decoding: abuse of CharSequence interface
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	81	override def toString: String = decode(decode_permissive(this))
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	82	}
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	83
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	84	def decode_chars(decode: String => String,
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	85	buffer: Array[Byte], start: Int, end: Int): CharSequence =
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	86	{
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	87	require(0 <= start && start <= end && end <= buffer.length)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	88	new Decode_Chars(decode, buffer, start, end)
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	89	}
00d8ad713e32 explicit module UTF8; wenzelm parents: diff changeset	90	}

author	haftmann
	Fri, 26 Oct 2018 08:20:45 +0000
changeset 69194	6d514e128a85
parent 68224	1f7308050349
child 73120	c3589f2dff31
permissions	-rw-r--r--