isabelle: src/Pure/General/yxml.scala@c95dcd12f48a (annotated)

27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	1	/* Title: Pure/General/yxml.scala
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	2	Author: Makarius
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	3
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	4	Efficient text representation of XML trees.
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	5	*/
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	6
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	7	package isabelle
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	8
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	9
32450 375db037f4d2 misc tuning; wenzelm parents: 31521 diff changeset	10	object YXML
375db037f4d2 misc tuning; wenzelm parents: 31521 diff changeset	11	{
27943 f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	12	/* chunk markers */
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	13
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	14	private val X = '\5'
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	15	private val Y = '\6'
27960 65b10d8ef0c6 added parse_failsafe; wenzelm parents: 27946 diff changeset	16	private val X_string = X.toString
27945 d2dc5a1903e8 tuned parse performance: avoid splitting terminal Y chunk; wenzelm parents: 27944 diff changeset	17	private val Y_string = Y.toString
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	18
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	19
27943 f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	20	/* iterate over chunks (resembles space_explode in ML) */
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	21
34099 2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	22	private def chunks(sep: Char, source: CharSequence) = new Iterator[CharSequence]
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	23	{
27943 f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	24	private val end = source.length
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	25	private var state = if (end == 0) None else get_chunk(-1)
32450 375db037f4d2 misc tuning; wenzelm parents: 31521 diff changeset	26	private def get_chunk(i: Int) =
375db037f4d2 misc tuning; wenzelm parents: 31521 diff changeset	27	{
27943 f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	28	if (i < end) {
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	29	var j = i; do j += 1 while (j < end && source.charAt(j) != sep)
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	30	Some((source.subSequence(i + 1, j), j))
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	31	}
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	32	else None
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	33	}
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	34
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	35	def hasNext() = state.isDefined
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	36	def next() = state match {
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	37	case Some((s, i)) => { state = get_chunk(i); s }
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	38	case None => throw new NoSuchElementException("next on empty iterator")
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	39	}
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	40	}
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	41
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	42
34099 2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	43	/* decoding pseudo UTF-8 */
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	44
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	45	private class Decode_Chars(decode: String => String,
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	46	buffer: Array[Byte], start: Int, end: Int) extends CharSequence
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	47	{
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	48	def length: Int = end - start
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	49	def charAt(i: Int): Char = (buffer(start + i).asInstanceOf[Int] & 0xFF).asInstanceOf[Char]
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	50	def subSequence(i: Int, j: Int): CharSequence =
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	51	new Decode_Chars(decode, buffer, start + i, start + j)
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	52
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	53	// toString with adhoc decoding: abuse of CharSequence interface
34201 c95dcd12f48a separate Standard_System (Cygwin/Posix compatibility) vs. Isabelle_System (settings environment etc.); wenzelm parents: 34198 diff changeset	54	override def toString: String = decode(Standard_System.decode_permissive_utf8(this))
34099 2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	55	}
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	56
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	57	def decode_chars(decode: String => String,
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	58	buffer: Array[Byte], start: Int, end: Int): CharSequence =
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	59	{
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	60	require(0 <= start && start <= end && end <= buffer.length)
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	61	new Decode_Chars(decode, buffer, start, end)
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	62	}
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	63
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	64
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	65	/* parsing */
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	66
27993 6dd90ef9f927 simplified exceptions: use plain error function / RuntimeException; wenzelm parents: 27971 diff changeset	67	private def err(msg: String) = error("Malformed YXML: " + msg)
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	68	private def err_attribute() = err("bad attribute")
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	69	private def err_element() = err("bad element")
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	70	private def err_unbalanced(name: String) =
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	71	if (name == "") err("unbalanced element")
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	72	else err("unbalanced element \"" + name + "\"")
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	73
27944 2bf3f30558ed parse_attrib: more efficient due to indexOf('='); wenzelm parents: 27943 diff changeset	74	private def parse_attrib(source: CharSequence) = {
2bf3f30558ed parse_attrib: more efficient due to indexOf('='); wenzelm parents: 27943 diff changeset	75	val s = source.toString
2bf3f30558ed parse_attrib: more efficient due to indexOf('='); wenzelm parents: 27943 diff changeset	76	val i = s.indexOf('=')
2bf3f30558ed parse_attrib: more efficient due to indexOf('='); wenzelm parents: 27943 diff changeset	77	if (i <= 0) err_attribute()
29563 4773c5c994dc intern names of elements and attributes; wenzelm parents: 29521 diff changeset	78	(s.substring(0, i).intern, s.substring(i + 1))
27944 2bf3f30558ed parse_attrib: more efficient due to indexOf('='); wenzelm parents: 27943 diff changeset	79	}
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	80
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	81
32450 375db037f4d2 misc tuning; wenzelm parents: 31521 diff changeset	82	def parse_body(source: CharSequence): List[XML.Tree] =
375db037f4d2 misc tuning; wenzelm parents: 31521 diff changeset	83	{
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	84	/* stack operations */
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	85
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	86	var stack: List[((String, XML.Attributes), List[XML.Tree])] = null
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	87
29180 62513d4d34c2 tuned; wenzelm parents: 29140 diff changeset	88	def add(x: XML.Tree) = (stack: @unchecked) match {
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	89	case ((elem, body) :: pending) => stack = (elem, x :: body) :: pending
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	90	}
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	91
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	92	def push(name: String, atts: XML.Attributes) =
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	93	if (name == "") err_element()
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	94	else stack = ((name, atts), Nil) :: stack
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	95
29180 62513d4d34c2 tuned; wenzelm parents: 29140 diff changeset	96	def pop() = (stack: @unchecked) match {
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	97	case ((("", _), _) :: _) => err_unbalanced("")
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	98	case (((name, atts), body) :: pending) =>
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	99	stack = pending; add(XML.Elem(name, atts, body.reverse))
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	100	}
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	101
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	102
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	103	/* parse chunks */
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	104
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	105	stack = List((("", Nil), Nil))
34099 2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	106	for (chunk <- chunks(X, source) if chunk.length != 0) {
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	107	if (chunk.length == 1 && chunk.charAt(0) == Y) pop()
27945 d2dc5a1903e8 tuned parse performance: avoid splitting terminal Y chunk; wenzelm parents: 27944 diff changeset	108	else {
d2dc5a1903e8 tuned parse performance: avoid splitting terminal Y chunk; wenzelm parents: 27944 diff changeset	109	chunks(Y, chunk).toList match {
34099 2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	110	case ch :: name :: atts if ch.length == 0 =>
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	111	push(name.toString.intern, atts.map(parse_attrib))
27945 d2dc5a1903e8 tuned parse performance: avoid splitting terminal Y chunk; wenzelm parents: 27944 diff changeset	112	case txts => for (txt <- txts) add(XML.Text(txt.toString))
d2dc5a1903e8 tuned parse performance: avoid splitting terminal Y chunk; wenzelm parents: 27944 diff changeset	113	}
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	114	}
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	115	}
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	116	stack match {
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	117	case List((("", _), result)) => result.reverse
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	118	case ((name, _), _) :: _ => err_unbalanced(name)
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	119	}
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	120	}
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	121
32450 375db037f4d2 misc tuning; wenzelm parents: 31521 diff changeset	122	def parse(source: CharSequence): XML.Tree =
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	123	parse_body(source) match {
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	124	case List(result) => result
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	125	case Nil => XML.Text("")
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	126	case _ => err("multiple results")
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	127	}
27960 65b10d8ef0c6 added parse_failsafe; wenzelm parents: 27946 diff changeset	128
29521 736bf7117153 added parse_body_failsafe; wenzelm parents: 29180 diff changeset	129
736bf7117153 added parse_body_failsafe; wenzelm parents: 29180 diff changeset	130	/* failsafe parsing */
736bf7117153 added parse_body_failsafe; wenzelm parents: 29180 diff changeset	131
736bf7117153 added parse_body_failsafe; wenzelm parents: 29180 diff changeset	132	private def markup_failsafe(source: CharSequence) =
34119 ae92efb48784 markup bad YXML as malformed; wenzelm parents: 34118 diff changeset	133	XML.Elem (Markup.MALFORMED, Nil,
29521 736bf7117153 added parse_body_failsafe; wenzelm parents: 29180 diff changeset	134	List(XML.Text(source.toString.replace(X_string, "\\<^X>").replace(Y_string, "\\<^Y>"))))
736bf7117153 added parse_body_failsafe; wenzelm parents: 29180 diff changeset	135
32450 375db037f4d2 misc tuning; wenzelm parents: 31521 diff changeset	136	def parse_body_failsafe(source: CharSequence): List[XML.Tree] =
375db037f4d2 misc tuning; wenzelm parents: 31521 diff changeset	137	{
29521 736bf7117153 added parse_body_failsafe; wenzelm parents: 29180 diff changeset	138	try { parse_body(source) }
736bf7117153 added parse_body_failsafe; wenzelm parents: 29180 diff changeset	139	catch { case _: RuntimeException => List(markup_failsafe(source)) }
736bf7117153 added parse_body_failsafe; wenzelm parents: 29180 diff changeset	140	}
736bf7117153 added parse_body_failsafe; wenzelm parents: 29180 diff changeset	141
32450 375db037f4d2 misc tuning; wenzelm parents: 31521 diff changeset	142	def parse_failsafe(source: CharSequence): XML.Tree =
375db037f4d2 misc tuning; wenzelm parents: 31521 diff changeset	143	{
27960 65b10d8ef0c6 added parse_failsafe; wenzelm parents: 27946 diff changeset	144	try { parse(source) }
29521 736bf7117153 added parse_body_failsafe; wenzelm parents: 29180 diff changeset	145	catch { case _: RuntimeException => markup_failsafe(source) }
27960 65b10d8ef0c6 added parse_failsafe; wenzelm parents: 27946 diff changeset	146	}
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	147	}

author	wenzelm
	Mon, 28 Dec 2009 22:03:14 +0100
changeset 34201	c95dcd12f48a
parent 34198	ff5486262cd6
child 36684	943f1ca7b375
permissions	-rw-r--r--