isabelle: src/Pure/General/yxml.scala@f69efa106feb (annotated)

27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	1	/* Title: Pure/General/yxml.scala
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	2	Author: Makarius
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	3
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	4	Efficient text representation of XML trees.
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	5	*/
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	6
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	7	package isabelle
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	8
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	9
36684 943f1ca7b375 misc tuning -- accumulate body via ListBuffer; wenzelm parents: 34201 diff changeset	10	import scala.collection.mutable.ListBuffer
943f1ca7b375 misc tuning -- accumulate body via ListBuffer; wenzelm parents: 34201 diff changeset	11
943f1ca7b375 misc tuning -- accumulate body via ListBuffer; wenzelm parents: 34201 diff changeset	12
32450 375db037f4d2 misc tuning; wenzelm parents: 31521 diff changeset	13	object YXML
375db037f4d2 misc tuning; wenzelm parents: 31521 diff changeset	14	{
27943 f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	15	/* chunk markers */
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	16
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	17	private val X = '\5'
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	18	private val Y = '\6'
27960 65b10d8ef0c6 added parse_failsafe; wenzelm parents: 27946 diff changeset	19	private val X_string = X.toString
27945 d2dc5a1903e8 tuned parse performance: avoid splitting terminal Y chunk; wenzelm parents: 27944 diff changeset	20	private val Y_string = Y.toString
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	21
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	22
34099 2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	23	/* decoding pseudo UTF-8 */
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	24
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	25	private class Decode_Chars(decode: String => String,
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	26	buffer: Array[Byte], start: Int, end: Int) extends CharSequence
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	27	{
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	28	def length: Int = end - start
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	29	def charAt(i: Int): Char = (buffer(start + i).asInstanceOf[Int] & 0xFF).asInstanceOf[Char]
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	30	def subSequence(i: Int, j: Int): CharSequence =
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	31	new Decode_Chars(decode, buffer, start + i, start + j)
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	32
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	33	// toString with adhoc decoding: abuse of CharSequence interface
34201 c95dcd12f48a separate Standard_System (Cygwin/Posix compatibility) vs. Isabelle_System (settings environment etc.); wenzelm parents: 34198 diff changeset	34	override def toString: String = decode(Standard_System.decode_permissive_utf8(this))
34099 2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	35	}
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	36
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	37	def decode_chars(decode: String => String,
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	38	buffer: Array[Byte], start: Int, end: Int): CharSequence =
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	39	{
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	40	require(0 <= start && start <= end && end <= buffer.length)
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	41	new Decode_Chars(decode, buffer, start, end)
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	42	}
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	43
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	44
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	45	/* parsing */
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	46
27993 6dd90ef9f927 simplified exceptions: use plain error function / RuntimeException; wenzelm parents: 27971 diff changeset	47	private def err(msg: String) = error("Malformed YXML: " + msg)
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	48	private def err_attribute() = err("bad attribute")
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	49	private def err_element() = err("bad element")
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	50	private def err_unbalanced(name: String) =
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	51	if (name == "") err("unbalanced element")
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	52	else err("unbalanced element \"" + name + "\"")
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	53
27944 2bf3f30558ed parse_attrib: more efficient due to indexOf('='); wenzelm parents: 27943 diff changeset	54	private def parse_attrib(source: CharSequence) = {
2bf3f30558ed parse_attrib: more efficient due to indexOf('='); wenzelm parents: 27943 diff changeset	55	val s = source.toString
2bf3f30558ed parse_attrib: more efficient due to indexOf('='); wenzelm parents: 27943 diff changeset	56	val i = s.indexOf('=')
2bf3f30558ed parse_attrib: more efficient due to indexOf('='); wenzelm parents: 27943 diff changeset	57	if (i <= 0) err_attribute()
29563 4773c5c994dc intern names of elements and attributes; wenzelm parents: 29521 diff changeset	58	(s.substring(0, i).intern, s.substring(i + 1))
27944 2bf3f30558ed parse_attrib: more efficient due to indexOf('='); wenzelm parents: 27943 diff changeset	59	}
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	60
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	61
32450 375db037f4d2 misc tuning; wenzelm parents: 31521 diff changeset	62	def parse_body(source: CharSequence): List[XML.Tree] =
375db037f4d2 misc tuning; wenzelm parents: 31521 diff changeset	63	{
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	64	/* stack operations */
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	65
36684 943f1ca7b375 misc tuning -- accumulate body via ListBuffer; wenzelm parents: 34201 diff changeset	66	def buffer(): ListBuffer[XML.Tree] = new ListBuffer[XML.Tree]
943f1ca7b375 misc tuning -- accumulate body via ListBuffer; wenzelm parents: 34201 diff changeset	67	var stack: List[((String, XML.Attributes), ListBuffer[XML.Tree])] = List((("", Nil), buffer()))
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	68
36684 943f1ca7b375 misc tuning -- accumulate body via ListBuffer; wenzelm parents: 34201 diff changeset	69	def add(x: XML.Tree)
943f1ca7b375 misc tuning -- accumulate body via ListBuffer; wenzelm parents: 34201 diff changeset	70	{
943f1ca7b375 misc tuning -- accumulate body via ListBuffer; wenzelm parents: 34201 diff changeset	71	(stack: @unchecked) match { case ((_, body) :: _) => body += x }
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	72	}
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	73
36684 943f1ca7b375 misc tuning -- accumulate body via ListBuffer; wenzelm parents: 34201 diff changeset	74	def push(name: String, atts: XML.Attributes)
943f1ca7b375 misc tuning -- accumulate body via ListBuffer; wenzelm parents: 34201 diff changeset	75	{
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	76	if (name == "") err_element()
36684 943f1ca7b375 misc tuning -- accumulate body via ListBuffer; wenzelm parents: 34201 diff changeset	77	else stack = ((name, atts), buffer()) :: stack
943f1ca7b375 misc tuning -- accumulate body via ListBuffer; wenzelm parents: 34201 diff changeset	78	}
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	79
36684 943f1ca7b375 misc tuning -- accumulate body via ListBuffer; wenzelm parents: 34201 diff changeset	80	def pop()
943f1ca7b375 misc tuning -- accumulate body via ListBuffer; wenzelm parents: 34201 diff changeset	81	{
943f1ca7b375 misc tuning -- accumulate body via ListBuffer; wenzelm parents: 34201 diff changeset	82	(stack: @unchecked) match {
943f1ca7b375 misc tuning -- accumulate body via ListBuffer; wenzelm parents: 34201 diff changeset	83	case ((("", _), _) :: _) => err_unbalanced("")
943f1ca7b375 misc tuning -- accumulate body via ListBuffer; wenzelm parents: 34201 diff changeset	84	case (((name, atts), body) :: pending) =>
943f1ca7b375 misc tuning -- accumulate body via ListBuffer; wenzelm parents: 34201 diff changeset	85	stack = pending; add(XML.Elem(name, atts, body.toList))
943f1ca7b375 misc tuning -- accumulate body via ListBuffer; wenzelm parents: 34201 diff changeset	86	}
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	87	}
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	88
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	89
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	90	/* parse chunks */
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	91
36685 2b3076cfd6dd slightly more general Library.chunks; wenzelm parents: 36684 diff changeset	92	for (chunk <- Library.chunks(source, X) if chunk.length != 0) {
34099 2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	93	if (chunk.length == 1 && chunk.charAt(0) == Y) pop()
27945 d2dc5a1903e8 tuned parse performance: avoid splitting terminal Y chunk; wenzelm parents: 27944 diff changeset	94	else {
36685 2b3076cfd6dd slightly more general Library.chunks; wenzelm parents: 36684 diff changeset	95	Library.chunks(chunk, Y).toList match {
34099 2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	96	case ch :: name :: atts if ch.length == 0 =>
2541de190d92 added decode_chars, with raw character view on byte buffer and adhoc decoding via toString; wenzelm parents: 32450 diff changeset	97	push(name.toString.intern, atts.map(parse_attrib))
27945 d2dc5a1903e8 tuned parse performance: avoid splitting terminal Y chunk; wenzelm parents: 27944 diff changeset	98	case txts => for (txt <- txts) add(XML.Text(txt.toString))
d2dc5a1903e8 tuned parse performance: avoid splitting terminal Y chunk; wenzelm parents: 27944 diff changeset	99	}
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	100	}
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	101	}
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	102	stack match {
36684 943f1ca7b375 misc tuning -- accumulate body via ListBuffer; wenzelm parents: 34201 diff changeset	103	case List((("", _), body)) => body.toList
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	104	case ((name, _), _) :: _ => err_unbalanced(name)
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	105	}
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	106	}
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	107
32450 375db037f4d2 misc tuning; wenzelm parents: 31521 diff changeset	108	def parse(source: CharSequence): XML.Tree =
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	109	parse_body(source) match {
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	110	case List(result) => result
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	111	case Nil => XML.Text("")
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	112	case _ => err("multiple results")
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	113	}
27960 65b10d8ef0c6 added parse_failsafe; wenzelm parents: 27946 diff changeset	114
29521 736bf7117153 added parse_body_failsafe; wenzelm parents: 29180 diff changeset	115
736bf7117153 added parse_body_failsafe; wenzelm parents: 29180 diff changeset	116	/* failsafe parsing */
736bf7117153 added parse_body_failsafe; wenzelm parents: 29180 diff changeset	117
736bf7117153 added parse_body_failsafe; wenzelm parents: 29180 diff changeset	118	private def markup_failsafe(source: CharSequence) =
34119 ae92efb48784 markup bad YXML as malformed; wenzelm parents: 34118 diff changeset	119	XML.Elem (Markup.MALFORMED, Nil,
29521 736bf7117153 added parse_body_failsafe; wenzelm parents: 29180 diff changeset	120	List(XML.Text(source.toString.replace(X_string, "\\<^X>").replace(Y_string, "\\<^Y>"))))
736bf7117153 added parse_body_failsafe; wenzelm parents: 29180 diff changeset	121
32450 375db037f4d2 misc tuning; wenzelm parents: 31521 diff changeset	122	def parse_body_failsafe(source: CharSequence): List[XML.Tree] =
375db037f4d2 misc tuning; wenzelm parents: 31521 diff changeset	123	{
29521 736bf7117153 added parse_body_failsafe; wenzelm parents: 29180 diff changeset	124	try { parse_body(source) }
736bf7117153 added parse_body_failsafe; wenzelm parents: 29180 diff changeset	125	catch { case _: RuntimeException => List(markup_failsafe(source)) }
736bf7117153 added parse_body_failsafe; wenzelm parents: 29180 diff changeset	126	}
736bf7117153 added parse_body_failsafe; wenzelm parents: 29180 diff changeset	127
32450 375db037f4d2 misc tuning; wenzelm parents: 31521 diff changeset	128	def parse_failsafe(source: CharSequence): XML.Tree =
375db037f4d2 misc tuning; wenzelm parents: 31521 diff changeset	129	{
27960 65b10d8ef0c6 added parse_failsafe; wenzelm parents: 27946 diff changeset	130	try { parse(source) }
29521 736bf7117153 added parse_body_failsafe; wenzelm parents: 29180 diff changeset	131	catch { case _: RuntimeException => markup_failsafe(source) }
27960 65b10d8ef0c6 added parse_failsafe; wenzelm parents: 27946 diff changeset	132	}
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	133	}

author	blanchet
	Thu, 27 May 2010 16:42:03 +0200
changeset 37169	f69efa106feb
parent 36685	2b3076cfd6dd
child 38230	ed147003de4b
permissions	-rw-r--r--