isabelle: src/Pure/General/yxml.scala@7ebe8dc06cbb (annotated)

27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	1	/* Title: Pure/General/yxml.scala
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	2	ID: $Id$
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	3	Author: Makarius
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	4
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	5	Efficient text representation of XML trees.
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	6	*/
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	7
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	8	package isabelle
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	9
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	10	import java.util.regex.Pattern
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	11
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	12
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	13	object YXML {
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	14
27943 f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	15	/* chunk markers */
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	16
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	17	private val X = '\5'
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	18	private val Y = '\6'
27960 65b10d8ef0c6 added parse_failsafe; wenzelm parents: 27946 diff changeset	19	private val X_string = X.toString
27945 d2dc5a1903e8 tuned parse performance: avoid splitting terminal Y chunk; wenzelm parents: 27944 diff changeset	20	private val Y_string = Y.toString
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	21
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	22	def detect(source: CharSequence) = {
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	23	source.length >= 2 &&
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	24	source.charAt(0) == X &&
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	25	source.charAt(1) == Y
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	26	}
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	27
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	28
27943 f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	29	/* iterate over chunks (resembles space_explode in ML) */
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	30
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	31	private def chunks(sep: Char, source: CharSequence) = new Iterator[CharSequence] {
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	32	private val end = source.length
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	33	private var state = if (end == 0) None else get_chunk(-1)
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	34	private def get_chunk(i: Int) = {
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	35	if (i < end) {
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	36	var j = i; do j += 1 while (j < end && source.charAt(j) != sep)
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	37	Some((source.subSequence(i + 1, j), j))
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	38	}
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	39	else None
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	40	}
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	41
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	42	def hasNext() = state.isDefined
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	43	def next() = state match {
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	44	case Some((s, i)) => { state = get_chunk(i); s }
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	45	case None => throw new NoSuchElementException("next on empty iterator")
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	46	}
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	47	}
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	48
f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	49
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	50	/* parsing */
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	51
27993 6dd90ef9f927 simplified exceptions: use plain error function / RuntimeException; wenzelm parents: 27971 diff changeset	52	private def err(msg: String) = error("Malformed YXML: " + msg)
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	53	private def err_attribute() = err("bad attribute")
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	54	private def err_element() = err("bad element")
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	55	private def err_unbalanced(name: String) =
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	56	if (name == "") err("unbalanced element")
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	57	else err("unbalanced element \"" + name + "\"")
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	58
27944 2bf3f30558ed parse_attrib: more efficient due to indexOf('='); wenzelm parents: 27943 diff changeset	59	private def parse_attrib(source: CharSequence) = {
2bf3f30558ed parse_attrib: more efficient due to indexOf('='); wenzelm parents: 27943 diff changeset	60	val s = source.toString
2bf3f30558ed parse_attrib: more efficient due to indexOf('='); wenzelm parents: 27943 diff changeset	61	val i = s.indexOf('=')
2bf3f30558ed parse_attrib: more efficient due to indexOf('='); wenzelm parents: 27943 diff changeset	62	if (i <= 0) err_attribute()
27946 ec706ad37564 parse_attrib: proper index of name end! wenzelm parents: 27945 diff changeset	63	(s.substring(0, i), s.substring(i + 1))
27944 2bf3f30558ed parse_attrib: more efficient due to indexOf('='); wenzelm parents: 27943 diff changeset	64	}
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	65
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	66
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	67	def parse_body(source: CharSequence) = {
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	68
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	69	/* stack operations */
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	70
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	71	var stack: List[((String, XML.Attributes), List[XML.Tree])] = null
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	72
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	73	def add(x: XML.Tree) = stack match {
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	74	case ((elem, body) :: pending) => stack = (elem, x :: body) :: pending
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	75	}
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	76
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	77	def push(name: String, atts: XML.Attributes) =
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	78	if (name == "") err_element()
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	79	else stack = ((name, atts), Nil) :: stack
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	80
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	81	def pop() = stack match {
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	82	case ((("", _), _) :: _) => err_unbalanced("")
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	83	case (((name, atts), body) :: pending) =>
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	84	stack = pending; add(XML.Elem(name, atts, body.reverse))
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	85	}
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	86
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	87
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	88	/* parse chunks */
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	89
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	90	stack = List((("", Nil), Nil))
27943 f34ff5e7728f replaced Pattern.split by chunks iterator (more efficient, resembles ML version more closely); wenzelm parents: 27930 diff changeset	91	for (chunk <- chunks(X, source) if chunk != "") {
27945 d2dc5a1903e8 tuned parse performance: avoid splitting terminal Y chunk; wenzelm parents: 27944 diff changeset	92	if (chunk == Y_string) pop()
d2dc5a1903e8 tuned parse performance: avoid splitting terminal Y chunk; wenzelm parents: 27944 diff changeset	93	else {
d2dc5a1903e8 tuned parse performance: avoid splitting terminal Y chunk; wenzelm parents: 27944 diff changeset	94	chunks(Y, chunk).toList match {
d2dc5a1903e8 tuned parse performance: avoid splitting terminal Y chunk; wenzelm parents: 27944 diff changeset	95	case "" :: name :: atts => push(name.toString, atts.map(parse_attrib))
d2dc5a1903e8 tuned parse performance: avoid splitting terminal Y chunk; wenzelm parents: 27944 diff changeset	96	case txts => for (txt <- txts) add(XML.Text(txt.toString))
d2dc5a1903e8 tuned parse performance: avoid splitting terminal Y chunk; wenzelm parents: 27944 diff changeset	97	}
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	98	}
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	99	}
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	100	stack match {
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	101	case List((("", _), result)) => result.reverse
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	102	case ((name, _), _) :: _ => err_unbalanced(name)
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	103	}
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	104	}
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	105
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	106	def parse(source: CharSequence) =
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	107	parse_body(source) match {
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	108	case List(result) => result
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	109	case Nil => XML.Text("")
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	110	case _ => err("multiple results")
2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	111	}
27960 65b10d8ef0c6 added parse_failsafe; wenzelm parents: 27946 diff changeset	112
65b10d8ef0c6 added parse_failsafe; wenzelm parents: 27946 diff changeset	113	def parse_failsafe(source: CharSequence) = {
65b10d8ef0c6 added parse_failsafe; wenzelm parents: 27946 diff changeset	114	try { parse(source) }
65b10d8ef0c6 added parse_failsafe; wenzelm parents: 27946 diff changeset	115	catch {
27993 6dd90ef9f927 simplified exceptions: use plain error function / RuntimeException; wenzelm parents: 27971 diff changeset	116	case _: RuntimeException => XML.Elem (Markup.BAD, Nil,
27960 65b10d8ef0c6 added parse_failsafe; wenzelm parents: 27946 diff changeset	117	List(XML.Text(source.toString.replace(X_string, "\\<^X>").replace(Y_string, "\\<^Y>"))))
65b10d8ef0c6 added parse_failsafe; wenzelm parents: 27946 diff changeset	118	}
65b10d8ef0c6 added parse_failsafe; wenzelm parents: 27946 diff changeset	119	}
65b10d8ef0c6 added parse_failsafe; wenzelm parents: 27946 diff changeset	120
27930 2b44df907cc2 Efficient text representation of XML trees. wenzelm parents: diff changeset	121	}

author	haftmann
	Tue, 16 Sep 2008 09:21:24 +0200
changeset 28228	7ebe8dc06cbb
parent 27993	6dd90ef9f927
child 29140	e7ac5bb20aed
permissions	-rw-r--r--