isabelle: src/Pure/ML/ml_lex.scala@5d08b2332b76 (annotated)

55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	1	/* Title: Pure/ML/ml_lex.scala
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	2	Author: Makarius
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	3
59109 364992cd3c50 tuned comment; wenzelm parents: 59108 diff changeset	4	Lexical syntax for Isabelle/ML and Standard ML.
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	5	*/
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	6
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	7	package isabelle
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	8
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	9
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	10	import scala.collection.mutable
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	11	import scala.util.parsing.input.{Reader, CharSequenceReader}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	12
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	13
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	14	object ML_Lex
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	15	{
55505 2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	16	/ keywords /
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	17
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	18	val keywords: Set[String] =
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	19	Set("#", "(", ")", ",", "->", "...", ":", ":>", ";", "=", "=>",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	20	"[", "]", "_", "{", "\|", "}", "abstype", "and", "andalso", "as",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	21	"case", "datatype", "do", "else", "end", "eqtype", "exception",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	22	"fn", "fun", "functor", "handle", "if", "in", "include",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	23	"infix", "infixr", "let", "local", "nonfix", "of", "op", "open",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	24	"orelse", "raise", "rec", "sharing", "sig", "signature",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	25	"struct", "structure", "then", "type", "val", "where", "while",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	26	"with", "withtype")
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	27
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	28	val keywords2: Set[String] =
58933 6585e59aee3e tuned markup; wenzelm parents: 56278 diff changeset	29	Set("and", "case", "do", "else", "end", "if", "in", "let", "local",
6585e59aee3e tuned markup; wenzelm parents: 56278 diff changeset	30	"of", "sig", "struct", "then", "while", "with")
55505 2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	31
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	32	val keywords3: Set[String] =
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	33	Set("handle", "open", "raise")
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	34
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	35	private val lexicon: Scan.Lexicon = Scan.Lexicon(keywords.toList: _*)
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	36
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	37
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	38
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	39	/ tokens /
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	40
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	41	object Kind extends Enumeration
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	42	{
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	43	val KEYWORD = Value("keyword")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	44	val IDENT = Value("identifier")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	45	val LONG_IDENT = Value("long identifier")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	46	val TYPE_VAR = Value("type variable")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	47	val WORD = Value("word")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	48	val INT = Value("integer")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	49	val REAL = Value("real")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	50	val CHAR = Value("character")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	51	val STRING = Value("quoted string")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	52	val SPACE = Value("white space")
59112 e670969f34df expand ML cartouches to Input.source; wenzelm parents: 59109 diff changeset	53	val CARTOUCHE = Value("text cartouche")
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	54	val COMMENT = Value("comment text")
55512 75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	55	val ANTIQ = Value("antiquotation")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	56	val ANTIQ_START = Value("antiquotation: start")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	57	val ANTIQ_STOP = Value("antiquotation: stop")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	58	val ANTIQ_OTHER = Value("antiquotation: other")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	59	val ANTIQ_STRING = Value("antiquotation: quoted string")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	60	val ANTIQ_ALT_STRING = Value("antiquotation: back-quoted string")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	61	val ANTIQ_CARTOUCHE = Value("antiquotation: text cartouche")
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	62	val ERROR = Value("bad input")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	63	}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	64
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	65	sealed case class Token(val kind: Kind.Value, val source: String)
55500 cdbbaa3074a8 isabelle-ml mode with separate token marker; wenzelm parents: 55499 diff changeset	66	{
55501 fdde1d62e1fb refined ML keyword styles; wenzelm parents: 55500 diff changeset	67	def is_keyword: Boolean = kind == Kind.KEYWORD
55505 2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	68	def is_delimiter: Boolean = is_keyword && !Symbol.is_ascii_identifier(source)
55500 cdbbaa3074a8 isabelle-ml mode with separate token marker; wenzelm parents: 55499 diff changeset	69	}
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	70
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	71
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	72
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	73	/ parsers /
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	74
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	75	case object ML_String extends Scan.Line_Context
55512 75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	76	case class Antiq(ctxt: Scan.Line_Context) extends Scan.Line_Context
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	77
55512 75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	78	private object Parsers extends Scan.Parsers with Antiquote.Parsers
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	79	{
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	80	/* string material */
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	81
55500 cdbbaa3074a8 isabelle-ml mode with separate token marker; wenzelm parents: 55499 diff changeset	82	private val blanks = many(character(Symbol.is_ascii_blank))
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	83	private val blanks1 = many1(character(Symbol.is_ascii_blank))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	84
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	85	private val gap = "\\" ~ blanks1 ~ "\\" ^^ { case x ~ y ~ z => x + y + z }
55500 cdbbaa3074a8 isabelle-ml mode with separate token marker; wenzelm parents: 55499 diff changeset	86	private val gap_start = "\\" ~ blanks ~ """\z""".r ^^ { case x ~ y ~ _ => x + y }
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	87
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	88	private val escape =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	89	one(character("\"\\abtnvfr".contains(_))) \|
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	90	"^" ~ one(character(c => '@' <= c && c <= '_')) ^^ { case x ~ y => x + y } \|
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	91	repeated(character(Symbol.is_ascii_digit), 3, 3)
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	92
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	93	private val str =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	94	one(character(c => c != '"' && c != '\\' && ' ' <= c && c <= '~')) \|
59108 50ccc027e8a7 clarified Isabelle/ML strings (refining 72238ea2201c); wenzelm parents: 58933 diff changeset	95	one(s => Symbol.is_symbolic(s) \| Symbol.is_control(s)) \|
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	96	"\\" ~ escape ^^ { case x ~ y => x + y }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	97
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	98
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	99	/* ML char -- without gaps */
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	100
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	101	private val ml_char: Parser[Token] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	102	"#\"" ~ str ~ "\"" ^^ { case x ~ y ~ z => Token(Kind.CHAR, x + y + z) }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	103
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	104	private val recover_ml_char: Parser[String] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	105	"#\"" ~ opt(str) ^^ { case x ~ Some(y) => x + y case x ~ None => x }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	106
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	107
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	108	/* ML string */
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	109
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	110	private val ml_string_body: Parser[String] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	111	rep(gap \| str) ^^ (_.mkString)
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	112
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	113	private val recover_ml_string: Parser[String] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	114	"\"" ~ ml_string_body ^^ { case x ~ y => x + y }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	115
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	116	private val ml_string: Parser[Token] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	117	"\"" ~ ml_string_body ~ "\"" ^^ { case x ~ y ~ z => Token(Kind.STRING, x + y + z) }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	118
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	119	private def ml_string_line(ctxt: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	120	{
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	121	def result(x: String, c: Scan.Line_Context) = (Token(Kind.STRING, x), c)
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	122
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	123	ctxt match {
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	124	case Scan.Finished =>
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	125	"\"" ~ ml_string_body ~ ("\"" \| gap_start) ^^
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	126	{ case x ~ y ~ z => result(x + y + z, if (z == "\"") Scan.Finished else ML_String) }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	127	case ML_String =>
55500 cdbbaa3074a8 isabelle-ml mode with separate token marker; wenzelm parents: 55499 diff changeset	128	blanks ~ opt_term("\\" ~ ml_string_body ~ ("\"" \| gap_start)) ^^
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	129	{ case x ~ Some(y ~ z ~ w) =>
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	130	result(x + y + z + w, if (w == "\"") Scan.Finished else ML_String)
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	131	case x ~ None => result(x, ML_String) }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	132	case _ => failure("")
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	133	}
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	134	}
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	135
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	136
59112 e670969f34df expand ML cartouches to Input.source; wenzelm parents: 59109 diff changeset	137	/* ML cartouche */
e670969f34df expand ML cartouches to Input.source; wenzelm parents: 59109 diff changeset	138
e670969f34df expand ML cartouches to Input.source; wenzelm parents: 59109 diff changeset	139	private val ml_cartouche: Parser[Token] =
e670969f34df expand ML cartouches to Input.source; wenzelm parents: 59109 diff changeset	140	cartouche ^^ (x => Token(Kind.CARTOUCHE, x))
e670969f34df expand ML cartouches to Input.source; wenzelm parents: 59109 diff changeset	141
e670969f34df expand ML cartouches to Input.source; wenzelm parents: 59109 diff changeset	142	private def ml_cartouche_line(ctxt: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
e670969f34df expand ML cartouches to Input.source; wenzelm parents: 59109 diff changeset	143	cartouche_line(ctxt) ^^ { case (x, c) => (Token(Kind.CARTOUCHE, x), c) }
e670969f34df expand ML cartouches to Input.source; wenzelm parents: 59109 diff changeset	144
e670969f34df expand ML cartouches to Input.source; wenzelm parents: 59109 diff changeset	145
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	146	/* ML comment */
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	147
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	148	private val ml_comment: Parser[Token] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	149	comment ^^ (x => Token(Kind.COMMENT, x))
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	150
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	151	private def ml_comment_line(ctxt: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	152	comment_line(ctxt) ^^ { case (x, c) => (Token(Kind.COMMENT, x), c) }
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	153
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	154
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	155	/* delimited token */
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	156
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	157	private def delimited_token: Parser[Token] =
59112 e670969f34df expand ML cartouches to Input.source; wenzelm parents: 59109 diff changeset	158	ml_char \| (ml_string \| (ml_cartouche \| ml_comment))
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	159
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	160	private val recover_delimited: Parser[Token] =
59112 e670969f34df expand ML cartouches to Input.source; wenzelm parents: 59109 diff changeset	161	(recover_ml_char \| (recover_ml_string \| (recover_cartouche \| recover_comment))) ^^
e670969f34df expand ML cartouches to Input.source; wenzelm parents: 59109 diff changeset	162	(x => Token(Kind.ERROR, x))
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	163
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	164
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	165	private def other_token: Parser[Token] =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	166	{
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	167	/* identifiers */
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	168
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	169	val letdigs = many(character(Symbol.is_ascii_letdig))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	170
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	171	val alphanumeric =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	172	one(character(Symbol.is_ascii_letter)) ~ letdigs ^^ { case x ~ y => x + y }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	173
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	174	val symbolic = many1(character("!#$%&*+-/:<=>?@\\^`\|~".contains(_)))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	175
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	176	val ident = (alphanumeric \| symbolic) ^^ (x => Token(Kind.IDENT, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	177
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	178	val long_ident =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	179	rep1(alphanumeric ~ "." ^^ { case x ~ y => x + y }) ~
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	180	(alphanumeric \| (symbolic \| "=")) ^^
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	181	{ case x ~ y => Token(Kind.LONG_IDENT, x.mkString + y) }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	182
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	183	val type_var = "'" ~ letdigs ^^ { case x ~ y => Token(Kind.TYPE_VAR, x + y) }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	184
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	185
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	186	/* numerals */
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	187
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	188	val dec = many1(character(Symbol.is_ascii_digit))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	189	val hex = many1(character(Symbol.is_ascii_hex))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	190	val sign = opt("~") ^^ { case Some(x) => x case None => "" }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	191	val decint = sign ~ dec ^^ { case x ~ y => x + y }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	192	val exp = ("E" \| "e") ~ decint ^^ { case x ~ y => x + y }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	193
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	194	val word =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	195	("0wx" ~ hex ^^ { case x ~ y => x + y } \| "0w" ~ dec ^^ { case x ~ y => x + y }) ^^
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	196	(x => Token(Kind.WORD, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	197
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	198	val int =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	199	sign ~ ("0x" ~ hex ^^ { case x ~ y => x + y } \| dec) ^^
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	200	{ case x ~ y => Token(Kind.INT, x + y) }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	201
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	202	val real =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	203	(decint ~ "." ~ dec ~ (opt(exp) ^^ { case Some(x) => x case None => "" }) ^^
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	204	{ case x ~ y ~ z ~ w => x + y + z + w } \|
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	205	decint ~ exp ^^ { case x ~ y => x + y }) ^^ (x => Token(Kind.REAL, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	206
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	207
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	208	/* main */
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	209
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	210	val space = blanks1 ^^ (x => Token(Kind.SPACE, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	211
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	212	val keyword = literal(lexicon) ^^ (x => Token(Kind.KEYWORD, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	213
55512 75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	214	val ml_antiq = antiq ^^ (x => Token(Kind.ANTIQ, x))
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	215
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	216	val bad = one(_ => true) ^^ (x => Token(Kind.ERROR, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	217
55512 75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	218	space \| (recover_delimited \| (ml_antiq \|
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	219	(((word \| (real \| (int \| (long_ident \| (ident \| type_var))))) \|\|\| keyword) \| bad)))
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	220	}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	221
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	222
55512 75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	223	/* antiquotations (line-oriented) */
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	224
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	225	def ml_antiq_start(ctxt: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	226	ctxt match {
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	227	case Scan.Finished => "@{" ^^ (x => (Token(Kind.ANTIQ_START, x), Antiq(Scan.Finished)))
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	228	case _ => failure("")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	229	}
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	230
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	231	def ml_antiq_stop(ctxt: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	232	ctxt match {
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	233	case Antiq(Scan.Finished) => "}" ^^ (x => (Token(Kind.ANTIQ_STOP, x), Scan.Finished))
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	234	case _ => failure("")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	235	}
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	236
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	237	def ml_antiq_body(context: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	238	context match {
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	239	case Antiq(ctxt) =>
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	240	(if (ctxt == Scan.Finished) antiq_other ^^ (x => (Token(Kind.ANTIQ_OTHER, x), context))
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	241	else failure("")) \|
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	242	quoted_line("\"", ctxt) ^^ { case (x, c) => (Token(Kind.ANTIQ_STRING, x), Antiq(c)) } \|
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	243	quoted_line("`", ctxt) ^^ { case (x, c) => (Token(Kind.ANTIQ_ALT_STRING, x), Antiq(c)) } \|
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	244	cartouche_line(ctxt) ^^ { case (x, c) => (Token(Kind.ANTIQ_CARTOUCHE, x), Antiq(c)) }
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	245	case _ => failure("")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	246	}
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	247
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	248
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	249	/* token */
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	250
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	251	def token: Parser[Token] = delimited_token \| other_token
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	252
56278 2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	253	def token_line(SML: Boolean, ctxt: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	254	{
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	255	val other = (ml_char \| other_token) ^^ (x => (x, Scan.Finished))
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	256
56278 2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	257	if (SML) ml_string_line(ctxt) \| (ml_comment_line(ctxt) \| other)
2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	258	else
2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	259	ml_string_line(ctxt) \|
59112 e670969f34df expand ML cartouches to Input.source; wenzelm parents: 59109 diff changeset	260	(ml_cartouche_line(ctxt) \|
e670969f34df expand ML cartouches to Input.source; wenzelm parents: 59109 diff changeset	261	(ml_comment_line(ctxt) \|
e670969f34df expand ML cartouches to Input.source; wenzelm parents: 59109 diff changeset	262	(ml_antiq_start(ctxt) \| (ml_antiq_stop(ctxt) \| (ml_antiq_body(ctxt) \| other)))))
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	263	}
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	264	}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	265
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	266
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	267	/* tokenize */
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	268
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	269	def tokenize(input: CharSequence): List[Token] =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	270	{
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	271	Parsers.parseAll(Parsers.rep(Parsers.token), new CharSequenceReader(input)) match {
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	272	case Parsers.Success(tokens, _) => tokens
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	273	case _ => error("Unexpected failure of tokenizing input:\n" + input.toString)
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	274	}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	275	}
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	276
56278 2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	277	def tokenize_line(SML: Boolean, input: CharSequence, context: Scan.Line_Context)
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	278	: (List[Token], Scan.Line_Context) =
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	279	{
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	280	var in: Reader[Char] = new CharSequenceReader(input)
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	281	val toks = new mutable.ListBuffer[Token]
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	282	var ctxt = context
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	283	while (!in.atEnd) {
56278 2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	284	Parsers.parse(Parsers.token_line(SML, ctxt), in) match {
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	285	case Parsers.Success((x, c), rest) => { toks += x; ctxt = c; in = rest }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	286	case Parsers.NoSuccess(_, rest) =>
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	287	error("Unexpected failure of tokenizing input:\n" + rest.source.toString)
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	288	}
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	289	}
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	290	(toks.toList, ctxt)
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	291	}
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	292	}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	293

author	wenzelm
	Sun, 18 Jan 2015 23:07:00 +0100
changeset 59404	5d08b2332b76
parent 59112	e670969f34df
child 60215	5fb4990dfc73
permissions	-rw-r--r--