isabelle: src/Pure/ML/ml_lex.scala@d0b68218ea55 (annotated)

55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	1	/* Title: Pure/ML/ml_lex.scala
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	2	Author: Makarius
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	3
59109 364992cd3c50 tuned comment; wenzelm parents: 59108 diff changeset	4	Lexical syntax for Isabelle/ML and Standard ML.
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	5	*/
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	6
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	7	package isabelle
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	8
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	9
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	10	import scala.collection.mutable
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	11	import scala.util.parsing.input.{Reader, CharSequenceReader}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	12
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	13
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	14	object ML_Lex
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	15	{
55505 2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	16	/ keywords /
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	17
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	18	val keywords: Set[String] =
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	19	Set("#", "(", ")", ",", "->", "...", ":", ":>", ";", "=", "=>",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	20	"[", "]", "_", "{", "\|", "}", "abstype", "and", "andalso", "as",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	21	"case", "datatype", "do", "else", "end", "eqtype", "exception",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	22	"fn", "fun", "functor", "handle", "if", "in", "include",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	23	"infix", "infixr", "let", "local", "nonfix", "of", "op", "open",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	24	"orelse", "raise", "rec", "sharing", "sig", "signature",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	25	"struct", "structure", "then", "type", "val", "where", "while",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	26	"with", "withtype")
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	27
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	28	val keywords2: Set[String] =
58933 6585e59aee3e tuned markup; wenzelm parents: 56278 diff changeset	29	Set("and", "case", "do", "else", "end", "if", "in", "let", "local",
6585e59aee3e tuned markup; wenzelm parents: 56278 diff changeset	30	"of", "sig", "struct", "then", "while", "with")
55505 2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	31
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	32	val keywords3: Set[String] =
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	33	Set("handle", "open", "raise")
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	34
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	35	private val lexicon: Scan.Lexicon = Scan.Lexicon(keywords.toList: _*)
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	36
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	37
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	38
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	39	/ tokens /
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	40
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	41	object Kind extends Enumeration
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	42	{
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	43	val KEYWORD = Value("keyword")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	44	val IDENT = Value("identifier")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	45	val LONG_IDENT = Value("long identifier")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	46	val TYPE_VAR = Value("type variable")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	47	val WORD = Value("word")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	48	val INT = Value("integer")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	49	val REAL = Value("real")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	50	val CHAR = Value("character")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	51	val STRING = Value("quoted string")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	52	val SPACE = Value("white space")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	53	val COMMENT = Value("comment text")
61471 9d4c08af61b8 support control symbol antiquotations; wenzelm parents: 60215 diff changeset	54	val CONTROL = Value("control symbol antiquotation")
55512 75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	55	val ANTIQ = Value("antiquotation")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	56	val ANTIQ_START = Value("antiquotation: start")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	57	val ANTIQ_STOP = Value("antiquotation: stop")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	58	val ANTIQ_OTHER = Value("antiquotation: other")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	59	val ANTIQ_STRING = Value("antiquotation: quoted string")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	60	val ANTIQ_ALT_STRING = Value("antiquotation: back-quoted string")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	61	val ANTIQ_CARTOUCHE = Value("antiquotation: text cartouche")
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	62	val ERROR = Value("bad input")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	63	}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	64
60215 5fb4990dfc73 misc tuning, based on warnings by IntelliJ IDEA; wenzelm parents: 59112 diff changeset	65	sealed case class Token(kind: Kind.Value, source: String)
55500 cdbbaa3074a8 isabelle-ml mode with separate token marker; wenzelm parents: 55499 diff changeset	66	{
55501 fdde1d62e1fb refined ML keyword styles; wenzelm parents: 55500 diff changeset	67	def is_keyword: Boolean = kind == Kind.KEYWORD
55505 2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	68	def is_delimiter: Boolean = is_keyword && !Symbol.is_ascii_identifier(source)
55500 cdbbaa3074a8 isabelle-ml mode with separate token marker; wenzelm parents: 55499 diff changeset	69	}
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	70
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	71
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	72
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	73	/ parsers /
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	74
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	75	case object ML_String extends Scan.Line_Context
55512 75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	76	case class Antiq(ctxt: Scan.Line_Context) extends Scan.Line_Context
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	77
55512 75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	78	private object Parsers extends Scan.Parsers with Antiquote.Parsers
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	79	{
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	80	/* string material */
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	81
55500 cdbbaa3074a8 isabelle-ml mode with separate token marker; wenzelm parents: 55499 diff changeset	82	private val blanks = many(character(Symbol.is_ascii_blank))
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	83	private val blanks1 = many1(character(Symbol.is_ascii_blank))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	84
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	85	private val gap = "\\" ~ blanks1 ~ "\\" ^^ { case x ~ y ~ z => x + y + z }
55500 cdbbaa3074a8 isabelle-ml mode with separate token marker; wenzelm parents: 55499 diff changeset	86	private val gap_start = "\\" ~ blanks ~ """\z""".r ^^ { case x ~ y ~ _ => x + y }
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	87
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	88	private val escape =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	89	one(character("\"\\abtnvfr".contains(_))) \|
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	90	"^" ~ one(character(c => '@' <= c && c <= '_')) ^^ { case x ~ y => x + y } \|
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	91	repeated(character(Symbol.is_ascii_digit), 3, 3)
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	92
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	93	private val str =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	94	one(character(c => c != '"' && c != '\\' && ' ' <= c && c <= '~')) \|
59108 50ccc027e8a7 clarified Isabelle/ML strings (refining 72238ea2201c); wenzelm parents: 58933 diff changeset	95	one(s => Symbol.is_symbolic(s) \| Symbol.is_control(s)) \|
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	96	"\\" ~ escape ^^ { case x ~ y => x + y }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	97
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	98
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	99	/* ML char -- without gaps */
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	100
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	101	private val ml_char: Parser[Token] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	102	"#\"" ~ str ~ "\"" ^^ { case x ~ y ~ z => Token(Kind.CHAR, x + y + z) }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	103
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	104	private val recover_ml_char: Parser[String] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	105	"#\"" ~ opt(str) ^^ { case x ~ Some(y) => x + y case x ~ None => x }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	106
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	107
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	108	/* ML string */
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	109
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	110	private val ml_string_body: Parser[String] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	111	rep(gap \| str) ^^ (_.mkString)
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	112
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	113	private val recover_ml_string: Parser[String] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	114	"\"" ~ ml_string_body ^^ { case x ~ y => x + y }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	115
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	116	private val ml_string: Parser[Token] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	117	"\"" ~ ml_string_body ~ "\"" ^^ { case x ~ y ~ z => Token(Kind.STRING, x + y + z) }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	118
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	119	private def ml_string_line(ctxt: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	120	{
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	121	def result(x: String, c: Scan.Line_Context) = (Token(Kind.STRING, x), c)
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	122
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	123	ctxt match {
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	124	case Scan.Finished =>
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	125	"\"" ~ ml_string_body ~ ("\"" \| gap_start) ^^
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	126	{ case x ~ y ~ z => result(x + y + z, if (z == "\"") Scan.Finished else ML_String) }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	127	case ML_String =>
55500 cdbbaa3074a8 isabelle-ml mode with separate token marker; wenzelm parents: 55499 diff changeset	128	blanks ~ opt_term("\\" ~ ml_string_body ~ ("\"" \| gap_start)) ^^
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	129	{ case x ~ Some(y ~ z ~ w) =>
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	130	result(x + y + z + w, if (w == "\"") Scan.Finished else ML_String)
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	131	case x ~ None => result(x, ML_String) }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	132	case _ => failure("")
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	133	}
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	134	}
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	135
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	136
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	137	/* ML comment */
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	138
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	139	private val ml_comment: Parser[Token] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	140	comment ^^ (x => Token(Kind.COMMENT, x))
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	141
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	142	private def ml_comment_line(ctxt: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	143	comment_line(ctxt) ^^ { case (x, c) => (Token(Kind.COMMENT, x), c) }
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	144
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	145
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	146	/* delimited token */
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	147
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	148	private def delimited_token: Parser[Token] =
61596 8323b8e21fe9 ML cartouches via control antiquotation; wenzelm parents: 61471 diff changeset	149	ml_char \| (ml_string \| ml_comment)
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	150
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	151	private val recover_delimited: Parser[Token] =
59112 e670969f34df expand ML cartouches to Input.source; wenzelm parents: 59109 diff changeset	152	(recover_ml_char \| (recover_ml_string \| (recover_cartouche \| recover_comment))) ^^
e670969f34df expand ML cartouches to Input.source; wenzelm parents: 59109 diff changeset	153	(x => Token(Kind.ERROR, x))
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	154
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	155
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	156	private def other_token: Parser[Token] =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	157	{
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	158	/* identifiers */
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	159
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	160	val letdigs = many(character(Symbol.is_ascii_letdig))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	161
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	162	val alphanumeric =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	163	one(character(Symbol.is_ascii_letter)) ~ letdigs ^^ { case x ~ y => x + y }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	164
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	165	val symbolic = many1(character("!#$%&*+-/:<=>?@\\^`\|~".contains(_)))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	166
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	167	val ident = (alphanumeric \| symbolic) ^^ (x => Token(Kind.IDENT, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	168
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	169	val long_ident =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	170	rep1(alphanumeric ~ "." ^^ { case x ~ y => x + y }) ~
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	171	(alphanumeric \| (symbolic \| "=")) ^^
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	172	{ case x ~ y => Token(Kind.LONG_IDENT, x.mkString + y) }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	173
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	174	val type_var = "'" ~ letdigs ^^ { case x ~ y => Token(Kind.TYPE_VAR, x + y) }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	175
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	176
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	177	/* numerals */
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	178
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	179	val dec = many1(character(Symbol.is_ascii_digit))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	180	val hex = many1(character(Symbol.is_ascii_hex))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	181	val sign = opt("~") ^^ { case Some(x) => x case None => "" }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	182	val decint = sign ~ dec ^^ { case x ~ y => x + y }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	183	val exp = ("E" \| "e") ~ decint ^^ { case x ~ y => x + y }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	184
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	185	val word =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	186	("0wx" ~ hex ^^ { case x ~ y => x + y } \| "0w" ~ dec ^^ { case x ~ y => x + y }) ^^
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	187	(x => Token(Kind.WORD, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	188
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	189	val int =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	190	sign ~ ("0x" ~ hex ^^ { case x ~ y => x + y } \| dec) ^^
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	191	{ case x ~ y => Token(Kind.INT, x + y) }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	192
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	193	val real =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	194	(decint ~ "." ~ dec ~ (opt(exp) ^^ { case Some(x) => x case None => "" }) ^^
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	195	{ case x ~ y ~ z ~ w => x + y + z + w } \|
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	196	decint ~ exp ^^ { case x ~ y => x + y }) ^^ (x => Token(Kind.REAL, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	197
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	198
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	199	/* main */
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	200
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	201	val space = blanks1 ^^ (x => Token(Kind.SPACE, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	202
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	203	val keyword = literal(lexicon) ^^ (x => Token(Kind.KEYWORD, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	204
61471 9d4c08af61b8 support control symbol antiquotations; wenzelm parents: 60215 diff changeset	205	val ml_control = control ^^ (x => Token(Kind.CONTROL, x))
55512 75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	206	val ml_antiq = antiq ^^ (x => Token(Kind.ANTIQ, x))
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	207
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	208	val bad = one(_ => true) ^^ (x => Token(Kind.ERROR, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	209
61596 8323b8e21fe9 ML cartouches via control antiquotation; wenzelm parents: 61471 diff changeset	210	space \| (ml_control \| (recover_delimited \| (ml_antiq \|
61471 9d4c08af61b8 support control symbol antiquotations; wenzelm parents: 60215 diff changeset	211	(((word \| (real \| (int \| (long_ident \| (ident \| type_var))))) \|\|\| keyword) \| bad))))
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	212	}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	213
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	214
55512 75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	215	/* antiquotations (line-oriented) */
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	216
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	217	def ml_antiq_start(ctxt: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	218	ctxt match {
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	219	case Scan.Finished => "@{" ^^ (x => (Token(Kind.ANTIQ_START, x), Antiq(Scan.Finished)))
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	220	case _ => failure("")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	221	}
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	222
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	223	def ml_antiq_stop(ctxt: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	224	ctxt match {
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	225	case Antiq(Scan.Finished) => "}" ^^ (x => (Token(Kind.ANTIQ_STOP, x), Scan.Finished))
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	226	case _ => failure("")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	227	}
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	228
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	229	def ml_antiq_body(context: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	230	context match {
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	231	case Antiq(ctxt) =>
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	232	(if (ctxt == Scan.Finished) antiq_other ^^ (x => (Token(Kind.ANTIQ_OTHER, x), context))
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	233	else failure("")) \|
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	234	quoted_line("\"", ctxt) ^^ { case (x, c) => (Token(Kind.ANTIQ_STRING, x), Antiq(c)) } \|
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	235	quoted_line("`", ctxt) ^^ { case (x, c) => (Token(Kind.ANTIQ_ALT_STRING, x), Antiq(c)) } \|
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	236	cartouche_line(ctxt) ^^ { case (x, c) => (Token(Kind.ANTIQ_CARTOUCHE, x), Antiq(c)) }
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	237	case _ => failure("")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	238	}
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	239
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	240
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	241	/* token */
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	242
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	243	def token: Parser[Token] = delimited_token \| other_token
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	244
56278 2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	245	def token_line(SML: Boolean, ctxt: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	246	{
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	247	val other = (ml_char \| other_token) ^^ (x => (x, Scan.Finished))
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	248
56278 2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	249	if (SML) ml_string_line(ctxt) \| (ml_comment_line(ctxt) \| other)
2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	250	else
2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	251	ml_string_line(ctxt) \|
61596 8323b8e21fe9 ML cartouches via control antiquotation; wenzelm parents: 61471 diff changeset	252	(ml_comment_line(ctxt) \|
8323b8e21fe9 ML cartouches via control antiquotation; wenzelm parents: 61471 diff changeset	253	(ml_antiq_start(ctxt) \| (ml_antiq_stop(ctxt) \| (ml_antiq_body(ctxt) \| other))))
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	254	}
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	255	}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	256
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	257
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	258	/* tokenize */
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	259
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	260	def tokenize(input: CharSequence): List[Token] =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	261	{
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	262	Parsers.parseAll(Parsers.rep(Parsers.token), new CharSequenceReader(input)) match {
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	263	case Parsers.Success(tokens, _) => tokens
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	264	case _ => error("Unexpected failure of tokenizing input:\n" + input.toString)
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	265	}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	266	}
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	267
56278 2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	268	def tokenize_line(SML: Boolean, input: CharSequence, context: Scan.Line_Context)
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	269	: (List[Token], Scan.Line_Context) =
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	270	{
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	271	var in: Reader[Char] = new CharSequenceReader(input)
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	272	val toks = new mutable.ListBuffer[Token]
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	273	var ctxt = context
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	274	while (!in.atEnd) {
56278 2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	275	Parsers.parse(Parsers.token_line(SML, ctxt), in) match {
60215 5fb4990dfc73 misc tuning, based on warnings by IntelliJ IDEA; wenzelm parents: 59112 diff changeset	276	case Parsers.Success((x, c), rest) => toks += x; ctxt = c; in = rest
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	277	case Parsers.NoSuccess(_, rest) =>
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	278	error("Unexpected failure of tokenizing input:\n" + rest.source.toString)
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	279	}
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	280	}
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	281	(toks.toList, ctxt)
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	282	}
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	283	}

author	wenzelm
	Thu, 03 Mar 2016 21:59:21 +0100
changeset 62508	d0b68218ea55
parent 61596	8323b8e21fe9
child 63204	921a5be54132
permissions	-rw-r--r--