isabelle: src/Pure/ML/ml_lex.scala@7b9196394b32 (annotated)

55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	1	/* Title: Pure/ML/ml_lex.scala
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	2	Author: Makarius
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	3
59109 364992cd3c50 tuned comment; wenzelm parents: 59108 diff changeset	4	Lexical syntax for Isabelle/ML and Standard ML.
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	5	*/
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	6
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	7	package isabelle
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	8
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	9
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	10	import scala.collection.mutable
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	11	import scala.util.parsing.input.{Reader, CharSequenceReader}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	12
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	13
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	14	object ML_Lex
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	15	{
55505 2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	16	/ keywords /
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	17
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	18	val keywords: Set[String] =
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	19	Set("#", "(", ")", ",", "->", "...", ":", ":>", ";", "=", "=>",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	20	"[", "]", "_", "{", "\|", "}", "abstype", "and", "andalso", "as",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	21	"case", "datatype", "do", "else", "end", "eqtype", "exception",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	22	"fn", "fun", "functor", "handle", "if", "in", "include",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	23	"infix", "infixr", "let", "local", "nonfix", "of", "op", "open",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	24	"orelse", "raise", "rec", "sharing", "sig", "signature",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	25	"struct", "structure", "then", "type", "val", "where", "while",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	26	"with", "withtype")
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	27
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	28	val keywords2: Set[String] =
58933 6585e59aee3e tuned markup; wenzelm parents: 56278 diff changeset	29	Set("and", "case", "do", "else", "end", "if", "in", "let", "local",
6585e59aee3e tuned markup; wenzelm parents: 56278 diff changeset	30	"of", "sig", "struct", "then", "while", "with")
55505 2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	31
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	32	val keywords3: Set[String] =
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	33	Set("handle", "open", "raise")
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	34
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	35	private val lexicon: Scan.Lexicon = Scan.Lexicon(keywords.toList: _*)
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	36
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	37
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	38
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	39	/ tokens /
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	40
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	41	object Kind extends Enumeration
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	42	{
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	43	val KEYWORD = Value("keyword")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	44	val IDENT = Value("identifier")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	45	val LONG_IDENT = Value("long identifier")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	46	val TYPE_VAR = Value("type variable")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	47	val WORD = Value("word")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	48	val INT = Value("integer")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	49	val REAL = Value("real")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	50	val CHAR = Value("character")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	51	val STRING = Value("quoted string")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	52	val SPACE = Value("white space")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	53	val COMMENT = Value("comment text")
61471 9d4c08af61b8 support control symbol antiquotations; wenzelm parents: 60215 diff changeset	54	val CONTROL = Value("control symbol antiquotation")
55512 75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	55	val ANTIQ = Value("antiquotation")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	56	val ANTIQ_START = Value("antiquotation: start")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	57	val ANTIQ_STOP = Value("antiquotation: stop")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	58	val ANTIQ_OTHER = Value("antiquotation: other")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	59	val ANTIQ_STRING = Value("antiquotation: quoted string")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	60	val ANTIQ_ALT_STRING = Value("antiquotation: back-quoted string")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	61	val ANTIQ_CARTOUCHE = Value("antiquotation: text cartouche")
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	62	val ERROR = Value("bad input")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	63	}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	64
60215 5fb4990dfc73 misc tuning, based on warnings by IntelliJ IDEA; wenzelm parents: 59112 diff changeset	65	sealed case class Token(kind: Kind.Value, source: String)
55500 cdbbaa3074a8 isabelle-ml mode with separate token marker; wenzelm parents: 55499 diff changeset	66	{
55501 fdde1d62e1fb refined ML keyword styles; wenzelm parents: 55500 diff changeset	67	def is_keyword: Boolean = kind == Kind.KEYWORD
55505 2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	68	def is_delimiter: Boolean = is_keyword && !Symbol.is_ascii_identifier(source)
63610 4b40b8196dc7 Sidekick parser for isabelle-ml and sml mode; wenzelm parents: 63204 diff changeset	69	def is_space: Boolean = kind == Kind.SPACE
4b40b8196dc7 Sidekick parser for isabelle-ml and sml mode; wenzelm parents: 63204 diff changeset	70	def is_comment: Boolean = kind == Kind.COMMENT
55500 cdbbaa3074a8 isabelle-ml mode with separate token marker; wenzelm parents: 55499 diff changeset	71	}
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	72
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	73
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	74
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	75	/ parsers /
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	76
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	77	case object ML_String extends Scan.Line_Context
55512 75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	78	case class Antiq(ctxt: Scan.Line_Context) extends Scan.Line_Context
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	79
55512 75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	80	private object Parsers extends Scan.Parsers with Antiquote.Parsers
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	81	{
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	82	/* string material */
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	83
55500 cdbbaa3074a8 isabelle-ml mode with separate token marker; wenzelm parents: 55499 diff changeset	84	private val blanks = many(character(Symbol.is_ascii_blank))
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	85	private val blanks1 = many1(character(Symbol.is_ascii_blank))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	86
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	87	private val gap = "\\" ~ blanks1 ~ "\\" ^^ { case x ~ y ~ z => x + y + z }
55500 cdbbaa3074a8 isabelle-ml mode with separate token marker; wenzelm parents: 55499 diff changeset	88	private val gap_start = "\\" ~ blanks ~ """\z""".r ^^ { case x ~ y ~ _ => x + y }
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	89
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	90	private val escape =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	91	one(character("\"\\abtnvfr".contains(_))) \|
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	92	"^" ~ one(character(c => '@' <= c && c <= '_')) ^^ { case x ~ y => x + y } \|
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	93	repeated(character(Symbol.is_ascii_digit), 3, 3)
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	94
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	95	private val str =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	96	one(character(c => c != '"' && c != '\\' && ' ' <= c && c <= '~')) \|
59108 50ccc027e8a7 clarified Isabelle/ML strings (refining 72238ea2201c); wenzelm parents: 58933 diff changeset	97	one(s => Symbol.is_symbolic(s) \| Symbol.is_control(s)) \|
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	98	"\\" ~ escape ^^ { case x ~ y => x + y }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	99
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	100
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	101	/* ML char -- without gaps */
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	102
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	103	private val ml_char: Parser[Token] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	104	"#\"" ~ str ~ "\"" ^^ { case x ~ y ~ z => Token(Kind.CHAR, x + y + z) }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	105
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	106	private val recover_ml_char: Parser[String] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	107	"#\"" ~ opt(str) ^^ { case x ~ Some(y) => x + y case x ~ None => x }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	108
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	109
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	110	/* ML string */
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	111
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	112	private val ml_string_body: Parser[String] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	113	rep(gap \| str) ^^ (_.mkString)
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	114
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	115	private val recover_ml_string: Parser[String] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	116	"\"" ~ ml_string_body ^^ { case x ~ y => x + y }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	117
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	118	private val ml_string: Parser[Token] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	119	"\"" ~ ml_string_body ~ "\"" ^^ { case x ~ y ~ z => Token(Kind.STRING, x + y + z) }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	120
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	121	private def ml_string_line(ctxt: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	122	{
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	123	def result(x: String, c: Scan.Line_Context) = (Token(Kind.STRING, x), c)
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	124
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	125	ctxt match {
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	126	case Scan.Finished =>
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	127	"\"" ~ ml_string_body ~ ("\"" \| gap_start) ^^
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	128	{ case x ~ y ~ z => result(x + y + z, if (z == "\"") Scan.Finished else ML_String) }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	129	case ML_String =>
55500 cdbbaa3074a8 isabelle-ml mode with separate token marker; wenzelm parents: 55499 diff changeset	130	blanks ~ opt_term("\\" ~ ml_string_body ~ ("\"" \| gap_start)) ^^
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	131	{ case x ~ Some(y ~ z ~ w) =>
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	132	result(x + y + z + w, if (w == "\"") Scan.Finished else ML_String)
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	133	case x ~ None => result(x, ML_String) }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	134	case _ => failure("")
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	135	}
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	136	}
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	137
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	138
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	139	/* ML comment */
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	140
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	141	private val ml_comment: Parser[Token] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	142	comment ^^ (x => Token(Kind.COMMENT, x))
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	143
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	144	private def ml_comment_line(ctxt: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	145	comment_line(ctxt) ^^ { case (x, c) => (Token(Kind.COMMENT, x), c) }
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	146
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	147
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	148	/* delimited token */
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	149
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	150	private def delimited_token: Parser[Token] =
61596 8323b8e21fe9 ML cartouches via control antiquotation; wenzelm parents: 61471 diff changeset	151	ml_char \| (ml_string \| ml_comment)
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	152
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	153	private val recover_delimited: Parser[Token] =
59112 e670969f34df expand ML cartouches to Input.source; wenzelm parents: 59109 diff changeset	154	(recover_ml_char \| (recover_ml_string \| (recover_cartouche \| recover_comment))) ^^
e670969f34df expand ML cartouches to Input.source; wenzelm parents: 59109 diff changeset	155	(x => Token(Kind.ERROR, x))
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	156
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	157
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	158	private def other_token: Parser[Token] =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	159	{
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	160	/* identifiers */
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	161
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	162	val letdigs = many(character(Symbol.is_ascii_letdig))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	163
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	164	val alphanumeric =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	165	one(character(Symbol.is_ascii_letter)) ~ letdigs ^^ { case x ~ y => x + y }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	166
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	167	val symbolic = many1(character("!#$%&*+-/:<=>?@\\^`\|~".contains(_)))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	168
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	169	val ident = (alphanumeric \| symbolic) ^^ (x => Token(Kind.IDENT, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	170
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	171	val long_ident =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	172	rep1(alphanumeric ~ "." ^^ { case x ~ y => x + y }) ~
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	173	(alphanumeric \| (symbolic \| "=")) ^^
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	174	{ case x ~ y => Token(Kind.LONG_IDENT, x.mkString + y) }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	175
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	176	val type_var = "'" ~ letdigs ^^ { case x ~ y => Token(Kind.TYPE_VAR, x + y) }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	177
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	178
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	179	/* numerals */
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	180
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	181	val dec = many1(character(Symbol.is_ascii_digit))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	182	val hex = many1(character(Symbol.is_ascii_hex))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	183	val sign = opt("~") ^^ { case Some(x) => x case None => "" }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	184	val decint = sign ~ dec ^^ { case x ~ y => x + y }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	185	val exp = ("E" \| "e") ~ decint ^^ { case x ~ y => x + y }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	186
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	187	val word =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	188	("0wx" ~ hex ^^ { case x ~ y => x + y } \| "0w" ~ dec ^^ { case x ~ y => x + y }) ^^
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	189	(x => Token(Kind.WORD, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	190
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	191	val int =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	192	sign ~ ("0x" ~ hex ^^ { case x ~ y => x + y } \| dec) ^^
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	193	{ case x ~ y => Token(Kind.INT, x + y) }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	194
63204 921a5be54132 support rat numerals via special antiquotation syntax; wenzelm parents: 61596 diff changeset	195	val rat =
921a5be54132 support rat numerals via special antiquotation syntax; wenzelm parents: 61596 diff changeset	196	decint ~ opt("/" ~ dec) ^^ { case x ~ None => x case x ~ Some(y ~ z) => x + y + z }
921a5be54132 support rat numerals via special antiquotation syntax; wenzelm parents: 61596 diff changeset	197
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	198	val real =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	199	(decint ~ "." ~ dec ~ (opt(exp) ^^ { case Some(x) => x case None => "" }) ^^
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	200	{ case x ~ y ~ z ~ w => x + y + z + w } \|
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	201	decint ~ exp ^^ { case x ~ y => x + y }) ^^ (x => Token(Kind.REAL, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	202
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	203
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	204	/* main */
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	205
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	206	val space = blanks1 ^^ (x => Token(Kind.SPACE, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	207
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	208	val keyword = literal(lexicon) ^^ (x => Token(Kind.KEYWORD, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	209
61471 9d4c08af61b8 support control symbol antiquotations; wenzelm parents: 60215 diff changeset	210	val ml_control = control ^^ (x => Token(Kind.CONTROL, x))
63204 921a5be54132 support rat numerals via special antiquotation syntax; wenzelm parents: 61596 diff changeset	211	val ml_antiq =
921a5be54132 support rat numerals via special antiquotation syntax; wenzelm parents: 61596 diff changeset	212	"@" ~ rat ^^ { case x ~ y => Token(Kind.ANTIQ, x + y) } \|
921a5be54132 support rat numerals via special antiquotation syntax; wenzelm parents: 61596 diff changeset	213	antiq ^^ (x => Token(Kind.ANTIQ, x))
55512 75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	214
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	215	val bad = one(_ => true) ^^ (x => Token(Kind.ERROR, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	216
61596 8323b8e21fe9 ML cartouches via control antiquotation; wenzelm parents: 61471 diff changeset	217	space \| (ml_control \| (recover_delimited \| (ml_antiq \|
61471 9d4c08af61b8 support control symbol antiquotations; wenzelm parents: 60215 diff changeset	218	(((word \| (real \| (int \| (long_ident \| (ident \| type_var))))) \|\|\| keyword) \| bad))))
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	219	}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	220
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	221
55512 75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	222	/* antiquotations (line-oriented) */
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	223
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	224	def ml_antiq_start(ctxt: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	225	ctxt match {
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	226	case Scan.Finished => "@{" ^^ (x => (Token(Kind.ANTIQ_START, x), Antiq(Scan.Finished)))
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	227	case _ => failure("")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	228	}
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	229
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	230	def ml_antiq_stop(ctxt: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	231	ctxt match {
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	232	case Antiq(Scan.Finished) => "}" ^^ (x => (Token(Kind.ANTIQ_STOP, x), Scan.Finished))
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	233	case _ => failure("")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	234	}
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	235
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	236	def ml_antiq_body(context: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	237	context match {
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	238	case Antiq(ctxt) =>
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	239	(if (ctxt == Scan.Finished) antiq_other ^^ (x => (Token(Kind.ANTIQ_OTHER, x), context))
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	240	else failure("")) \|
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	241	quoted_line("\"", ctxt) ^^ { case (x, c) => (Token(Kind.ANTIQ_STRING, x), Antiq(c)) } \|
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	242	quoted_line("`", ctxt) ^^ { case (x, c) => (Token(Kind.ANTIQ_ALT_STRING, x), Antiq(c)) } \|
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	243	cartouche_line(ctxt) ^^ { case (x, c) => (Token(Kind.ANTIQ_CARTOUCHE, x), Antiq(c)) }
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	244	case _ => failure("")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	245	}
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	246
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	247
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	248	/* token */
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	249
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	250	def token: Parser[Token] = delimited_token \| other_token
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	251
56278 2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	252	def token_line(SML: Boolean, ctxt: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	253	{
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	254	val other = (ml_char \| other_token) ^^ (x => (x, Scan.Finished))
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	255
56278 2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	256	if (SML) ml_string_line(ctxt) \| (ml_comment_line(ctxt) \| other)
2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	257	else
2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	258	ml_string_line(ctxt) \|
61596 8323b8e21fe9 ML cartouches via control antiquotation; wenzelm parents: 61471 diff changeset	259	(ml_comment_line(ctxt) \|
8323b8e21fe9 ML cartouches via control antiquotation; wenzelm parents: 61471 diff changeset	260	(ml_antiq_start(ctxt) \| (ml_antiq_stop(ctxt) \| (ml_antiq_body(ctxt) \| other))))
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	261	}
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	262	}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	263
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	264
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	265	/* tokenize */
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	266
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	267	def tokenize(input: CharSequence): List[Token] =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	268	{
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	269	Parsers.parseAll(Parsers.rep(Parsers.token), new CharSequenceReader(input)) match {
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	270	case Parsers.Success(tokens, _) => tokens
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	271	case _ => error("Unexpected failure of tokenizing input:\n" + input.toString)
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	272	}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	273	}
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	274
56278 2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	275	def tokenize_line(SML: Boolean, input: CharSequence, context: Scan.Line_Context)
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	276	: (List[Token], Scan.Line_Context) =
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	277	{
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	278	var in: Reader[Char] = new CharSequenceReader(input)
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	279	val toks = new mutable.ListBuffer[Token]
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	280	var ctxt = context
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	281	while (!in.atEnd) {
56278 2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	282	Parsers.parse(Parsers.token_line(SML, ctxt), in) match {
60215 5fb4990dfc73 misc tuning, based on warnings by IntelliJ IDEA; wenzelm parents: 59112 diff changeset	283	case Parsers.Success((x, c), rest) => toks += x; ctxt = c; in = rest
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	284	case Parsers.NoSuccess(_, rest) =>
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	285	error("Unexpected failure of tokenizing input:\n" + rest.source.toString)
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	286	}
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	287	}
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	288	(toks.toList, ctxt)
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	289	}
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	290	}

author	wenzelm
	Wed, 21 Dec 2016 11:55:59 +0100
changeset 64641	7b9196394b32
parent 63610	4b40b8196dc7
child 64824	330ec9bc4b75
permissions	-rw-r--r--