isabelle: src/Pure/ML/ml_lex.scala@1b11669a5c66 (annotated)

55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	1	/* Title: Pure/ML/ml_lex.scala
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	2	Author: Makarius
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	3
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	4	Lexical syntax for SML.
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	5	*/
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	6
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	7	package isabelle
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	8
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	9
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	10	import scala.collection.mutable
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	11	import scala.util.parsing.input.{Reader, CharSequenceReader}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	12
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	13
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	14	object ML_Lex
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	15	{
55505 2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	16	/ keywords /
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	17
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	18	val keywords: Set[String] =
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	19	Set("#", "(", ")", ",", "->", "...", ":", ":>", ";", "=", "=>",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	20	"[", "]", "_", "{", "\|", "}", "abstype", "and", "andalso", "as",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	21	"case", "datatype", "do", "else", "end", "eqtype", "exception",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	22	"fn", "fun", "functor", "handle", "if", "in", "include",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	23	"infix", "infixr", "let", "local", "nonfix", "of", "op", "open",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	24	"orelse", "raise", "rec", "sharing", "sig", "signature",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	25	"struct", "structure", "then", "type", "val", "where", "while",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	26	"with", "withtype")
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	27
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	28	val keywords2: Set[String] =
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	29	Set("case", "do", "else", "end", "if", "in", "let", "local", "of",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	30	"sig", "struct", "then", "while", "with")
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	31
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	32	val keywords3: Set[String] =
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	33	Set("handle", "open", "raise")
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	34
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	35	private val lexicon: Scan.Lexicon = Scan.Lexicon(keywords.toList: _*)
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	36
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	37
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	38
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	39	/ tokens /
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	40
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	41	object Kind extends Enumeration
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	42	{
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	43	val KEYWORD = Value("keyword")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	44	val IDENT = Value("identifier")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	45	val LONG_IDENT = Value("long identifier")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	46	val TYPE_VAR = Value("type variable")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	47	val WORD = Value("word")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	48	val INT = Value("integer")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	49	val REAL = Value("real")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	50	val CHAR = Value("character")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	51	val STRING = Value("quoted string")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	52	val SPACE = Value("white space")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	53	val COMMENT = Value("comment text")
55512 75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	54	val ANTIQ = Value("antiquotation")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	55	val ANTIQ_START = Value("antiquotation: start")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	56	val ANTIQ_STOP = Value("antiquotation: stop")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	57	val ANTIQ_OTHER = Value("antiquotation: other")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	58	val ANTIQ_STRING = Value("antiquotation: quoted string")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	59	val ANTIQ_ALT_STRING = Value("antiquotation: back-quoted string")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	60	val ANTIQ_CARTOUCHE = Value("antiquotation: text cartouche")
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	61	val ERROR = Value("bad input")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	62	}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	63
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	64	sealed case class Token(val kind: Kind.Value, val source: String)
55500 cdbbaa3074a8 isabelle-ml mode with separate token marker; wenzelm parents: 55499 diff changeset	65	{
55501 fdde1d62e1fb refined ML keyword styles; wenzelm parents: 55500 diff changeset	66	def is_keyword: Boolean = kind == Kind.KEYWORD
55505 2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	67	def is_delimiter: Boolean = is_keyword && !Symbol.is_ascii_identifier(source)
55500 cdbbaa3074a8 isabelle-ml mode with separate token marker; wenzelm parents: 55499 diff changeset	68	}
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	69
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	70
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	71
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	72	/ parsers /
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	73
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	74	case object ML_String extends Scan.Line_Context
55512 75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	75	case class Antiq(ctxt: Scan.Line_Context) extends Scan.Line_Context
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	76
55512 75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	77	private object Parsers extends Scan.Parsers with Antiquote.Parsers
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	78	{
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	79	/* string material */
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	80
55500 cdbbaa3074a8 isabelle-ml mode with separate token marker; wenzelm parents: 55499 diff changeset	81	private val blanks = many(character(Symbol.is_ascii_blank))
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	82	private val blanks1 = many1(character(Symbol.is_ascii_blank))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	83
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	84	private val gap = "\\" ~ blanks1 ~ "\\" ^^ { case x ~ y ~ z => x + y + z }
55500 cdbbaa3074a8 isabelle-ml mode with separate token marker; wenzelm parents: 55499 diff changeset	85	private val gap_start = "\\" ~ blanks ~ """\z""".r ^^ { case x ~ y ~ _ => x + y }
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	86
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	87	private val escape =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	88	one(character("\"\\abtnvfr".contains(_))) \|
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	89	"^" ~ one(character(c => '@' <= c && c <= '_')) ^^ { case x ~ y => x + y } \|
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	90	repeated(character(Symbol.is_ascii_digit), 3, 3)
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	91
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	92	private val str =
55502 72238ea2201c clarified Isabelle/ML strings; wenzelm parents: 55501 diff changeset	93	one(Symbol.is_symbolic) \|
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	94	one(character(c => c != '"' && c != '\\' && ' ' <= c && c <= '~')) \|
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	95	"\\" ~ escape ^^ { case x ~ y => x + y }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	96
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	97
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	98	/* ML char -- without gaps */
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	99
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	100	private val ml_char: Parser[Token] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	101	"#\"" ~ str ~ "\"" ^^ { case x ~ y ~ z => Token(Kind.CHAR, x + y + z) }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	102
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	103	private val recover_ml_char: Parser[String] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	104	"#\"" ~ opt(str) ^^ { case x ~ Some(y) => x + y case x ~ None => x }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	105
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	106
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	107	/* ML string */
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	108
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	109	private val ml_string_body: Parser[String] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	110	rep(gap \| str) ^^ (_.mkString)
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	111
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	112	private val recover_ml_string: Parser[String] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	113	"\"" ~ ml_string_body ^^ { case x ~ y => x + y }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	114
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	115	private val ml_string: Parser[Token] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	116	"\"" ~ ml_string_body ~ "\"" ^^ { case x ~ y ~ z => Token(Kind.STRING, x + y + z) }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	117
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	118	private def ml_string_line(ctxt: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	119	{
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	120	def result(x: String, c: Scan.Line_Context) = (Token(Kind.STRING, x), c)
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	121
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	122	ctxt match {
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	123	case Scan.Finished =>
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	124	"\"" ~ ml_string_body ~ ("\"" \| gap_start) ^^
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	125	{ case x ~ y ~ z => result(x + y + z, if (z == "\"") Scan.Finished else ML_String) }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	126	case ML_String =>
55500 cdbbaa3074a8 isabelle-ml mode with separate token marker; wenzelm parents: 55499 diff changeset	127	blanks ~ opt_term("\\" ~ ml_string_body ~ ("\"" \| gap_start)) ^^
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	128	{ case x ~ Some(y ~ z ~ w) =>
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	129	result(x + y + z + w, if (w == "\"") Scan.Finished else ML_String)
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	130	case x ~ None => result(x, ML_String) }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	131	case _ => failure("")
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	132	}
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	133	}
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	134
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	135
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	136	/* ML comment */
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	137
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	138	private val ml_comment: Parser[Token] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	139	comment ^^ (x => Token(Kind.COMMENT, x))
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	140
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	141	private def ml_comment_line(ctxt: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	142	comment_line(ctxt) ^^ { case (x, c) => (Token(Kind.COMMENT, x), c) }
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	143
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	144
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	145	/* delimited token */
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	146
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	147	private def delimited_token: Parser[Token] =
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	148	ml_char \| (ml_string \| ml_comment)
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	149
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	150	private val recover_delimited: Parser[Token] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	151	(recover_ml_char \| (recover_ml_string \| recover_comment)) ^^ (x => Token(Kind.ERROR, x))
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	152
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	153
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	154	private def other_token: Parser[Token] =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	155	{
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	156	/* identifiers */
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	157
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	158	val letdigs = many(character(Symbol.is_ascii_letdig))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	159
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	160	val alphanumeric =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	161	one(character(Symbol.is_ascii_letter)) ~ letdigs ^^ { case x ~ y => x + y }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	162
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	163	val symbolic = many1(character("!#$%&*+-/:<=>?@\\^`\|~".contains(_)))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	164
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	165	val ident = (alphanumeric \| symbolic) ^^ (x => Token(Kind.IDENT, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	166
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	167	val long_ident =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	168	rep1(alphanumeric ~ "." ^^ { case x ~ y => x + y }) ~
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	169	(alphanumeric \| (symbolic \| "=")) ^^
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	170	{ case x ~ y => Token(Kind.LONG_IDENT, x.mkString + y) }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	171
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	172	val type_var = "'" ~ letdigs ^^ { case x ~ y => Token(Kind.TYPE_VAR, x + y) }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	173
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	174
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	175	/* numerals */
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	176
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	177	val dec = many1(character(Symbol.is_ascii_digit))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	178	val hex = many1(character(Symbol.is_ascii_hex))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	179	val sign = opt("~") ^^ { case Some(x) => x case None => "" }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	180	val decint = sign ~ dec ^^ { case x ~ y => x + y }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	181	val exp = ("E" \| "e") ~ decint ^^ { case x ~ y => x + y }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	182
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	183	val word =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	184	("0wx" ~ hex ^^ { case x ~ y => x + y } \| "0w" ~ dec ^^ { case x ~ y => x + y }) ^^
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	185	(x => Token(Kind.WORD, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	186
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	187	val int =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	188	sign ~ ("0x" ~ hex ^^ { case x ~ y => x + y } \| dec) ^^
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	189	{ case x ~ y => Token(Kind.INT, x + y) }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	190
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	191	val real =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	192	(decint ~ "." ~ dec ~ (opt(exp) ^^ { case Some(x) => x case None => "" }) ^^
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	193	{ case x ~ y ~ z ~ w => x + y + z + w } \|
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	194	decint ~ exp ^^ { case x ~ y => x + y }) ^^ (x => Token(Kind.REAL, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	195
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	196
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	197	/* main */
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	198
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	199	val space = blanks1 ^^ (x => Token(Kind.SPACE, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	200
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	201	val keyword = literal(lexicon) ^^ (x => Token(Kind.KEYWORD, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	202
55512 75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	203	val ml_antiq = antiq ^^ (x => Token(Kind.ANTIQ, x))
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	204
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	205	val bad = one(_ => true) ^^ (x => Token(Kind.ERROR, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	206
55512 75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	207	space \| (recover_delimited \| (ml_antiq \|
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	208	(((word \| (real \| (int \| (long_ident \| (ident \| type_var))))) \|\|\| keyword) \| bad)))
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	209	}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	210
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	211
55512 75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	212	/* antiquotations (line-oriented) */
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	213
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	214	def ml_antiq_start(ctxt: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	215	ctxt match {
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	216	case Scan.Finished => "@{" ^^ (x => (Token(Kind.ANTIQ_START, x), Antiq(Scan.Finished)))
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	217	case _ => failure("")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	218	}
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	219
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	220	def ml_antiq_stop(ctxt: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	221	ctxt match {
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	222	case Antiq(Scan.Finished) => "}" ^^ (x => (Token(Kind.ANTIQ_STOP, x), Scan.Finished))
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	223	case _ => failure("")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	224	}
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	225
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	226	def ml_antiq_body(context: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	227	context match {
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	228	case Antiq(ctxt) =>
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	229	(if (ctxt == Scan.Finished) antiq_other ^^ (x => (Token(Kind.ANTIQ_OTHER, x), context))
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	230	else failure("")) \|
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	231	quoted_line("\"", ctxt) ^^ { case (x, c) => (Token(Kind.ANTIQ_STRING, x), Antiq(c)) } \|
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	232	quoted_line("`", ctxt) ^^ { case (x, c) => (Token(Kind.ANTIQ_ALT_STRING, x), Antiq(c)) } \|
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	233	cartouche_line(ctxt) ^^ { case (x, c) => (Token(Kind.ANTIQ_CARTOUCHE, x), Antiq(c)) }
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	234	case _ => failure("")
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	235	}
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	236
75c68e05f9ea support ML antiquotations in Scala; wenzelm parents: 55510 diff changeset	237
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	238	/* token */
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	239
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	240	def token: Parser[Token] = delimited_token \| other_token
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	241
56278 2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	242	def token_line(SML: Boolean, ctxt: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	243	{
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	244	val other = (ml_char \| other_token) ^^ (x => (x, Scan.Finished))
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	245
56278 2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	246	if (SML) ml_string_line(ctxt) \| (ml_comment_line(ctxt) \| other)
2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	247	else
2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	248	ml_string_line(ctxt) \|
2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	249	(ml_comment_line(ctxt) \|
2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	250	(ml_antiq_start(ctxt) \| (ml_antiq_stop(ctxt) \| (ml_antiq_body(ctxt) \| other))))
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	251	}
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	252	}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	253
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	254
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	255	/* tokenize */
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	256
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	257	def tokenize(input: CharSequence): List[Token] =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	258	{
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	259	Parsers.parseAll(Parsers.rep(Parsers.token), new CharSequenceReader(input)) match {
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	260	case Parsers.Success(tokens, _) => tokens
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	261	case _ => error("Unexpected failure of tokenizing input:\n" + input.toString)
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	262	}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	263	}
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	264
56278 2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	265	def tokenize_line(SML: Boolean, input: CharSequence, context: Scan.Line_Context)
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	266	: (List[Token], Scan.Line_Context) =
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	267	{
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	268	var in: Reader[Char] = new CharSequenceReader(input)
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	269	val toks = new mutable.ListBuffer[Token]
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	270	var ctxt = context
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	271	while (!in.atEnd) {
56278 2576d3a40ed6 separate tokenization and language context for SML: no symbols, no antiquotes; wenzelm parents: 55512 diff changeset	272	Parsers.parse(Parsers.token_line(SML, ctxt), in) match {
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	273	case Parsers.Success((x, c), rest) => { toks += x; ctxt = c; in = rest }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	274	case Parsers.NoSuccess(_, rest) =>
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	275	error("Unexpected failure of tokenizing input:\n" + rest.source.toString)
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	276	}
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	277	}
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	278	(toks.toList, ctxt)
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	279	}
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	280	}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	281

author	desharna
	Mon, 06 Oct 2014 13:42:48 +0200
changeset 58586	1b11669a5c66
parent 56278	2576d3a40ed6
child 58933	6585e59aee3e
permissions	-rw-r--r--