isabelle: src/Pure/ML/ml_lex.scala@1585a65aad64 (annotated)

55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	1	/* Title: Pure/ML/ml_lex.scala
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	2	Author: Makarius
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	3
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	4	Lexical syntax for SML.
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	5	*/
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	6
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	7	package isabelle
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	8
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	9
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	10	import scala.collection.mutable
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	11	import scala.util.parsing.input.{Reader, CharSequenceReader}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	12
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	13
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	14	object ML_Lex
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	15	{
55505 2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	16	/ keywords /
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	17
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	18	val keywords: Set[String] =
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	19	Set("#", "(", ")", ",", "->", "...", ":", ":>", ";", "=", "=>",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	20	"[", "]", "_", "{", "\|", "}", "abstype", "and", "andalso", "as",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	21	"case", "datatype", "do", "else", "end", "eqtype", "exception",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	22	"fn", "fun", "functor", "handle", "if", "in", "include",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	23	"infix", "infixr", "let", "local", "nonfix", "of", "op", "open",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	24	"orelse", "raise", "rec", "sharing", "sig", "signature",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	25	"struct", "structure", "then", "type", "val", "where", "while",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	26	"with", "withtype")
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	27
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	28	val keywords2: Set[String] =
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	29	Set("case", "do", "else", "end", "if", "in", "let", "local", "of",
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	30	"sig", "struct", "then", "while", "with")
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	31
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	32	val keywords3: Set[String] =
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	33	Set("handle", "open", "raise")
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	34
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	35	private val lexicon: Scan.Lexicon = Scan.Lexicon(keywords.toList: _*)
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	36
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	37
2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	38
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	39	/ tokens /
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	40
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	41	object Kind extends Enumeration
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	42	{
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	43	val KEYWORD = Value("keyword")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	44	val IDENT = Value("identifier")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	45	val LONG_IDENT = Value("long identifier")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	46	val TYPE_VAR = Value("type variable")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	47	val WORD = Value("word")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	48	val INT = Value("integer")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	49	val REAL = Value("real")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	50	val CHAR = Value("character")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	51	val STRING = Value("quoted string")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	52	val SPACE = Value("white space")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	53	val COMMENT = Value("comment text")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	54	val ERROR = Value("bad input")
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	55	}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	56
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	57	sealed case class Token(val kind: Kind.Value, val source: String)
55500 cdbbaa3074a8 isabelle-ml mode with separate token marker; wenzelm parents: 55499 diff changeset	58	{
55501 fdde1d62e1fb refined ML keyword styles; wenzelm parents: 55500 diff changeset	59	def is_keyword: Boolean = kind == Kind.KEYWORD
55505 2a1ca7f6607b more uniform ML keyword markup; wenzelm parents: 55502 diff changeset	60	def is_delimiter: Boolean = is_keyword && !Symbol.is_ascii_identifier(source)
55500 cdbbaa3074a8 isabelle-ml mode with separate token marker; wenzelm parents: 55499 diff changeset	61	}
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	62
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	63
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	64
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	65	/ parsers /
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	66
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	67	case object ML_String extends Scan.Line_Context
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	68
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	69	private object Parsers extends Scan.Parsers
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	70	{
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	71	/* string material */
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	72
55500 cdbbaa3074a8 isabelle-ml mode with separate token marker; wenzelm parents: 55499 diff changeset	73	private val blanks = many(character(Symbol.is_ascii_blank))
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	74	private val blanks1 = many1(character(Symbol.is_ascii_blank))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	75
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	76	private val gap = "\\" ~ blanks1 ~ "\\" ^^ { case x ~ y ~ z => x + y + z }
55500 cdbbaa3074a8 isabelle-ml mode with separate token marker; wenzelm parents: 55499 diff changeset	77	private val gap_start = "\\" ~ blanks ~ """\z""".r ^^ { case x ~ y ~ _ => x + y }
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	78
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	79	private val escape =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	80	one(character("\"\\abtnvfr".contains(_))) \|
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	81	"^" ~ one(character(c => '@' <= c && c <= '_')) ^^ { case x ~ y => x + y } \|
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	82	repeated(character(Symbol.is_ascii_digit), 3, 3)
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	83
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	84	private val str =
55502 72238ea2201c clarified Isabelle/ML strings; wenzelm parents: 55501 diff changeset	85	one(Symbol.is_symbolic) \|
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	86	one(character(c => c != '"' && c != '\\' && ' ' <= c && c <= '~')) \|
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	87	"\\" ~ escape ^^ { case x ~ y => x + y }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	88
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	89
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	90	/* ML char -- without gaps */
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	91
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	92	private val ml_char: Parser[Token] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	93	"#\"" ~ str ~ "\"" ^^ { case x ~ y ~ z => Token(Kind.CHAR, x + y + z) }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	94
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	95	private val recover_ml_char: Parser[String] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	96	"#\"" ~ opt(str) ^^ { case x ~ Some(y) => x + y case x ~ None => x }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	97
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	98
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	99	/* ML string */
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	100
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	101	private val ml_string_body: Parser[String] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	102	rep(gap \| str) ^^ (_.mkString)
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	103
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	104	private val recover_ml_string: Parser[String] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	105	"\"" ~ ml_string_body ^^ { case x ~ y => x + y }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	106
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	107	private val ml_string: Parser[Token] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	108	"\"" ~ ml_string_body ~ "\"" ^^ { case x ~ y ~ z => Token(Kind.STRING, x + y + z) }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	109
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	110	private def ml_string_line(ctxt: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	111	{
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	112	def result(x: String, c: Scan.Line_Context) = (Token(Kind.STRING, x), c)
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	113
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	114	ctxt match {
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	115	case Scan.Finished =>
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	116	"\"" ~ ml_string_body ~ ("\"" \| gap_start) ^^
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	117	{ case x ~ y ~ z => result(x + y + z, if (z == "\"") Scan.Finished else ML_String) }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	118	case ML_String =>
55500 cdbbaa3074a8 isabelle-ml mode with separate token marker; wenzelm parents: 55499 diff changeset	119	blanks ~ opt_term("\\" ~ ml_string_body ~ ("\"" \| gap_start)) ^^
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	120	{ case x ~ Some(y ~ z ~ w) =>
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	121	result(x + y + z + w, if (w == "\"") Scan.Finished else ML_String)
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	122	case x ~ None => result(x, ML_String) }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	123	case _ => failure("")
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	124	}
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	125	}
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	126
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	127
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	128	/* ML comment */
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	129
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	130	private val ml_comment: Parser[Token] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	131	comment ^^ (x => Token(Kind.COMMENT, x))
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	132
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	133	private def ml_comment_line(ctxt: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	134	comment_line(ctxt) ^^ { case (x, c) => (Token(Kind.COMMENT, x), c) }
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	135
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	136
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	137	/* delimited token */
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	138
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	139	private def delimited_token: Parser[Token] =
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	140	ml_char \| (ml_string \| ml_comment)
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	141
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	142	private val recover_delimited: Parser[Token] =
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	143	(recover_ml_char \| (recover_ml_string \| recover_comment)) ^^ (x => Token(Kind.ERROR, x))
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	144
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	145
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	146	private def other_token: Parser[Token] =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	147	{
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	148	/* identifiers */
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	149
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	150	val letdigs = many(character(Symbol.is_ascii_letdig))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	151
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	152	val alphanumeric =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	153	one(character(Symbol.is_ascii_letter)) ~ letdigs ^^ { case x ~ y => x + y }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	154
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	155	val symbolic = many1(character("!#$%&*+-/:<=>?@\\^`\|~".contains(_)))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	156
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	157	val ident = (alphanumeric \| symbolic) ^^ (x => Token(Kind.IDENT, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	158
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	159	val long_ident =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	160	rep1(alphanumeric ~ "." ^^ { case x ~ y => x + y }) ~
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	161	(alphanumeric \| (symbolic \| "=")) ^^
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	162	{ case x ~ y => Token(Kind.LONG_IDENT, x.mkString + y) }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	163
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	164	val type_var = "'" ~ letdigs ^^ { case x ~ y => Token(Kind.TYPE_VAR, x + y) }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	165
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	166
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	167	/* numerals */
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	168
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	169	val dec = many1(character(Symbol.is_ascii_digit))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	170	val hex = many1(character(Symbol.is_ascii_hex))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	171	val sign = opt("~") ^^ { case Some(x) => x case None => "" }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	172	val decint = sign ~ dec ^^ { case x ~ y => x + y }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	173	val exp = ("E" \| "e") ~ decint ^^ { case x ~ y => x + y }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	174
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	175	val word =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	176	("0wx" ~ hex ^^ { case x ~ y => x + y } \| "0w" ~ dec ^^ { case x ~ y => x + y }) ^^
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	177	(x => Token(Kind.WORD, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	178
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	179	val int =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	180	sign ~ ("0x" ~ hex ^^ { case x ~ y => x + y } \| dec) ^^
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	181	{ case x ~ y => Token(Kind.INT, x + y) }
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	182
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	183	val real =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	184	(decint ~ "." ~ dec ~ (opt(exp) ^^ { case Some(x) => x case None => "" }) ^^
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	185	{ case x ~ y ~ z ~ w => x + y + z + w } \|
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	186	decint ~ exp ^^ { case x ~ y => x + y }) ^^ (x => Token(Kind.REAL, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	187
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	188
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	189	/* main */
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	190
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	191	val space = blanks1 ^^ (x => Token(Kind.SPACE, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	192
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	193	val keyword = literal(lexicon) ^^ (x => Token(Kind.KEYWORD, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	194
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	195	val bad = one(_ => true) ^^ (x => Token(Kind.ERROR, x))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	196
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	197	space \| (recover_delimited \|
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	198	(((word \| (real \| (int \| (long_ident \| (ident \| type_var))))) \|\|\| keyword) \| bad))
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	199	}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	200
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	201
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	202	/* token */
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	203
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	204	def token: Parser[Token] = delimited_token \| other_token
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	205
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	206	def token_line(ctxt: Scan.Line_Context): Parser[(Token, Scan.Line_Context)] =
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	207	{
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	208	val other = (ml_char \| other_token) ^^ (x => (x, Scan.Finished))
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	209
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	210	ml_string_line(ctxt) \| (ml_comment_line(ctxt) \| other)
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	211	}
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	212	}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	213
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	214
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	215	/* tokenize */
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	216
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	217	def tokenize(input: CharSequence): List[Token] =
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	218	{
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	219	Parsers.parseAll(Parsers.rep(Parsers.token), new CharSequenceReader(input)) match {
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	220	case Parsers.Success(tokens, _) => tokens
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	221	case _ => error("Unexpected failure of tokenizing input:\n" + input.toString)
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	222	}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	223	}
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	224
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	225	def tokenize_line(input: CharSequence, context: Scan.Line_Context)
1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	226	: (List[Token], Scan.Line_Context) =
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	227	{
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	228	var in: Reader[Char] = new CharSequenceReader(input)
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	229	val toks = new mutable.ListBuffer[Token]
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	230	var ctxt = context
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	231	while (!in.atEnd) {
55510 1585a65aad64 tuned signature -- emphasize line-oriented aspect; wenzelm parents: 55505 diff changeset	232	Parsers.parse(Parsers.token_line(ctxt), in) match {
55499 2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	233	case Parsers.Success((x, c), rest) => { toks += x; ctxt = c; in = rest }
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	234	case Parsers.NoSuccess(_, rest) =>
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	235	error("Unexpected failure of tokenizing input:\n" + rest.source.toString)
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	236	}
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	237	}
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	238	(toks.toList, ctxt)
2581fbee5b95 partial scans via ML_Lex.tokenize_context; wenzelm parents: 55497 diff changeset	239	}
55497 c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	240	}
c0f8aebfb43d lexical syntax for SML (in Scala); wenzelm parents: diff changeset	241

author	wenzelm
	Sun, 16 Feb 2014 13:18:08 +0100
changeset 55510	1585a65aad64
parent 55505	2a1ca7f6607b
child 55512	75c68e05f9ea
permissions	-rw-r--r--