Skip to content

Commit

Permalink
Make a progress.
Browse files Browse the repository at this point in the history
  • Loading branch information
atom-l committed Mar 25, 2024
1 parent 8e93bcf commit 63e63d5
Showing 1 changed file with 175 additions and 0 deletions.
175 changes: 175 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -3069,3 +3069,178 @@ Lua会使用四个函数来初始化这个表。
如果在其中查找名称 foo.a ,则会先后尝试打开这些文件: ./foo/a.lua、./foo/a.lc、以及 /usr/local/foo/a/init.lua 。

如果成功了,则返回第一个遇到的可以用读模式打开的文件名(在此之后会关闭文件)。否则返回**fail**加上一个错误消息。(这个错误消息列出了每个文件打不开的原因。)


## 6.4 - 字符串操作
此库提供了字符串操作的通用函数,例如查找和提取子串,或是模式匹配。在Lua中对字符串使用索引时,第一个字符的位置是1(而不是像C代码中的0)。索引可以是负数,以表示从末尾开始倒数的下标。例如最后一个字符的位置是-1,以此类推。

字符串库所提供的函数都放在名为 string 的表中。其同时会设置字符串值的元表,其中 __index 字段指向了 string 表。因此你可以使用面向对象的风格来调用字符串函数。例如 string.byte(s,i) 可以写成 s:byte(i) 的形式。

字符串库中,字符是假定为单字节编码的。

### string.byte (s [, i [, j]])
返回字符串中索引 i 到索引 j 之间的(s\[i\], s\[i+1\], ..., s\[j\]) 的各个字符的数值。参数 i 的默认值为1,j 的默认值为 i 的值。此处遵循和[string.sub](#)中一样的索引规则。

其由字符转换而来的数值在各平台之间不一定都相同。

### string.char (···)
接收零个或多个整数参数。返回一个字符串,其长度为传入的参数数量,其中每个字符依次为各参数在内部字符编码中所对应的字符。

其中的编码数值在各平台之间不一定都相同。

### string.dump (function [, strip])
返回包含所给函数的二进制表示(即*二进制块 binary chunk* )的字符串,之后对该字符串调用[load](#load-chunk--chunkname--mode--env)会返回该函数的拷贝(但是其上值都是新创建的)。如果参数 strip 为真值,那么其二进制块中将不会把该函数所有的调试信息都包含进去,由此可以节省空间。

对于带有上值的函数,二进制块只会存储其上值的数量。被(再次)加载后,这些上值都会是新实例。(相关细节请参见[load](#load-chunk--chunkname--mode--env)函数。必要时你可以使用调试库来序列化或重新加载这些函数的上值。)

### string.find (s, pattern [, init [, plain]])
在字符串 s 中查找 pattern 参数的第一个匹配(参见[6.4.1](#))。如果找到了,那么 find 函数会分别返回匹配位置的开始和结束索引;否则返回**fail**。第三个可选参数 init 表明从哪里开始搜索,其默认值为1并且可以是负数。第四个参数 plain 为**treu**时会关闭模式匹配机制,从而做直接“查找子串”的操作,参数 pattern 中内容都视为无特殊含义的字符。

如果匹配式 pattern 捕获到了,则表示匹配成功并且会在两个索引后一并返回捕捉到的值。

### string.format (formatstring, ···)
第一个参数必须为字符串,后边跟不定数量的参数,返回所组成的格式化字符串。这里的字符串格式化规则与ISO标准C函数 sprintf 相同。但是不支持转义符 F、n、*、h、L、和 l ,并且多出一个额外的转义符 q 。如果有宽度和精度,则限制为两位数。

转义符对布尔、nil、number和字符串的转移结果都是一个定义在Lua源码中的有效常量值。布尔和 nil 的结果都是直接写在代码中的(true、false、nil)。浮点数结果为一个十六进制数,以保证完整精度。字符串的转换结果会被放在双引号之间,会在必要的时候使用合适的转义符,此结果可以在之后供Lua解释器成功读入。例如这样的调用:
```lua
string.format('%q', 'a string with "quotes" and \n new line')
```

会生成这样的字符串:

<pre>"a string with \"quotes\" and \
new line"</pre>

该转义符不支持修饰符(如标志、宽度、精度)。

转义符 A、a、E、e、f、G、以及 g 都需要一个数字作为参数。转义符 c、d、i、o、u、X、以及 x 需要的是整数。当Lua是由C89标准编译出时,转义符 A 和 a (十六进制浮点数) 都不支持修饰符。

转义符 s 需要一个字符串作为参数,如果传入的参数不是个字符串,那么其将遵循和[tostring](#tostring-v)相同的规则转换为一个字符串。如果该转义符有任何修饰符,则对应的字符串参数不应当包含任何嵌入的零。

转义符 p 会使用[lua_topointer](#lua_topointer)来格式化指针。其会给出一个可以唯一标识表、userdata 、Lua线程、字符串和函数的字符串。对于其他类型的值(number、nil、布尔值),转义符将返回表示空指针的字符串。

### string.gmatch (s, pattern [, init])
返回一个迭代器函数,每次调用该迭代器函数都会返回下一个在字符串 s 中对 pattern 的捕获(参见[6.4.1](#))。如果 pattern 没有指定的捕获,那么每次调用就匹配整个 pattern 内容。第三个参数 init 是可选的数字,其表明匹配的起始位置,默认为1且可以传负数。

举个例子,以下这个循环将迭代字符串中的每个单词,并分行打印出来:
```lua
s = "hello world from Lua"
for w in string.gmatch(s, "%a+") do
print(w)
end
```

下边的例子会将给定字符串中的每个键值对收集起来:
```lua
t = {}
s = "from=world, to=Lua"
for k, v in string.gmatch(s, "(%w+)=(%w+)") do
t[k] = v
end
```

对于此函数,pattern 开头中的锚点 '^' 将不会生效,因为其会阻止迭代。

### string.gsub (s, pattern, repl [, n])
拷贝整个字符串 s (或者前 n 个,如果传了此参数的话),将其中每个遇到的 pattern 匹配(参见[6.4.1](#))替换为 repl 表示的字符串,并将最终的字符串返回。参数 repl 可以是字符串、表、或者函数。同时 gsub 会将遇到的匹配次数作为第二个返回值返回。函数名 gsub 出自*全局替换 Global SUBstitution*

如果参数 repl 是一个字符串,那么其值将被用来做替换。"%" 符为转义符:任何包含在 repl 中的 *%d* 都被认为是第 *d* 个捕获的子串,其中 *d* 的值可以是1到9,*%0* 表示整个捕获,*%%* 表示单个 "%" 符。

如果 repl 是个表,则每次匹配时都会使用捕获中的第一个子串作为键来对该表作查询。

如果 repl 是个函数,则每次匹配时都会将所有的捕获先后作为参数传入来调用该函数。

如果从 repl 表或函数中得到的返回是一个字符串或 number ,那么其将会被作为替换用的字符串。否则如果返回的是**nil**或者**false**,那么将不会做替换(即原匹配维持原样)。

以下是部分示例:
```lua
x = string.gsub("hello world", "(%w+)", "%1 %1")
--> x="hello hello world world"

x = string.gsub("hello world", "%w+", "%0 %0", 1)
--> x="hello hello world"

x = string.gsub("hello world from Lua", "(%w+)%s*(%w+)", "%2 %1")
--> x="world hello Lua from"

x = string.gsub("home = $HOME, user = $USER", "%$(%w+)", os.getenv)
--> x="home = /home/roberto, user = roberto"

x = string.gsub("4+5 = $return 4+5$", "%$(.-)%$", function (s)
return load(s)()
end)
--> x="4+5 = 9"

local t = {name="lua", version="5.4"}
x = string.gsub("$name-$version.tar.gz", "%$(%w+)", t)
--> x="lua-5.4.tar.gz"
```

### string.len (s)
接收一个字符串参数并返回其长度。空串 "" 的长度为0。嵌入的零值也会被计数,所以 "a\000bc\000" 的长度为5。

### string.lower (s)
接收一个字符串参数并拷贝它(不会改动原有的字符串),将其中每个大写的字符都替换为对应的小写形式,将最终的字符串返回。其他的字符都不会被更改。对于大写字母的定义取决于当前的区域设置。

### string.match (s, pattern [, init])
在字符串 s 中查找 pattern 的第一个*匹配*(参见[6.4.1](#))。如果找到了,match 会将 pattern 的捕获返回;否则返回 **fail**。如果 pattern 不含有捕获内容,那么将返回整个 pattern 的匹配。第三个参数 init 是一个可选数字参数,其表明搜索的起始位置;默认值为1且可以为负值。

### string.pack (fmt, v1, v2, ···)
返回一个包含了 v1、v2等值的二进制字符串,该字符串是通过格式化字符串 fmt 序列化而来的(参见[6.4.2](#))。

### string.packsize (fmt)
返回[string.pack](#stringpack-fmt-v1-v2)的结果的长度。该格式化字符串不可以包含变长的选项 's' 或 'z' (参见[6.4.2](#))。

### string.rep (s, n [, sep])
返回一个字符串,其由字符串 s 的 n 个拷贝组成,每个拷贝之前用 sep 间隔开。参数 sep 的默认值为空串(即没有间隔)。如果参数 n 不为正数则返回空串。

(要注意该函数很容易耗尽你的内存。)

### string.reverse (s)
返回所给字符串 s 的翻转。

### string.sub (s, i [, j])
截取字符串 s 从第 i 个到第 j 个字符并返回;其中 i 和 j 可以是负数。如果 j 缺省,则会被当作 -1 处理(即字符串末尾)。例如,调用 string.sub(s,1,j) 会返回 s 中前 j 个字符,而 string.sub(s, -i) (i为整数)则返回 s 中后 j 个字符。

在转换完负数索引后,如果 i 小于1,则置为1,如果 j 大于字符串长度,则置为字符串长度。在此之后,如果 i 大于 j ,该函数会返回一个空串。

### string.unpack (fmt, s [, pos])
返回以格式化字符串 fmt 打包(参见[string.pack](#stringpack-fmt-v1-v2))而来的二进制字符串 s 中的值。可选参数 pos 标记了在 s 中读取的起始位置。读取完这些值后,该函数同时还返回在 s 中第一个不可读字节的位置。

### string.upper (s)
接收一个字符串参数并拷贝它(不会改动原有的字符串),将其中每个小写的字符都替换为对应的大写形式,将最终的字符串返回。其他的字符都不会被更改。对于小写字母的定义取决于当前的区域设置。

### 6.4.1 - 模式匹配
模式 pattern 在Lua中由常规字符串描述,其被解释为模式以用于模式匹配函数 [string.find](#stringfind-s-pattern--init--plain)[string.gmatch](#stringgmatch-s-pattern--init)[string.gsub](#stringgsub-s-pattern-repl--n)、以及[string.match](#stringmatch-s-pattern--init)中。本节会讲述相关语法以及这些字符串的含义。

#### 字符类
用以表示一类字符。描述各类字符时,可以使用以下字符的组合:
* ***X*** (此处的 *x* 不是*魔法字符 magic characters* ^$()%.[]\*+-? 中的任意一个)表示字符 *x* 本身。
* **.:** 表示任意字符。
* **%a:** 表示任意字母。
* **%c:** 表示任意控制字符。
* **%d:** 表示任意单个数字(0-9)。
* **%g:** 表示出了空白符以外的任意可打印字符。
* **%l:** 表示任意小写字母。
* **%p:** 表示任意的标点符号。
* **%s:** 表示任意的空白字符。
* **%u:** 表示任意大写字母
* **%w:** 表示任意的字母或数字
* **%x:** 表示十六进制数字符号。
* **%*x*** (此处的 *x* 为任意非字母、非数字的字符)表示字符 *x* 。这是转义*魔法字符 magic characters* 的标准方式。所有非字母、非数字的字符 (包括所有标点,也包括非魔法字符) 都可以在匹配模式串中使用 '%' 前缀以表示自身。
* **\[set\]** 表示包含在 *set* 中的字符集。可以使用按照字符值升序排列的两个字符来表示一个范围,两个字符使用 '-' 连接。上边说的 *%x* 形式表示的特殊字符也可以用在这里。其他在 *set* 中的字符则表示它们本身。例如,\[%w_\] (或者 \[_%w\]) 表示一个字母或数字加上一个下划线。\[0-7\] 表示0到7之间的数字,\[0-7%l%-\] 则表示一个0到7之间的数字加上一个小写字母以及一个连字符。<br/>方括号可以直接放在 *set* 中的第一个位置,连字符可以直接放在开始或结束的位置,就可以表示它们自身(当然使用转义也可以)。 <br/>将范围表示和类表示混合使用的行为是未定义的,l类似 \[%a-z\] 或者 \[a-%%\] 的模式串是没有意义的。
* **\[^set\]** 表示 *set* 的补集,关于 *set* 可以参见上边的说明。

对于所有表示单个字母的字符类表示(例如 %a、%c 等),其对应的大写形式表示了它们的补集。例如,%S 表示任意非空字符。

对于字母、空格以及其他字符组的定义取决于当前的区域设置。例如 \[a-z\] 可能并不等效于 %l 。

#### 模式项
一个*模式项 pattern item* 可以是:
* 单个字符类,将匹配该类中的任何单个字符。
* 单个字符类后跟一个 '*',将匹配该类中的零个或多个字符。该重复项始终会匹配尽可能长的串。
* 单个字符类后跟一个 '+',将匹配该类中的一个或多个字符。该重复项始终会匹配尽可能长的串。
* 单个字符类后跟一个 '-',也将匹配该类中的零个或多个字符。但不同于 '*' 的是,其始终匹配尽可能短的串。
* 单个字符类后跟一个 '?',将匹配零个或一个遇到该类中的字符。它尽可能地只匹配一个。
* *%n* ,此处 n 为1到9之间的字符;该项匹配一个等于第 n 个匹配项的子串(见下文)。
* *%bxy* ,此处的 x 和 y 是两个不同的字符,

0 comments on commit 63e63d5

Please sign in to comment.