flex&bison 学习笔记 ╰半夏微凉° 2023-05-31 02:45 1阅读 0赞 [点击打开链接][Link 1] 最近在学习开源数据库 PostgreSQL 的解析器部分,需要用到 flex 和 bison,花了一些时间学习了一下,把目前已经搞清楚的地方和大家交流交流。如果有不对的地方,欢迎指正 # 1. flex 和 bison 是什么东西?用来干什么的? # flex和 bison 是两个用来生成程序的工具(这两个工具的用途很广泛,这里只说它在 PostgreSQL 中的使用)。在 PostgreSQL 中,它们被用来生成 SQL 语句的词法和语法分析器。注意,flex 和 bison 本身不是词法或语法分析器,利用它们生成的程序才是。即: ![1337267713_7633.jpg][] # 2. 词法和语法分析器是怎么工作的? # 任何一种语言,都是有一定的语法规则的,不管是人类的语言,还是计算机语言(如 C/C++ 编程语言等),因此,可以利用这些已知的规则,来对对应的语言进行分析。举个例子,汉语中的一个句子,基本的格式是:主(名词/代词)+ 谓(动词)+ 宾(名词/代词),当你在说一句话的时候,我们把你说的话(输入)先拆分成一个个有意义的字(或词),然后对照该语法,看词性及组合,是否符合既定的语法规范,如果符合,则可以知道你说的话是符合规范的。比如,你说“我吃饭”,输入会被依次拆成“我”“吃”“饭”,他们分别是代词、动词、名词,因此符合上面的语法规则,因此这句话是 ok 的。而如果说“我饭吃”,则会发现与上面的规范不符合(也没有其他符合的规范),因此这句话语法上是有问题的。flex 和 bison 生成的词法和语法分析器就是干的这两件事:flex 生成的词法分析器将输入拆分成一个一个的记号(token),bison 生成的语法分析器根据已有的规则,分析这些 token 的组合,是否是符合语法规范的。 ![1337267636_7135.jpg][] # 3. flex/bison 源文件格式 # 上面已经提到,flex/bison是通过处理其源文件来生词法和语法分析器的,flex 源文件的扩展名为 .l,bison 源文件的扩展名为 .y。它们的格式比较类似,分为三个段: /\* 定义段 \*/ %\{ … %\} … %% /\* 规则段 \*/ … %% /\* 用户子程序段 \*/ … 三个段用 %% 进行分离, (1)定义段,这一部分一般是一些声明及选项设置等。C 语言的注释、头文件包含等一般就放在 %\{ %\} 之间,这一部分的内容会被直接复制到输出文件的开头部分,选项后面再说; (2)规则段为一系列匹配模式和动作,模式一般使用正则表达式书写,动作部分为 C 代码: *模式1 \{* *动作1(C 代码) \}* 在输入和模式 1 匹配的时候,执行动作部分的代码; (3)用户子程序段,这里为 C 代码,会被原样复制到输出文件中,一般这里定义一些辅助函数等,如动作代码中使用到的辅助函数。 词法分析器所做的,就是在输入中寻找字符的模式(pattern)。在词法分析器中,我们要给定我们需要识别的模式,因此需要使用一种方式来描述模式,这就是常用的正则表达式。正则表达式在这里不多讲,如果完全不了解,可以问问谷歌或者度娘,花个十几二十分钟看看最基本的部分,基本就能应付现在的需要了。来看一个简单地例子,实际地认识认识(强烈建议自己动手敲代码实践哦!)。 # 4. flex 小试牛刀 # 编写以下 flex 源文件(flex\_1.l,注意后缀名是 l (字母 L)哦!): %\{ /\* 这里的部分会被直接拷贝到生成的 .c 文件的开始部分,在这里可以包含需要使用的头文件,如 stdio.h \*/ \#include <stdio.h> %\} /\* 下面这个 %% 就表示定义段结束了,规则段开始了 \*/ %% /\* 规则段开始了,下面定义了四条规则,前面的部分就是模式,处于一行的开始位置,后面的部分就是动作,也就是,输入中匹配到了这个模式的时候,对应的进行什么动作,就像你蹲在战壕里,前面出来一个人,你通过匹配知道是敌人,你就开枪一样。第一个模式也就是匹配连续的一个到多个字符,匹配到之后就将其打印出来。注意到 yytext,在输入匹配到该模式的时候,匹配的部分就存储在这个 yytext 里面啦!这里把它作为字符串直接输出就可以了;第二条规则的模式部分,就是匹配连续的一个或者多个数字,匹配到了之后,也是以字符串的形式输出(对于输入,就是一连串的字符,什么转换之类的,就得我们自己操心了);第三条规则的模式部分,就是匹配一个换行符了,并且匹配到之后就打印一个新行的信息;第四条规则的模式部分,是一个点。正则表达式里面这个也就是匹配任何出了 \\n 之外的字符。因此,下面的游戏规则就是,匹配到英语单词(当然,不一定是正确的单词,比如 niubi,暂时先不计较这个),则将该单词输出,匹配到连续数字,将其输出;匹配到换行符,打印一条信息;匹配到任何其他的字符,则直接忽略(\{\} 也就是动作是空的,就是什么都不做了。什么都不做了那程序该干啥呢?当然是继续识别后面的输入啦!) \*/ \[a-zA-Z\]+ \{ printf(“get word: %s”, yytext); \} \[0-9\]+ \{printf(“get number:%s”, yytext); \} \\n \{printf(“New line\\n”); \} . \{ \} %% /\* 规则段之后就是用户子程序段了。这里现在我们就空着,先重点关注一下规则段的再说。其实上面这第二个%% 也是可以去掉的哦!不妨动手试试吧! \*/ 好了,flex 源文件写好了,你一定迫不及待想看看跑起来的样子吧?现在就开始(找个有 flex 的环境,linux 一般都自带,如果你实在不想用 Linux,那就在 windows 上装一个吧!个人建议直接在 windows 上装一个 cygwin,很多 GNU 的工具都可以使用): tom@linux-oqq5:~/mycode/flex\_bison>flex flex\_1.l tom@linux-oqq5:~/mycode/flex\_bison>ll total 48 \-rw-r--r-- 1 tom users 170 May 17 21:53 flex\_1.l \-rw-r--r-- 1 tom users 41617 May 1722:08 lex.yy.c 可以看到,生成了一个名字为lex.yy.c 的 C 源码文件,如果有兴趣的话,可以打开该 C 文件看看。这一步,也就是 flex 通过 flex 源码文件,生成了一个词法分析器的 C 源码文件了。那么下一步做什么呢?当然就是编译这个词法分析器的源码文件,生成词法分析器程序啦(暂且就叫它 scanner 吧,注意要带上-lfl链接flex的库,否则会报一些函数找不到)! tom@linux-oqq5:~/mycode/flex\_bison> gcc -o scanner lex.yy.c -lfl tom@linux-oqq5:~/mycode/flex\_bison> ll total 68 \-rw-r--r-- 1 tomusers 170 May 17 21:53 flex\_1.l \-rw-r--r-- 1 tom users41617 May 17 22:08 lex.yy.c \-rwxr-xr-x 1 tom users17447 May 17 22:16 scanner 注意到我们在编译的时候,链接了一个库 fl,这个是 flex 提供的一个库,生成的词法分析器里面会用到这个库里面的一些东西。这个里面也包括内置的 main 函数,回头看看,上面的 flex 源文件中,是不是没有 main 函数的?最后的入口 main,就是来自这个库啦!当然,也可以自己写 main 函数,就在用户子程序段,不过得调用词法分析器的入口程序才行哦!这个入口函数就是 yylex()。一会儿再看看最后的那个例子吧!现在可以看到,生成了一个可执行程序 scanner,赶紧试试吧! 1 tom@linux-oqq5:~/mycode/flex\_bison> ./scanner 2 Hello, scanner! This isa test string: hi, 123 3 get word: Hello 4 get word: scanner 5 get word: This 6 get word: is 7 get word: a 8 get word: test 9 get word: string 10 get word: hi 11 get number: 123 12 New line 为了方便说明,我在上面的各行添加了行号。程序启动后,等待你的输入,我们输入第二行所示的内容,然后敲回车键,则输出如3-12 行所示。从上面的结果可以很清晰地看到,所有的英文单词都被识别了并输出了出来(3-10行),所有数字被识别了出来(11行),最后敲的换行符也被识别出来了(12行),而其他的所有符号,如,!:和空格等,都被忽略掉了,从输出结果中,我们找不到它们的一点踪迹。 通过上面这个例子,应该知道flex的大概的工作原理了吧!当然,我们这里举的例子很简单,动作部分也就是简单地打印。那么,在真实的情况下,又是怎么样的呢?其实,道理是一样的。一般词法分析器和语法分析器会一起使用,语法分析器会调用词法分析器来读取输入,词法分析器匹配到特定的模式后,就向语法分析器报告(类型和值之类的)。也就是说,词法分析器的工作,就是读取、报告、再读、再报告,而语法分析器的工作,就是调用词法分析器读取,以及根据词法分析器的反馈,看输入是否和语法规则匹配。这些,到后面讲到的时候再具体说吧! 再贴一个例子,就不细说了,自己敲敲代码玩玩去体会吧! 下面的 flex 源文件最终生成一个统计输入行数、单词数以及字符个数的程序,类似 Linux 上的 wc 命令,注意要结束输入得到统计结果的时候,按 ctrl + d: %\{ int chars = 0; int words = 0; int lines = 0; %\} %% \[a-zA-Z\]+\{words++; chars += strlen(yytext); \} \\n \{ chars++; lines++; \} . \{ chars++; \} %% main(int argc, char \*\*argv) \{ yylex(); printf("%8d%8d%8d\\n", lines, words, chars); \} [Link 1]: http://https//blog.csdn.net/youngtiger86/article/details/7578175 [1337267713_7633.jpg]: https://img-my.csdn.net/uploads/201205/17/1337267713_7633.jpg [1337267636_7135.jpg]: https://img-my.csdn.net/uploads/201205/17/1337267636_7135.jpg
相关 「学习笔记」学习笔记合集 可以点击 [https://www.cnblogs.com/hongzy/tag/%E7%AC%94%E8%AE%B0/][https_www.cnblogs.com_hong 淩亂°似流年/ 2023年06月05日 12:48/ 0 赞/ 35 阅读
相关 学习笔记 学习笔记 sudo adduser lilei sudo usermod -G sudo lilei sudo deluse 客官°小女子只卖身不卖艺/ 2022年11月26日 12:58/ 0 赞/ 40 阅读
相关 学习笔记 \ajax: 1、概念:异步的JavaScript 和 xml 1.1异步和同步:客户端和服务器端相互通信的基础上 \客户端必须等待服务器端的响应。在等待的期间客户 深藏阁楼爱情的钟/ 2022年10月29日 13:24/ 0 赞/ 296 阅读
相关 学习笔记 一. CSS 如何实现文字的垂直居中 1. 二.问题记录 1.创建新的JSP页面的时候报错:The superclass “javax.servlet.http.H 超、凢脫俗/ 2022年08月20日 09:30/ 0 赞/ 161 阅读
相关 【学习笔记】git学习笔记 使用git的好处 可以保存每个版本,只要在每个版本做完后进行上传 ![这里写图片描述][70] 可以异地读取更新 爱被打了一巴掌/ 2022年05月14日 09:10/ 0 赞/ 423 阅读
相关 学习笔记 我的第一天学习c\ 1、c\学习网址 [https://docs.microsoft.com/zh-cn/dotnet/csharp/programming-guide 矫情吗;*/ 2022年05月08日 06:16/ 0 赞/ 341 阅读
相关 学习笔记 测试 ORM JPA EJB JPQL MOM JMS ORM 对象关系映射 英语:Object Relational M 爱被打了一巴掌/ 2022年02月16日 01:57/ 0 赞/ 408 阅读
相关 [笔记] Docker 学习笔记 1. 什么是 Docker > 官方文档:[链接][Link 1],中文文档:[链接][Link 2] Docker 属于 Linux 容器的一种封装,提供简单易用的容 缺乏、安全感/ 2021年11月27日 02:01/ 0 赞/ 612 阅读
相关 学习笔记 1、js如何将136分钟转化为几小时,几分钟 return (Math.floor(minutes/60) + "小时" + (minutes%60) + "分" 爱被打了一巴掌/ 2021年07月25日 23:46/ 0 赞/ 1066 阅读
还没有评论,来说两句吧...