关于application/x-www-form-urlencoded编码

桃扇骨 2022-05-27 07:54 252阅读 0赞

同事遇到在servlet端通过request对象getInputStream读取POST过来的数据,却读不到的问题,怀疑是tomcat的问题。查了一下Content-typeapplication/x-www-form-urlencoded,估计是被解析成了parameters,果然在他获取流之前,有过request.getParameter的操作。

熟悉servlet的话,这个问题应该算常识了。它其实跟容器无关,所有的servlet容器都是这样的行为。几年前在实现一个网关代理的时候就遇到过这个问题,当时使用的是jetty,发现POST过来的数据读不到,也是application/x-www-form-urlencoded编码,断点跟踪发现是在获取流之前有过request.getParameter,数据会被解析,并且后续数据流不可再被读取。

在servlet规范3.1.1节里,对POST数据何时会被当做parameters有描述:

  1. 1. The request is an HTTP or HTTPS request.
  2. 2. The HTTP method is POST.
  3. 3. The content type is application/x-www-form-urlencoded.
  4. 4. The servlet has made an initial call of any of the getParameter family of methods on the request object.
  5. If the conditions are met, post form data will no longer be available for reading directly from the request objects input stream.

规范里已经明确的声明当请求满足: 1) http/https, 2) POST, 3) Content-type 是application/x-www-form-urlencoded, 4) 调用过getParameter方法;则数据会被当做请求的paramaters,而不能再通过 request 的 inputstream 直接读取。

所以不论tomcat、jetty还是其他servlet容器都遵循这个方式。不过话说回来,为什么application/x-www-form-urlencoded编码的数据会被当做parameter来解析呢?

使用http上传数据可以用GET或POST,使用GET的话,只能通过uri的queryString形式,这会遇到长度的问题,各个浏览器或server可能对长度支持的不同,所以到要提交的数据如果太长并不适合使用GET提交。

采用POST的话,既可以在uri中带有queryString也可以将数据放在body中。body内容可以有多种编码形式,其中application/x-www-form-urlencoded编码其实是基于uri的percent-encoding编码的,所以采用application/x-www-form-urlencoded的POST数据和queryString只是形式不同,本质都是传递参数。

在tomcat的Request.parseParameters方法里,对于application/x-www-form-urlencoded是有做判断的,对这种编码会去解析body里的数据,填充到parameters里,所以后续想再通过流的方式读取body是读不到的(除非你没有触发过getParameter相关的方法)。

在HTML4之前,表单数据的编码方式只有application/x-www-form-urlencoded这一种(现在默认也是这种方式),因为早期的时候,web上提交过来的数据也是非常简单的,基本上以key-value形式为主,所以表单采用application/x-www-form-urlencoded这种编码形式也没什么问题。

在HTML4里又引入了multipart/form-data编码,对于这两种编码如何选择,请参考这里。

发表评论

表情:
评论列表 (有 0 条评论,252人围观)

还没有评论,来说两句吧...

相关阅读

    相关 关于计算机编码的研究

    说到编码,学计算机的肯定都知道ASCII,这是一套编码规则,即用7bit来表示128个字符(符号),可以认为就是我们键盘上的那些符号们,他的官方名称叫做:美国信息交换标准代码,

    相关 关于Chunked编码

    在有时服务器生成HTTP回应是无法确定消息大小的,这时用Content-Length就无法事先写入长度,而需要实时生成消息长度,这时服务器一般采用Chunked编码。   

    相关 【C#关于编码那点事】

    在开发过程中,往往会遇到很多关于字符串编码的一些问题。 如说乱码呀,在url跳转过程中参数传递不正确,加密的字符串在请求时服务端介绍解码处理异常。 经过RSA签名的数据在请

    相关 关于编码转换

    今天编译c++代码输出一个中文字符串で时候没有输出 ,因此总结了一下字符编码的过程。 编写源代码时,文件首地址0xfffe代表该文件的编码为UNICO

    相关 关于字体编码

    字体编码 输入编码 汉字交换码 汉字内码 关于GB2312 输入编码:区位码:行号+列号(十进制) 交换吗:国标码:区位码转十六进制后加上2

    相关 关于base64编码

    今天和同事聊到在给前端传输 验证码的时候,涉及到了这个关于base64编码的问题。 可以通过编码的格式来获取图片 Base64是网络上最常见的用于传输8Bit字节码