• Home
  • Line#
  • Scopes#
  • Navigate#
  • Raw
  • Download
1# 方舟字节码文件格式
2方舟字节码文件是ArkTS/TS/JS编译后的二进制产物。本文详细介绍了方舟字节码文件的格式,旨在帮助开发者深入了解构成字节码的各个部分,从而指导开发者进行字节码的分析和修改工作。
3
4
5## 约束
6本文仅适用于版本号为12.0.6.0的方舟字节码(版本号为方舟编译器内部保留字段,开发者无需关注)。
7
8
9## 字节码文件数据类型
10
11### 整型
12
13| **名称**        | **说明**                           |
14| -------------- | ---------------------------------- |
15| `uint8_t`      | 8-bit无符号整数。                  |
16| `uint16_t`     | 16-bit无符号整数,采用小端字节序。   |
17| `uint32_t`     | 32-bit无符号整数,采用小端字节序。   |
18| `uleb128`      | leb128编码的无符号整数。             |
19| `sleb128`      | leb128编码的有符号整数。             |
20
21
22### 字符串
23
24- 对齐方式:单字节对齐。
25- 格式:
26
27| **名称** | **格式** | **说明**                                               |
28| -------------- | -------------- | ------------------------------------------------------------ |
29| `utf16_length`   | `uleb128`  | 值为`len << 1 \| is_ascii`,其中`len`是字符串在UTF-16编码中的大小,`is_ascii`标记该字符串是否仅包含ASCII字符,可能的值是0或1。 |
30| `data`           | `uint8_t[]` | 以'\0'结尾的MUTF-8编码字符序列。  |
31
32
33### TaggedValue
34
35- 对齐方式:单字节对齐。
36- 格式:
37
38| **名称** | **格式** | **说明**                                |
39| -------------- | -------------- | -------------------------------------------- |
40| `tag`          | `uint8_t`      | 表示数据种类的标记。                           |
41| `data`         | `uint8_t[]`    | 根据不同的标记,`data`是不同类型的数据或者为空。 |
42
43
44## TypeDescriptor
45TypeDescriptor是类([Class](#class))名称的格式,由`'L'`、`'_'`、`ClassName`和`';'`组成:`L_ClassName;`。其中,`ClassName`是类的全名,名字中的`'.'`会被替换为`'/'`。
46
47
48## 字节码文件布局
49字节码文件起始于[Header](#header)结构。文件中的所有结构均可以从`Header`出发,直接或间接地访问到。字节码文件中结构的引用方式包括偏移量和索引。偏移量是一个32位长度的值,表示当前结构的起始位置在字节码文件中相对于文件头的距离,从0开始计算。索引是一个16位长度的值,表示当前结构在索引区域中的位置,此机制将在[IndexSection](#indexsection)章节描述。
50
51字节码文件中所有的多字节值均采用小端字节序。
52
53
54### Header
55
56- 对齐方式:单字节对齐。
57- 格式:
58
59| **名称**    | **格式** | **说明**                                               |
60| ----------------- | -------------- | ------------------------------------------------------------ |
61| `magic`             | `uint8_t[8]`     | 文件头魔数,值必须是`'P' 'A' 'N' 'D' 'A' '\0' '\0' '\0'`。    |
62| `checksum`          | `uint32_t`       | 字节码文件除文件头魔数和本校验字段之外的内容的adler32校验和。 |
63| `version`           | `uint8_t[4]`     | 字节码文件的版本号([Version](#version))。 |
64| `file_size`         | `uint32_t`       | 字节码文件的大小,以字节为单位。                             |
65| `foreign_off`       | `uint32_t`       | 一个偏移量,指向外部区域。外部区域中仅包含类型为[ForeignClass](#foreignclass)或[ForeignMethod](#foreignmethod)的元素。`foreign_off`指向该区域的第一个元素。 |
66| `foreign_size`      | `uint32_t`       | 外部区域的大小,以字节为单位。                               |
67| `num_classes`       | `uint32_t`       | [ClassIndex](#classindex)结构中元素的数量,即文件中定义的[Class](#class)的数量。 |
68| `class_idx_off`     | `uint32_t`       | 一个偏移量,指向[ClassIndex](#classindex)。 |
69| `num_lnps`          | `uint32_t`       | [LineNumberProgramIndex](#linenumberprogramindex)结构中元素的数量,即文件中定义的[Line number program](#line-number-program)的数量。 |
70| `lnp_idx_off`       | `uint32_t`       | 一个偏移量,指向[LineNumberProgramIndex](#linenumberprogramindex)。 |
71| `reserved`          | `uint32_t`       | 方舟字节码文件内部使用的保留字段。                           |
72| `reserved`          | `uint32_t`       | 方舟字节码文件内部使用的保留字段。                           |
73| `num_index_regions` | `uint32_t`       | [IndexSection](#indexsection)结构中元素的数量,即文件中[IndexHeader](#indexheader)的数量。 |
74| `index_section_off` | `uint32_t`       | 一个偏移量,指向[IndexSection](#indexsection)。 |
75
76
77### Version
78字节码版本号由4个部分组成,格式为:`主版本号.次版本号.特性版本号.编译版本号`。
79
80| **名称** | **格式** | **说明**                                             |
81| -------------- | -------------- | ---------------------------------------------------------- |
82| 主版本号       | `uint8_t`        | 标识整体架构调整引入的字节码文件格式变更。                 |
83| 次版本号       | `uint8_t`        | 标识局部架构调整或者重大特性调整引入的字节码文件格式变更。 |
84| 特性版本号     | `uint8_t`        | 标识中小特性引入的字节码文件格式变更。                     |
85| 编译版本号     | `uint8_t`        | 标识缺陷修复引入的字节码文件格式变更。                     |
86
87
88### ForeignClass
89描述字节码文件中的外部类。外部类在其他文件中声明,并在当前字节码文件中被引用。
90
91- 对齐方式:单字节对齐。
92- 格式:
93
94| **名称** | **格式** | **说明**                                               |
95| -------------- | -------------- | ------------------------------------------------------------ |
96| `name`           | `String`         | 外部类的名称,命名遵循[TypeDescriptor](#typedescriptor)语法。 |
97
98
99### ForeignMethod
100描述字节码文件中的外部方法。外部方法在其他文件中声明,并在当前字节码文件中被引用。
101
102- 对齐方式:单字节对齐。
103- 格式:
104
105| **名称** | **格式** | **说明**                                               |
106| -------------- | -------------- | ------------------------------------------------------------ |
107| `class_idx`      | `uint16_t`       | 一个指向该方法所从属的类的索引,指向一个在[ClassRegionIndex](#classregionindex)中的位置,该位置的值是一个指向[Class](#class)或[ForeignClass](#foreignclass)的偏移量。 |
108| `reserved`       | `uint16_t`       | 方舟字节码文件内部使用的保留字段。               |
109| `name_off`       | `uint32_t`       | 一个偏移量,指向[字符串](#字符串),表示方法名称。 |
110| `index_data`     | `uleb128`        | 方法的[MethodIndexData](#methodindexdata)数据。 |
111
112> **注意:**
113>
114> 通过ForeignMethod的偏移量,可以找到适当的IndexHeader以解析`class_idx`。
115
116
117### ClassIndex
118ClassIndex结构的作用是通过名称快速地定位到Class的定义。
119
120- 对齐方式:4个字节。
121- 格式:
122
123| **名称** | **格式** | **说明**                                               |
124| -------------- | -------------- | ------------------------------------------------------------ |
125| `offsets`        | `uint32_t[]`     | 一个数组,数组中每个元素的值是一个指向[Class](#class)的偏移量。数组中的元素根据类的名称进行排序,名称遵循[TypeDescriptor](#typedescriptor)语法。数组长度由[Header](#header)中的`num_classes`指定。 |
126
127
128### Class
129在字节码文件中,一个类可以表示方舟字节码的一个源代码文件或者一种内置的[Annotation](#annotation)。当表示源代码文件时,类的方法对应源代码文件中的函数,类的字段对应源文件中的内部信息;当表示内置的Annotation时,类中不包含字段与方法。源代码文件中的一个类在字节码文件中表示为一个对应其构造函数的方法。
130
131- 对齐方式:单字节对齐。
132- 格式:
133
134| **名称** | **格式** | **说明**                                               |
135| -------------- | -------------- | ------------------------------------------------------------ |
136| `name`           | `String`         | Class的名称,命名遵循[TypeDescriptor](#typedescriptor)语法。 |
137| `reserved`       | `uint32_t`       | 方舟字节码文件内部使用的保留字段。                           |
138| `access_flags`   | `uleb128`        | Class的访问标志,是[ClassAccessFlag](#classaccessflag)的组合。 |
139| `num_fields`     | `uleb128`        | Class的字段的数量。                                          |
140| `num_methods`    | `uleb128`        | Class的方法的数量。                                          |
141| `class_data`     | `TaggedValue[]`  | 不定长度的数组,数组中每个元素都是[TaggedValue](#taggedvalue)类型,元素的标记是[ClassTag](#classtag)类型,数组中的元素按照标记递增排序(`0x00`标记除外)。 |
142| `fields`         | `Field[]`        | Class的字段的数组,数组中每一个元素都是[Field](#field)类型。数组长度由`num_fields`指定。 |
143| `methods`        | `Method[]`       | Class的方法的数组,数组中每一个元素都是[Method](#method)类型。数组长度由`num_methods`指定。 |
144
145
146### ClassAccessFlag
147
148| **名称** | **值** | **说明**                                               |
149| -------------- | ------------ | ------------------------------------------------------------ |
150| `ACC_PUBLIC`     | `0x0001`       | 默认属性,方舟字节码中的[Class](#class)均具备此标志。 |
151| `ACC_ANNOTATION` | `0x2000`       | 声明该类为[Annotation](#annotation)类型。 |
152
153
154### ClassTag
155
156- 对齐方式:单字节对齐。
157- 格式:
158
159| **名称** | **值** | **数量** | **格式** | **说明**                                               |
160| -------------- | ------------ | -------------- | -------------- | ------------------------------------------------------------ |
161| `NOTHING`        | `0x00`  | `1`  | `none`    | 拥有此标记的[TaggedValue](#taggedvalue),是其所在`class_data`的最后一项。 |
162| `SOURCE_LANG`    | `0x02`  | `0-1 ` | `uint8_t` | 拥有此标记的[TaggedValue](#taggedvalue)的`data`是0,表示源码语言是ArkTS/TS/JS。 |
163| `SOURCE_FILE`    | `0x07`  | `0-1`  | `uint32_t`| 拥有此标记的[TaggedValue](#taggedvalue)的`data`是一个偏移量,指向[字符串](#字符串),表示源文件的名称。 |
164
165> **注意:**
166>
167> ClassTag是`class_data`中元素([TaggedValue](#taggedvalue))所具备的标记,表头中的“数量”指的是在某一个[Class](#class)的`class_data`中拥有此标记的元素出现的次数。
168
169
170### Field
171描述字节码文件中的字段。
172
173- 对齐方式:单字节对齐。
174- 格式:
175
176| **名称** | **格式** | **说明**                                               |
177| -------------- | -------------- | ------------------------------------------------------------ |
178| `class_idx`      | `uint16_t`       | 一个指向该字段从属的类的索引,指向一个在[ClassRegionIndex](#classregionindex)中的位置,该位置的值是[Type](#type)类型,是一个指向[Class](#class)的偏移量。 |
179| `type_idx`       | `uint16_t`       | 一个指向定义该字段的类型的索引,指向一个在[ClassRegionIndex](#classregionindex)中的位置,该位置的值是[Type](#type)类型。 |
180| `name_off`       | `uint32_t`       | 一个偏移量,指向[字符串](#字符串),表示字段的名称。 |
181| `reserved`       | `uleb128`        | 方舟字节码文件内部使用的保留字段。                           |
182| `field_data`     | `TaggedValue[]`  | 不定长度的数组,数组中每个元素都是[TaggedValue](#taggedvalue)类型,元素的标记是[FieldTag](#fieldtag)类型,数组中的元素按照标记递增排序(`0x00`标记除外)。 |
183
184> **注意:**
185>
186> 通过Field的偏移量,可以找到适当的IndexHeader以解析`class_idx`和`type_idx`。
187
188
189### FieldTag
190
191- 对齐方式:单字节对齐。
192- 格式:
193
194| **名称** | **值** | **数量** | **格式** | **说明**  |
195| -------------- | ------------ | -------------- | -------------- | ------------------------------------------------------------ |
196| `NOTHING`        | `0x00`   | `1`   | `none`     | 拥有此标记的[TaggedValue](#taggedvalue),是其所在`field_data`的最后一项。 |
197| `INT_VALUE`      | `0x01`   | `0-1` | `sleb128`  | 拥有此标记的[TaggedValue](#taggedvalue)的`data`的类型为`boolean`、`byte`、`char`、`short` 或 `int`。 |
198| `VALUE`          | `0x02`   | `0-1` | `uint32_t` | 拥有此标记的[TaggedValue](#taggedvalue)的`data`的类型为[Value formats](#value-formats)中的`FLOAT`或`ID`。 |
199
200> **注意:**
201>
202> FieldTag是`field_data`中元素([TaggedValue](#taggedvalue))所具备的标记,表头中的“数量”指的是在某一个[Field](#field)的`field_data`中拥有此标记的元素出现的次数。
203
204
205### Method
206描述字节码文件中的方法。
207
208- 对齐方式:单字节对齐。
209- 格式:
210
211| **名称** | **格式** | **说明**                                               |
212| -------------- | -------------- | ------------------------------------------------------------ |
213| `class_idx`      | `uint16_t`       | 一个指向该方法所从属的类的索引,指向一个在[ClassRegionIndex](#classregionindex)中的位置,该位置的值是[Type](#type)类型,是一个指向[Class](#class)的偏移量。 |
214| `reserved`       | `uint16_t`       | 方舟字节码文件内部使用的保留字段。                           |
215| `name_off`       | `uint32_t`       | 一个偏移量,指向[字符串](#字符串),表示方法名称。 |
216| `index_data`     | `uleb128`        | 方法的[MethodIndexData](#methodindexdata)数据。 |
217| `method_data`    | `TaggedValue[]`  | 不定长度的数组,数组中每个元素都是[TaggedValue](#taggedvalue)类型,元素的标记是[MethodTag](#methodtag)类型,数组中的元素按照标记递增排序(`0x00`标记除外)。 |
218
219> **注意:**
220>
221> 通过Method的偏移量,可以找到适当的IndexHeader以解析`class_idx`。
222
223
224### MethodIndexData
225MethodIndexData是一个无符号32位整数,划分为3个部分。
226
227| **位** | **名称** | **格式** | **说明**                                               |
228| ------------ | -------------- | -------------- | ------------------------------------------------------------ |
229| 0 - 15       | `header_index`   | `uint16_t`       | 指向一个在[IndexSection](#indexsection)中的位置,该位置的值是[IndexHeader](#indexheader)。通过IndexHeader可以找到该方法引用的所有方法([Method](#method))、[字符串](#字符串)或字面量数组([LiteralArray](#literalarray))的偏移量。 |
230| 16 - 23      | `function_kind`  | `uint8_t`        | 表示方法的函数类型([FunctionKind](#functionkind))。 |
231| 24 - 31      | `reserved`       | `uint8_t`        | 方舟字节码文件内部使用的保留字段。                           |
232
233
234#### FunctionKind
235
236| **名称**           | **值** | **说明**   |
237| ------------------------ | ------------ | ---------------- |
238| `FUNCTION`                 | `0x1`          | 普通函数。       |
239| `NC_FUNCTION`              | `0x2`          | 普通箭头函数。   |
240| `GENERATOR_FUNCTION`       | `0x3`          | 生成器函数。     |
241| `ASYNC_FUNCTION`           | `0x4`          | 异步函数。       |
242| `ASYNC_GENERATOR_FUNCTION` | `0x5`          | 异步生成器函数。 |
243| `ASYNC_NC_FUNCTION`        | `0x6`          | 异步箭头函数。   |
244| `CONCURRENT_FUNCTION`      | `0x7`          | 并发函数。       |
245
246
247### MethodTag
248
249| **名称** | **值** | **数量** | **格式** | **说明**                                               |
250| -------------- | ------------ | -------------- | -------------- | ------------------------------------------------------------ |
251| `NOTHING`        | `0x00`         | `1`             | `none`           | 拥有此标记的[TaggedValue](#taggedvalue),是其所在`method_data`的最后一项。 |
252| `CODE`           | `0x01`         | `0-1 `           | `uint32_t`       | 拥有此标记的[TaggedValue](#taggedvalue)的`data`是一个偏移量,指向[Code](#code),表示方法的代码段。 |
253| `SOURCE_LANG`    | `0x02`         | `0-1`            | `uint8_t`        | 拥有此标记的[TaggedValue](#taggedvalue)的`data`是0,表示源码语言是ArkTS/TS/JS。 |
254| `DEBUG_INFO`     | `0x05`         | `0-1`            | `uint32_t`       | 拥有此标记的[TaggedValue](#taggedvalue)的`data`是一个偏移量,指向[DebugInfo](#debuginfo),表示方法的调试信息。 |
255| `ANNOTATION`     | `0x06`         | `>=0`            | `uint32_t`       | 拥有此标记的[TaggedValue](#taggedvalue)的`data`是一个偏移量,指向[Annotation](#annotation), 表示方法的注解。 |
256
257> **注意:**
258>
259> MethodTag是`method_data`中元素([TaggedValue](#taggedvalue))所具备的标记,表头中的“数量”指的是在某一个[Method](#method)的`method_data`中拥有此标记的元素出现的次数。
260
261
262### Code
263
264- 对齐方式:单字节对齐。
265- 格式:
266
267| **名称** | **格式** | **说明**                                               |
268| -------------- | -------------- | ------------------------------------------------------------ |
269| `num_vregs`      | `uleb128`        | 寄存器的数量,存放入参和默认参数的寄存器不计算在内。         |
270| `num_args`       | `uleb128`        | 入参和默认参数的总数量。                                     |
271| `code_size`      | `uleb128`        | 所有指令的总大小,以字节为单位。                             |
272| `tries_size`     | `uleb128`        | `try_blocks`数组的长度,即[TryBlock](#tryblock)的数量。    |
273| `instructions`   | `uint8_t[]`      | 所有指令的数组。                                           |
274| `try_blocks`     | `TryBlock[]`     | 一个数组,数组中每一个元素都是TryBlock类型。 |
275
276
277### TryBlock
278
279- 对齐方式:单字节对齐。
280- 格式:
281
282| **名称** | **格式** | **说明**                                               |
283| -------------- | -------------- | ------------------------------------------------------------ |
284| `start_pc`       | `uleb128`        | TryBlock的第一条指令距离其所在[Code](#code)的`instructions`的起始位置的偏移量。 |
285| `length`         | `uleb128`        | TryBlock的大小,以字节为单位。                               |
286| `num_catches`    | `uleb128`        | 与TryBlock关联的[CatchBlock](#catchblock)的数量,值为1。 |
287| `catch_blocks`   | `CatchBlock[]`   | 与TryBlock关联的CatchBlock的数组,数组中有且仅有一个可以捕获所有类型的异常的CatchBlock。 |
288
289
290### CatchBlock
291
292- 对齐方式:单字节对齐。
293- 格式:
294
295| **名称** | **格式** | **说明**                                  |
296| -------------- | -------------- | ----------------------------------------------- |
297| `type_idx`       | `uleb128`        | 值是0,表示此CatchBlock块捕获了所有类型的异常。 |
298| `handler_pc`     | `uleb128`        | 异常处理逻辑的第一条指令的程序计数器。          |
299| `code_size`      | `uleb128`        | 此CatchBlock的大小,以字节为单位。              |
300
301
302### Annotation
303描述一个注解结构。
304
305- 对齐方式:单字节对齐
306- 格式:
307
308| **名称** | **格式**      | **说明**                                               |
309| -------------- | ------------------- | ------------------------------------------------------------ |
310| `class_idx`      | `uint16_t`   | 一个指向当前Annotation所从属的类的索引,指向一个在[ClassRegionIndex](#classregionindex)中的位置,该位置的值是[Type](#type)类型,是一个指向[Class](#class)的偏移量。 |
311| `count`          | `uint16_t`   | `elements`数组的长度。                                         |
312| `elements`       | AnnotationElement[] | 一个数组,数组的每个元素都是[AnnotationElement](#annotationelement)类型。 |
313| `element_types`  | `uint8_t[]`  | 一个数组,数组的每个元素都是[AnnotationElementTag](#annotationelementtag)类型,用于描述一个AnnotationElement。每个元素在`element_types`数组中的位置和其对应的AnnotationElement在`elements`数组中的位置一致。 |
314
315> **注意:**
316>
317> 通过Annotation的偏移量,可以找到适当的IndexHeader以解析`class_idx`。
318
319
320### AnnotationElementTag
321
322| **名称** | **标记** |
323| -------------- | --------- |
324| `u1`             | `'1'`   |
325| `i8`             | `'2'`   |
326| `u8`             | `'3'`   |
327| `i16`            | `'4'`   |
328| `u16`            | `'5'`   |
329| `i32`            | `'6'`   |
330| `u32`            | `'7'`   |
331| `i64`            | `'8'`   |
332| `u64`            | `'9'`   |
333| `f32`            | `'A'`   |
334| `f64`            | `'B'`   |
335| `string`         | `'C'`   |
336| `method`         | `'E'`   |
337| `annotation`     | `'G'`   |
338| `literalarray`   | `'#'`   |
339| `unknown`        | `'0'`   |
340
341
342### AnnotationElement
343
344- 对齐方式:单字节对齐。
345- 格式:
346
347| **名称** | **格式** | **说明**                                               |
348| -------------- | -------------- | ------------------------------------------------------------ |
349| `name_off`       | `uint32_t`       | 一个偏移量,指向[字符串](#字符串),表示注解元素的名称。 |
350| `value`          | `uint32_t`       | 注解元素的值,若值的宽度不超过32位,则此处存储值本身。否则,此处存储的值为指向[Value formats](#value-formats)格式的偏移量。 |
351
352
353### Value formats
354不同的值类型,有不同的值编码格式,包括INTEGER, LONG, FLOAT, DOUBLE, ID。
355
356| **名称** | **格式** | **说明**                                               |
357| -------------- | -------------- | ------------------------------------------------------------ |
358| `INTEGER`        | `uint32_t`       | 有符号的四字节整数值。                                       |
359| `LONG`           | `uint64_t`       | 有符号的八字节整数值。                                       |
360| `FLOAT`          | `uint32_t`       | 四字节位模式,向右零扩展,系统会将其解译为 IEEE754 32 位浮点值。 |
361| `DOUBLE`         | `uint64_t`       | 八字节位模式,向右零扩展,系统会将其解译为 IEEE754 64 位浮点值。 |
362| `ID`             | `uint32_t`       | 四字节位模式,表示文件中某个结构的偏移量。                   |
363
364
365### LineNumberProgramIndex
366行号程序索引(LineNumberProgramIndex)结构是一个数组,便于使用更紧凑的索引访问行号程序([Line number program](#line-number-program))。
367
368- 对齐方式:4个字节。
369- 格式:
370
371| **名称** | **格式** | **说明**                                               |
372| -------------- | -------------- | ------------------------------------------------------------ |
373| `offsets`        | `uint32_t[]`     | 一个数组,数组中每个元素的值是一个偏移量,指向一个行号程序。数组长度由[Header](#header)中的`num_lnps`指定。 |
374
375
376### DebugInfo
377调试信息(DebugInfo)包含方法的程序计数器与源代码中的行列号之间的映射以及有关局部变量的信息。调试信息的格式由[DWARF调试信息格式第3版](https://dwarfstd.org/dwarf3std.html)(见第6.2项)的内容演变形成。基于状态机([State machine](#state-machine))的执行模型对行号程序([Line number program](#line-number-program))进行解释,可得到映射和局部变量信息编码。为对不同方法的相同行号程序进行去重,程序中引用的所有常量都被移动到了常量池([Constant pool](#constant-pool))中。
378
379- 对齐方式:单字节对齐。
380- 格式:
381
382| **名称**          | **格式** | **说明**                                               |
383| ----------------------- | -------------- | ------------------------------------------------------------ |
384| `line_start`              | `uleb128`        | 状态机的行号寄存器的初始值。                                 |
385| `num_parameters`          | `uleb128`        | 入参和默认参数的总数量。                                     |
386| `parameters`              | `uleb128[]`      | 存放方法入参的名称的数组,数组长度是`num_parameters`。每一个元素的值是字符串的偏移量或者0,如果是0,则代表对应的参数不具有名称。 |
387| `constant_pool_size`      | `uleb128`        | 常量池的大小,以字节为单位。                                 |
388| `constant_pool`           | `uleb128[]`      | 存放常量池数据的数组,数组长度是`constant_pool_size`。         |
389| `line_number_program_idx` | `uleb128`        | 一个索引,指向一个在[LineNumberProgramIndex](#linenumberprogramindex)中的位置,该位置的值是一个指向[Line number program](#line-number-program)的偏移量。Line number program的长度可变,以`END_SEQUENCE`操作码结束。 |
390
391
392#### Constant pool
393常量池(Constant pool)是DebugInfo中存放常量的结构。很多方法都具有相似的行号程序,其区别仅在于变量名、变量类型和文件名。为了对这类行号程序进行去重,程序中引用的所有常量都存储在常量池。在解释程序时,状态机维护一个指向常量池的指针。当状态机解释一条需要常量参数的指令时,会从内存常量池指针指向的位置读取值,然后递增指针。
394
395
396#### State machine
397状态机(State machine)的作用是产生[DebugInfo](#debuginfo)信息。状态机中有以下的寄存器:
398
399| **名称**    | **初始值**                                             | **说明**                                               |
400| ----------------- | ------------------------------------------------------------ | ------------------------------------------------------------ |
401| `address`           | 0                                                            | 程序计数器(指向方法的某个指令),只能单调递增。             |
402| `line`              | [DebugInfo](#debuginfo)的属性`line_start`的值 | 无符号整数,对应源码中的行号。所有的行都是从1开始编号,因此寄存器的值不能小于1。 |
403| `column`            | 0                                                            | 无符号整数,对应源码中的列号。                               |
404| `file`              | `class_data`(参见[Class](#class))中`SOURCE_FILE`标记的值,或者0 | 一个偏移量,指向[字符串](#字符串),表示源文件的名称。如果没有文件名信息([Class](#class)中没有`SOURCE_FILE`标记),那么寄存器的值是0。 |
405| `source_code`       | 0                                                            | 一个偏移量,指向[字符串](#字符串),表示源文件的源码。如果没有源码信息,那么寄存器的值是0。 |
406| `constant_pool_ptr` | [DebugInfo](#debuginfo)中常量池的第一个字节的地址 | 指向当前常量值的指针。                                       |
407
408
409#### Line number program
410一个行号程序(Line number program)由指令组成。每条指令都包含一个字节的操作码以及可选参数。根据操作码的不同,参数的值可能被编码在指令中(称为指令参数),或者需要从常量池中获取(称为常量池参数)。
411
412| **操作码**  | **值** | **指令参数**   | **常量池参数**    | **参数说明** | **说明**  |
413| ----- | ----- | ------- | ---- | ------- | ------ |
414| `END_SEQUENCE`         | `0x00`  |       |          |        | 标记行号程序的结束。    |
415| `ADVANCE_PC`           | `0x01`  |    | `uleb128 addr_diff`   | `addr_diff`:`address`寄存器的值待增加的数值。    | `address`寄存器中的值加上`addr_diff`,指向下一个地址,而不生成位置条目。 |
416| `ADVANCE_LINE`         | `0x02` |     | `sleb128 line_diff`  | `line_diff`:`line`寄存器的值待增加的数值。    | `line`寄存器中的值加上`line_diff`,指向下一个行位置,而不生成位置条目。 |
417| `START_LOCAL`          | `0x03` | `sleb128 register_num` | `uleb128 name_idx`<br>`uleb128 type_idx`   | `register_num`:将包含局部变量的寄存器。<br>`name_idx`:一个偏移量,指向[字符串](#字符串),表示变量的名称。<br>`type_idx`:一个偏移量,指向[字符串](#字符串),表示变量的类型。 | 在当前地址中引入一个带有名称和类型的局部变量。将要包含这个变量的寄存器的编号被编码在指令中。如果寄存器的编号是-1,则意味着这个是累加器寄存器。`name_idx`和`type_idx`的值可能是0,如果是0,则代表着对应的信息是不存在的。 |
418| `START_LOCAL_EXTENDED` | `0x04` | `sleb128 register_num` | `uleb128 name_idx`<br>`uleb128 type_idx`<br>`uleb128 sig_idx` | `register_num`:将包含局部变量的寄存器。<br>`name_idx`:一个偏移量,指向[字符串](#字符串),表示变量的名称。<br>`type_idx`:一个偏移量,指向[字符串](#字符串),表示变量的类型。<br>`sig_idx`:一个偏移量,指向[字符串](#字符串),表示变量的签名。 | 在当前地址中引入一个带有名称、类型和签名的局部变量。将要包含这个变量的寄存器的编号被编码在指令中。如果寄存器的编号是-1,则意味着这个是累加器寄存器。`name_idx`、`type_idx`和`sig_idx`的值可能是0,如果是0,则代表着对应的信息是不存在的。 |
419| `END_LOCAL`            | `0x05` | `sleb128 register_num` |    | `register_num`:包含局部变量的寄存器。  | 在当前地址将指定寄存器中的局部变量标记为超出范围。寄存器的编号为-1,则意味着是累加器寄存器。 |
420| `SET_FILE`             | `0x09`  |    | `uleb128 name_idx`  | `name_idx`:一个偏移量,指向[字符串](#字符串),表示文件的名称。 | 设置file寄存器的值。`name_idx`的值可能是0,如果是0,则代表着对应的信息是不存在的。 |
421| `SET_SOURCE_CODE`      | `0x0a`  |    | `uleb128 source_idx` | `source_idx`:一个偏移量,指向[字符串](#字符串),表示文件的源码。 | 设置`source_code`寄存器的值。`source_idx`的值可能是0,如果是0,则代表着对应的信息是不存在的。 |
422| `SET_COLUMN`           | `0x0b` |    | `uleb128 column_num`   | `column_num`:待设置的列号。   | 设置`column`寄存器的值,并生成一个位置条目。  |
423| 特殊操作码           | `0x0c..0xff`   |   |  |   | 使 `line` 和 `address` 寄存器指向下一个地址,并生成一个位置条目。详情参阅下文中的说明。 |
424
425
426对于值在`0x0c`和`0xff`(含)之间的特殊操作码,状态机按照以下步骤将`line`和`address`寄存器移动一小部分,然后生成一个新的位置条目(参见[DWARF调试信息格式第3版](https://dwarfstd.org/dwarf3std.html)第6.2.5.1项 Special Opcodes):
427
428| **步骤序号** | **操作**                                     | **说明**                                               |
429| ----- | -------------------------------------------------- | ------------------------------------------------------------ |
430| 1     | `adjusted_opcode = opcode - OPCODE_BASE`            | 计算调整后的操作码。`OPCODE_BASE`的值是`0x0c`,是第一个特殊操作码。 |
431| 2     | `address += adjusted_opcode / LINE_RANGE`            | 增加`address`寄存器中的值。`LINE_RANGE`的值是15,用来计算行号信息的变化。 |
432| 3     | `line += LINE_BASE + (adjusted_opcode % LINE_RANGE)` | 增加`line`寄存器中的值。`LINE_BASE`的值是-4,是最小的行号增量值;最大的行号增量值是`LINE_BASE + LINE_RANGE - 1`。 |
433| 4     |                                                    | 生成一个新的位置条目。                                       |
434
435> **注意:**
436>
437> 特殊操作码计算方式:`(line_increment - LINE_BASE) + (address_increment * LINE_RANGE) + OPCODE_BASE`。
438
439
440### IndexSection
441通常情况下,字节码文件的各个结构使用32位偏移量来引用,当一个结构引用另一个结构时,需要在当前结构中记录被引用结构的32位偏移量。为了减小文件体积,字节码文件被分割成多个索引区域(Index region),每个索引区域内的结构使用16位索引。IndexSection结构描述了索引区域的集合。
442
443- 对齐方式:4个字节。
444- 格式:
445
446| **名称** | **格式** | **说明**       |
447| -------------- | -------------- | --------- |
448| `headers`        | `IndexHeader[]`  | 一个数组,数组中每个元素是[IndexHeader](#indexheader)类型。数组中的元素根据区域的起始偏移量进行排序。数组长度由[Header](#header)中的`num_index_regions`指定。 |
449
450
451### IndexHeader
452每个IndexHeader结构描述一个索引区域。每个索引区域都有两类索引:指向[Type](#type)的索引和指向方法、字符串或者字面量数组的索引。
453
454- 对齐方式:4个字节。
455- 格式:
456
457| **名称**        | **格式** | **说明**    |
458| -------------- | -------------- | ---------- |
459| `start_off`                             | `uint32_t`       | 该区域的起始偏移量。                                         |
460| `end_off`                               | `uint32_t`       | 该区域的结束偏移量。                                         |
461| `class_region_idx_size`                 | `uint32_t`       | 该区域的[ClassRegionIndex](#classregionindex)中元素的数量,最大值为65536。 |
462| `class_region_idx_off`                  | `uint32_t`       | 一个偏移量,指向[ClassRegionIndex](#classregionindex)。 |
463| `method_string_literal_region_idx_size` | `uint32_t`       | 该区域的[MethodStringLiteralRegionIndex](#methodstringliteralregionindex)中元素的数量,最大值为65536。 |
464| `method_string_literal_region_idx_off`  | `uint32_t`       | 一个偏移量,指向[MethodStringLiteralRegionIndex](#methodstringliteralregionindex)。 |
465| `reserved`                              | `uint32_t`       | 方舟字节码文件内部使用的保留字段。                           |
466| `reserved`                              | `uint32_t`       | 方舟字节码文件内部使用的保留字段。                           |
467| `reserved`                              | `uint32_t`       | 方舟字节码文件内部使用的保留字段。                           |
468| `reserved`                              | `uint32_t`       | 方舟字节码文件内部使用的保留字段。                           |
469
470
471### ClassRegionIndex
472ClassRegionIndex结构的作用是允许通过更紧凑的索引,找到对应的[Type](#type)。
473
474- 对齐方式:4个字节。
475- 格式:
476
477| **名称** | **格式** | **说明**                                               |
478| -------------- | -------------- | ------------------------------------------------------------ |
479| `types`          | `Type[]`         | 一个数组,数组中每个元素都是[Type](#type)类型。数组长度由[IndexHeader](#indexheader)中的`class_region_idx_size`指定。 |
480
481
482### Type
483表示一个基本类型编码或一个指向[Class](#class)的偏移量,是一个32位的值。
484
485基本类型采用以下方式编码:
486
487| **类型**       | **编码**        |
488| -------------- | -------------- |
489| `u1`           | `0x00`         |
490| `i8`           | `0x01`         |
491| `u8`           | `0x02`         |
492| `i16`          | `0x03`         |
493| `u16`          | `0x04`         |
494| `i32`          | `0x05`         |
495| `u32`          | `0x06`         |
496| `f32`          | `0x07`         |
497| `f64`          | `0x08`         |
498| `i64`          | `0x09`         |
499| `u64`          | `0x0a`         |
500| `any`          | `0x0c`         |
501
502
503### MethodStringLiteralRegionIndex
504MethodStringLiteralRegionIndex结构的作用是允许通过更紧凑的索引,找到对应的方法、字符串或者字面量数组。
505
506- 对齐方式:4个字节。
507- 格式:
508
509| **名称** | **格式** | **说明**                                               |
510| -------------- | -------------- | ------------------------------------------------------------ |
511| `offsets`      | `uint32_t[]`   | 一个数组,数组中每个元素的值是一个偏移量,指向方法、字符串或者字面量数组。数组长度由[IndexHeader](#indexheader)中的`method_string_literal_region_idx_size`指定。 |
512
513
514### LiteralArray
515描述字节码文件中的字面量数组。
516
517- 对齐方式:单字节对齐。
518- 格式:
519
520| **名称** | **格式** | **说明**                                               |
521| -------------- | -------------- | ------------------------------------------------------------ |
522| `num_literals`   | `uint32_t`       | `literals`数组的长度。                                         |
523| `literals`       | `Literal[]`      | 一个数组,数组的每个元素都是[Literal](#literal)类型。 |
524
525
526### Literal
527描述字节码文件中的字面量,根据字面量值的字节数的不同,有四种编码格式。
528
529| **名称** | **格式** | **对齐方式** | **说明** |
530| -------------- | -------------- | ------------------ | -------------- |
531| ByteOne        | `uint8_t`        | 1个字节            | 单字节的值。   |
532| ByteTwo        | `uint16_t`       | 2个字节            | 双字节的值。   |
533| ByteFour       | `uint32_t`       | 4个字节            | 四字节的值。   |
534| ByteEight      | `uint64_t`       | 8个字节            | 八字节的值。   |
535
536