• Home
  • Line#
  • Scopes#
  • Navigate#
  • Raw
  • Download
1# 通过向量数据库实现数据持久化 (ArkTS)
2
3
4## 场景介绍
5
6向量数据库是一种支持存储、管理和检索向量数据的数据库,也支持标量的关系型数据处理。数据类型"floatvector"用来存储数据向量化的结果,从而实现对这些数据的快速检索和相似性搜索‌。</br>
7从API version 18开始,支持通过向量数据库实现数据持久化。
8
9## 基本概念
10
11- **结果集**:指用户查询之后的结果集合,可以对数据进行访问。结果集提供了灵活的数据访问方式,可以更方便地拿到用户想要的数据。
12- **floatvector**:该数据类型表示向量数据,例如[1.0, 3.0, 2.4, 5.1, 6.2, 11.7]。
13
14## 约束限制
15
16- 系统默认日志方式是WAL(Write Ahead Log)模式,系统默认落盘方式是FULL模式。
17
18- 数据库中默认有4个读连接和1个写连接,线程获取到空闲读连接时,即可进行读取操作。当没有空闲读连接时,会创建新的读连接。
19
20- 为保证数据的准确性,数据库同一时间只能支持一个写操作,并发的写操作会串行执行。
21
22- 当应用被卸载完成后,设备上的相关数据库文件及临时文件会被自动清除。
23
24- ArkTS侧支持的基本数据类型:number、string、二进制类型数据、boolean;特殊数据类型:ValueType。
25
26- 为保证插入并读取数据成功,建议一条数据不要超过2M。超出该大小,插入成功,读取失败。
27
28## 接口说明
29
30以下是向量数据库持久化功能的相关接口,更多接口及使用方式请见[关系型数据库](../reference/apis-arkdata/js-apis-data-relationalStore.md)。
31
32| 接口名称 | 描述 |
33| -------- | -------- |
34| getRdbStore(context: Context, config: StoreConfig): Promise&lt;RdbStore&gt; | 用户可以根据自己的需求配置StoreConfig参数获得RdbStore对象,通过调用RdbStore接口执行数据操作。|
35| execute(sql: string, txId: number, args?: Array&lt;ValueType&gt;): Promise&lt;ValueType&gt; | 执行包含指定参数的SQL语句,语句中的各种表达式和操作符之间的关系操作符号(例如=、>、<)不超过1000个。 |
36| querySql(sql: string, bindArgs?: Array&lt;ValueType&gt;):Promise&lt;ResultSet&gt; | 根据指定SQL语句查询数据库中的数据,语句中的各种表达式和操作符之间的关系操作符号(例如=、>、<)不超过1000个。 |
37| beginTrans(): Promise&lt;number&gt; | 在开始执行SQL语句之前,开始事务。 |
38| commit(txId : number):Promise&lt;void&gt; | 提交已经执行的SQL语句,跟beginTrans配合使用。 |
39| rollback(txId : number):Promise&lt;void&gt; | 回滚已经执行的SQL语句,跟beginTrans配合使用。 |
40| deleteRdbStore(context: Context, config: StoreConfig): Promise&lt;void&gt; | 删除数据库。 |
41| isVectorSupported(): boolean | 判断系统是否提供向量数据库能力。 |
42
43## 开发步骤
44
451. 判断当前系统是否支持向量数据库,若不支持,则表示当前系统不具备向量数据库能力。示例代码如下:
46
47   ```ts
48   import { relationalStore } from '@kit.ArkData'; // 导入模块
49   import { UIAbility } from '@kit.AbilityKit';
50   import { BusinessError } from '@kit.BasicServicesKit';
51   import { window } from '@kit.ArkUI';
52   // 此处示例在Ability中实现,使用者也可以在其他合理场景中使用
53   class EntryAbility extends UIAbility {
54     async onWindowStageCreate(windowStage: window.WindowStage) {
55        // 判断当前系统是否支持向量数据库
56       let ret = relationalStore.isVectorSupported();
57       if (!ret) {
58         console.error(`vectorDB is not supported .`);
59         return;
60       }
61       // 开库、增删改查等
62     }
63   }
64   ```
65
662. 若支持向量数据库则需要获取一个RdbStore。通过getRdbStore接口创建数据库,并执行建表操作。
67
68   > **说明:**
69   >
70   > - 应用创建的数据库与其上下文(Context)有关,即使使用同样的数据库名称,但不同的应用上下文,会产生多个数据库,例如每个UIAbility都有各自的上下文。
71   >
72   > - 当应用首次获取数据库(调用getRdbStore)后,在应用沙箱内会产生对应的数据库文件。使用数据库的过程中,在与数据库文件相同的目录下可能会产生以-wal和-shm结尾的临时文件。此时若开发者希望移动数据库文件到其它地方使用查看,则需要同时移动这些临时文件,当应用被卸载完成后,其在设备上产生的数据库文件及临时文件也会被移除。
73   >
74   > - 错误码的详细介绍请参见[通用错误码](../reference/errorcode-universal.md)和[关系型数据库错误码](../reference/apis-arkdata/errorcode-data-rdb.md)。
75
76   示例代码如下:
77
78   ```ts
79   let store: relationalStore.RdbStore | undefined = undefined;
80   const STORE_CONFIG :relationalStore.StoreConfig= {
81     name: 'VectorTest.db', // 数据库文件名
82     securityLevel: relationalStore.SecurityLevel.S1, // 数据库安全级别
83     vector: true // 可选参数,该参数为true时才可以使用向量数据库。
84   };
85
86   relationalStore.getRdbStore(this.context, STORE_CONFIG).then(async (rdbStore: relationalStore.RdbStore) => {
87     store = rdbStore;
88     // 建表语句,floatvector(2)代表repr的维度是2
89     const SQL_CREATE_TABLE = 'CREATE TABLE IF NOT EXISTS test (id INTEGER PRIMARY KEY, repr floatvector(2));';
90     // 第二个入参表示不开启显示事务,第三个参数undefined表示未使用参数绑定
91     await store!.execute(SQL_CREATE_TABLE, 0, undefined);
92   }).catch((err: BusinessError) => {
93     console.error(`Get RdbStore failed, code is ${err.code}, message is ${err.message}`);
94   });
95   ```
96
973. 获取到RdbStore后,调用execute接口插入数据。
98
99   > **说明:**
100   >
101   > 向量数据库没有显式的flush操作实现持久化,数据插入即保存在持久化文件。
102
103   示例代码如下:
104
105   ```ts
106   try {
107     // 使用参数绑定
108     const vectorValue: Float32Array = Float32Array.from([1.2, 2.3]);
109     await store!.execute("insert into test VALUES(?, ?);", 0, [0, vectorValue]);
110     // 不使用参数绑定
111     await store!.execute("insert into test VALUES(1, '[1.3, 2.4]');", 0, undefined);
112   } catch (err) {
113     console.error(`execute insert failed, code is ${err.code}, message is ${err.message}`);
114   }
115   ```
116
1174. 获取到RdbStore后,调用execute接口修改或删除数据。示例代码如下:
118
119   ```ts
120   // 修改数据
121   try {
122     // 使用参数绑定
123     const vectorValue1: Float32Array = Float32Array.from([2.1, 3.2]);
124     await store!.execute("update test set repr = ? where id = ?", 0, [vectorValue1, 0]);
125     // 不使用参数绑定
126     await store!.execute("update test set repr = '[5.1, 6.1]' where id = 0", 0, undefined);
127   } catch (err) {
128     console.error(`execute update failed, code is ${err.code}, message is ${err.message}`);
129   }
130
131   // 删除数据
132   try {
133     // 使用参数绑定
134     await store!.execute("delete from test where id = ?", 0, [0]);
135     // 不使用参数绑定
136     await store!.execute("delete from test where id = 0", 0, undefined);
137   } catch (err) {
138     console.error(`execute delete failed, code is ${err.code}, message is ${err.message}`);
139   }
140   ```
141
1425. 获取到RdbStore后,调用querySql方法查找数据,返回一个ResultSet结果集。
143
144   > **说明:**
145   >
146   > 当应用完成查询数据操作,不再使用结果集(ResultSet)时,请及时调用close方法关闭结果集,释放系统为其分配的内存。
147
148   示例代码如下:
149
150   ```ts
151   // 单表查询
152   try {
153     // 使用参数绑定
154     const QUERY_SQL = "select id, repr <-> ? as distance from test where id > ? order by repr <-> ? limit 5;";
155     const vectorValue2: Float32Array = Float32Array.from([6.2, 7.3]);
156     let resultSet = await store!.querySql(QUERY_SQL, [vectorValue2, 0, vectorValue2]);
157     while (resultSet!.goToNextRow()) {
158        let id = resultSet.getValue(0);
159        let dis = resultSet.getValue(1);
160     }
161     resultSet!.close();
162
163     // 不使用参数绑定
164     const QUERY_SQL1 = "select id, repr <-> '[6.2, 7.3]' as distance from test where id > 0 order by repr <-> '[6.2, 7.3]' limit 5;";
165     resultSet = await store!.querySql(QUERY_SQL1);
166     resultSet!.close();
167   } catch (err) {
168     console.error(`query failed, code is ${err.code}, message is ${err.message}`);
169   }
170
171   // 子查询
172   try {
173     // 创建第二张表
174     let CREATE_SQL = "CREATE TABLE IF NOT EXISTS test1(id text PRIMARY KEY);";
175     await store!.execute(CREATE_SQL);
176     let resultSet = await store!.querySql("select * from test where id in (select id from test1);");
177     resultSet!.close();
178   } catch (err) {
179     console.error(`query failed, code is ${err.code}, message is ${err.message}`);
180   }
181
182   // 聚合查询
183   try {
184     let resultSet = await store!.querySql("select * from test where repr <-> '[1.0, 1.0]' > 0 group by id having max(repr <=> '[1.0, 1.0]');");
185     resultSet!.close();
186   } catch (err) {
187     console.error(`query failed, code is ${err.code}, message is ${err.message}`);
188   }
189
190   // 多表查询
191   try {
192     // union all与union的区别在于union会将数据去重
193     let resultSet = await store!.querySql("select id, repr <-> '[1.5, 5.6]' as distance from test union select id, repr <-> '[1.5, 5.6]' as distance from test order by distance limit 5;");
194     resultSet!.close();
195   } catch (err) {
196     console.error(`query failed, code is ${err.code}, message is ${err.message}`);
197   }
198   ```
199
2006. 创建视图并执行查询。示例代码如下:
201
202   ```ts
203   // 视图查询
204   try {
205     // 创建视图
206     await store!.execute("CREATE VIEW v1 as select * from test where id > 0;");
207     let resultSet = await store!.querySql("select * from v1;");
208     resultSet!.close();
209   } catch (err) {
210     console.error(`query failed, code is ${err.code}, message is ${err.message}`);
211   }
212   ```
213
2147. ‌使用向量索引进行查询,提升查询效率。
215
216   向量数据库索引‌是一种以向量作为键的索引机制,旨在提供高效且快速的搜索能力。
217
218   当前支持的向量索引基础语法和扩展语法如下:
219
220   - 基础语法如下:
221
222     ```sql
223     // index_name为索引名称,index_type是索引类型,dist_function是索引距离度量类型
224     CREATE INDEX [IF NOT EXISTS] index_name ON table_name USING index_type (column_name dist_function);
225
226     DROP INDEX table_name.index_name;
227     ```
228   - 扩展语法如下:
229
230     ```sql
231     CREATE INDEX [基础语法] [WITH(parameter = value [, ...])];
232     ```
233
234   **表1** 索引类型(index_type)
235
236   | 类型      | 备注说明                                                     |
237   | --------- | ------------------------------------------------------------ |
238   | gsdiskann | 适用于处理高维稠密向量数据,如文本嵌入、图像特征等。         |
239
240   **表2** 索引距离度量类型(dist_function)
241
242   | 类型   | 计算符号 | 备注说明   |
243   | ------ | -------- | ---------- |
244   | L2     | <->      | 欧式距离。|
245   | COSINE | <=>      | 余弦距离。|
246
247   **表3** 扩展语法参数(parameter)
248
249   | 参数名称   | 取值范围和约束 | 备注说明   |
250   | ------ | -------- | ---------- |
251   | QUEUE_SIZE | 设置范围是[10, 1000],默认值 20。     | 代表创建索引搜索近邻的时候候选队列的长度,queue_size越大,构建速度降低,召回率有略微提升。 |
252   | OUT_DEGREE | 设置范围是[1, 1200] ,默认值 60。      | 邻居节点出度数量。out_degree与pageSize也有关系,out_degree的数量超过pageSize的存储范围将报错GRD_INVALID_ARGS。|
253
254   > **说明:**
255   >
256   > - 删除索引的时候需要指定表名称,即Drop Index table.index_name257   >
258   > - 随表一起创建的索引不能删除,如建表时创建的主键。
259   >
260   > - 向量索引的命中条件。必须是ORDER BY + LIMIT类型的查询,ORDER BY只有一个排序条件,这个条件是向量距离条件;ORDER BY与DESC连用,不会使用向量索引;查询距离度量与创建索引时的度量需要保持一致,例如创建向量索引时使用L2,在查询时使用<->进行度量才可以命中索引。
261
262   示例代码如下:
263
264   ```ts
265   // 基础用法
266   try {
267     // 创建的索引名称为diskann_l2_idx,索引列为repr,类型为gsdiskann,距离度量类型为L2
268     await store!.execute("CREATE INDEX diskann_l2_idx ON test USING GSDISKANN(repr L2);");
269     // 删除表test中的diskann_l2_idx索引
270     await store!.execute("DROP INDEX test.diskann_l2_idx;");
271   } catch (err) {
272     console.error(`create index failed, code is ${err.code}, message is ${err.message}`);
273   }
274
275   // 扩展语法
276   try {
277     // 设置QUEUE_SIZE为20,OUT_DEGREE为50
278     await store!.execute("CREATE INDEX diskann_l2_idx ON test USING GSDISKANN(repr L2) WITH (queue_size=20, out_degree=50);");
279   } catch (err) {
280     console.error(`create ext index failed, code is ${err.code}, message is ${err.message}`);
281   }
282   ```
283
2848. 配置数据老化功能。当应用的数据需要经常清理时,可以按时间或空间配置数据老化策略,从而实现数据的自动化清理。
285
286   语法如下所示:
287
288   ```sql
289   CREATE TABLE table_name(column_name type [, ...]) [WITH(parameter = value [, ...])];
290   ```
291
292   其中,parameter为可配置的参数,value为对应取值,具体情况见下表。
293
294   **表4** 数据老化策略参数(parameter)
295
296   | 参数名称 | 必填 | 取值范围和使用说明 |
297   | ------ | -------- | ---------- |
298   | time_col | 是 | 列名。类型必须为整数且不为空。 |
299   | interval | 否 | 老化任务线程的执行间隔时间,超过该时间后执行写操作,触发老化任务,删除符合老化条件的数据;若在间隔时间内执行写操作,不会触发老化任务。取值范围是[5 second, 1 year],时间单位支持second、minute、hour、day、month、year,不区分大小写或复数形式(1 hour和1 hours均可),默认是1 day。 |
300   | ttl | 否 | 数据保留时间。取值范围是[1 hour, 1 year],时间单位支持second、minute、hour、day、month、year,不区分大小写或复数形式(1 hour和1 hours均可),默认是3 month。 |
301   | max_num | 否 | 数据量限制。取值范围是[100, 1024],默认是1024。老化任务在执行完过期数据删除后,如剩余表内数据超过max_num行,则会找到距离过期时间最近的时间点,删除该时间点对应的所有数据,直到数据量少于max_num。 |
302
303   时间相关参数会按数值换算为秒作为原子单位,取值规则如下所示:
304
305   | 单位 | 向下换算成秒取值 |
306   | ------ | -------- |
307   | year | 365 * 24 * 60 * 60 |
308   | month | 30 * 24 * 60 * 60 |
309   | day | 24 * 60 * 60 |
310   | hour | 60 * 60 |
311   | minute | 60 |
312
313   例如配置`ttl = '3 months'`,实际ttl会被换算为`3 * (30 * 24 * 60 * 60) = 7776000 seconds`。
314
315   示例代码如下:
316
317   ```ts
318   try {
319     // 每隔五分钟执行写操作后,会触发数据老化任务
320     await store!.execute("CREATE TABLE test2(rec_time integer not null) WITH (time_col = 'rec_time', interval = '5 minute');");
321   } catch (err) {
322     console.error(`configure data aging failed, code is ${err.code}, message is ${err.message}`);
323   }
324   ```
325
3269. 删除数据库。
327
328   调用deleteRdbStore方法,删除数据库及数据库相关文件。示例代码如下:
329
330   ```ts
331   try {
332     await relationalStore.deleteRdbStore(this.context, STORE_CONFIG);
333   } catch (err) {
334     console.error(`delete rdbStore failed, code is ${err.code},message is ${err.message}`);
335   }
336   ```
337
338