Elasticsearch中Script脚本执行除法遇到的问题

本文最后更新于:2022年4月1日 上午

最近有一个需求,需要修改ES文档中的金额,以前是以 为单位,现在要换算成以 万元 为单位,但并不是所有数据都需要做处理,有一个Excel存储着不需要处理的数据。我第一时间想到的就是用 Python 写一个脚本处理ES文档,噼里啪啦一顿操作之后,基本就实现了该功能。但是处理的结果并不是预期的那样。下面我简单的举一个例子来复现一下我所遇到的问题。

首先,创建一个索引 test ,

1
2
# 创建test索引  
PUT test

给索引设置 mapping 属性,

1
2
3
4
5
6
7
8
# 设置索引mapping属性  
PUT test/_mapping
{
"properties": {
"id": {"type": "keyword"},
"money": {"type": "double"}
}
}

给索引添加几条测试文档数据,

1
2
3
4
5
6
7
8
# 批量插入数据  
POST _bulk
{"index": {"_index": "test"}}
{"id":"1", "money": 23423123}
{"index": {"_index": "test"}}
{"id":"2","money": 1233656}
{"index": {"_index": "test"}}
{"id":"3", "money":899234}

既然要更新文档数据,肯定要用到ES的 _update_by_query API。我们现在将每个文档的 money 值除以 10000 ,先自己考虑一下应该会得到一个什么样的结果。

1
2
3
4
5
6
7
8
9
10
11
# 更新操作,将每个文档的money除以10000  
POST test/_update_by_query
{
"script": {
"source": "ctx._source.money=ctx._source.money/10000",
"lang": "painless"
},
"query": {
"match_all": {}
}
}

有结果了吗?我们来看看ES给我们处理后的结果是啥样的,

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
# 查看文档  
GET test/_search

# 结果
{
"took" : 0,
"timed_out" : false,
"_shards" : {
"total" : 1,
"successful" : 1,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
"value" : 3,
"relation" : "eq"
},
"max_score" : 1.0,
"hits" : [
{
"_index" : "test",
"_type" : "_doc",
"_id" : "LtrDs3MBvTJiRW6OWDLQ",
"_score" : 1.0,
"_source" : {
"money" : 2342,
"id" : "1"
}
},
{
"_index" : "test",
"_type" : "_doc",
"_id" : "MNrDs3MBvTJiRW6OYTJx",
"_score" : 1.0,
"_source" : {
"money" : 123,
"id" : "2"
}
},
{
"_index" : "test",
"_type" : "_doc",
"_id" : "MtrDs3MBvTJiRW6OaTLM",
"_score" : 1.0,
"_source" : {
"money" : 89,
"id" : "3"
}
}
]
}
}

很明显更新后的结果去掉了小数点后面的数,这并不是我想要的。这是怎么回事呢?经过查找很多的资料,最终在官方文档里找到这么一句话:

Use the division operator '/' to DIVIDE one numeric type value by another. Rules for NaN values and division by zero follow the JVM specification. Division with integer values drops the remainder of the resultant value.

最后一句话的意思很明了,“整数相除会丢弃结果值的余数部分”。既然整数会有这种情况,那么我将 10000 换成 10000.0 再来试试,

1
2
3
4
5
6
7
8
9
10
11
# 更新操作,将每个文档的money除以10000.0  
POST test/_update_by_query
{
"script": {
"source": "ctx._source.money=ctx._source.money/10000.0",
"lang": "painless"
},
"query": {
"match_all": {}
}
}

这次的更新结果如下,

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
{  
"took" : 0,
"timed_out" : false,
"_shards" : {
"total" : 1,
"successful" : 1,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
"value" : 3,
"relation" : "eq"
},
"max_score" : 1.0,
"hits" : [
{
"_index" : "test",
"_type" : "_doc",
"_id" : "Ptq5s3MBvTJiRW6OoTEW",
"_score" : 1.0,
"_source" : {
"money" : 2342.3123,
"id" : "1"
}
},
{
"_index" : "test",
"_type" : "_doc",
"_id" : "QNq5s3MBvTJiRW6OpzFr",
"_score" : 1.0,
"_source" : {
"money" : 123.3656,
"id" : "2"
}
},
{
"_index" : "test",
"_type" : "_doc",
"_id" : "Qdq5s3MBvTJiRW6OrjEB",
"_score" : 1.0,
"_source" : {
"money" : 89.9234,
"id" : "3"
}
}
]
}
}

这才是想要的结果。从整体的实现来看,虽然功能很简单,但是一些细节的地方处理不到位,很可能就耽误你很多的时间。用这时间来摸鱼,它不香吗。

注:Elasticsearch版本是7.8.0,以上操作都是通过 kibana 执行的。

相关链接:https://www.elastic.co/guide/en/elasticsearch/painless/current/painless-operators-numeric.html