本文最后更新于:2022年4月1日 上午
最近有一个需求,需要修改ES文档中的金额,以前是以 元
为单位,现在要换算成以 万元
为单位,但并不是所有数据都需要做处理,有一个Excel存储着不需要处理的数据。我第一时间想到的就是用 Python
写一个脚本处理ES文档,噼里啪啦一顿操作之后,基本就实现了该功能。但是处理的结果并不是预期的那样。下面我简单的举一个例子来复现一下我所遇到的问题。
首先,创建一个索引 test
,
给索引设置 mapping
属性,
PUT test /_mapping { "properties" : { "id" : {"type" : "keyword" }, "money" : {"type" : "double" } } }
给索引添加几条测试文档数据,
POST _bulk {"index" : {"_index" : "test" }} {"id" :"1" , "money" : 23423123} {"index" : {"_index" : "test" }} {"id" :"2" ,"money" : 1233656} {"index" : {"_index" : "test" }} {"id" :"3" , "money" :899234}
既然要更新文档数据,肯定要用到ES的 _update_by_query
API。我们现在将每个文档的 money
值除以 10000
,先自己考虑一下应该会得到一个什么样的结果。
POST test /_update_by_query { "script" : { "source" : "ctx._source.money=ctx._source.money/10000" , "lang" : "painless" }, "query" : { "match_all" : {} } }
有结果了吗?我们来看看ES给我们处理后的结果是啥样的,
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 GET test /_search { "took" : 0, "timed_out" : false , "_shards" : { "total" : 1, "successful" : 1, "skipped" : 0, "failed" : 0 }, "hits" : { "total" : { "value" : 3, "relation" : "eq" }, "max_score" : 1.0, "hits" : [ { "_index" : "test" , "_type" : "_doc" , "_id" : "LtrDs3MBvTJiRW6OWDLQ" , "_score" : 1.0, "_source" : { "money" : 2342, "id" : "1" } }, { "_index" : "test" , "_type" : "_doc" , "_id" : "MNrDs3MBvTJiRW6OYTJx" , "_score" : 1.0, "_source" : { "money" : 123, "id" : "2" } }, { "_index" : "test" , "_type" : "_doc" , "_id" : "MtrDs3MBvTJiRW6OaTLM" , "_score" : 1.0, "_source" : { "money" : 89, "id" : "3" } } ] } }
很明显更新后的结果去掉了小数点后面的数,这并不是我想要的。这是怎么回事呢?经过查找很多的资料,最终在官方文档里找到这么一句话:
Use the division operator '/'
to DIVIDE one numeric type value by another. Rules for NaN values and division by zero follow the JVM specification. Division with integer values drops the remainder of the resultant value.
最后一句话的意思很明了,“整数相除会丢弃结果值的余数部分”。既然整数会有这种情况,那么我将 10000
换成 10000.0
再来试试,
POST test /_update_by_query { "script" : { "source" : "ctx._source.money=ctx._source.money/10000.0" , "lang" : "painless" }, "query" : { "match_all" : {} } }
这次的更新结果如下,
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 { "took" : 0, "timed_out" : false , "_shards" : { "total" : 1, "successful" : 1, "skipped" : 0, "failed" : 0 }, "hits" : { "total" : { "value" : 3, "relation" : "eq" }, "max_score" : 1.0, "hits" : [ { "_index" : "test" , "_type" : "_doc" , "_id" : "Ptq5s3MBvTJiRW6OoTEW" , "_score" : 1.0, "_source" : { "money" : 2342.3123, "id" : "1" } }, { "_index" : "test" , "_type" : "_doc" , "_id" : "QNq5s3MBvTJiRW6OpzFr" , "_score" : 1.0, "_source" : { "money" : 123.3656, "id" : "2" } }, { "_index" : "test" , "_type" : "_doc" , "_id" : "Qdq5s3MBvTJiRW6OrjEB" , "_score" : 1.0, "_source" : { "money" : 89.9234, "id" : "3" } } ] } }
这才是想要的结果。从整体的实现来看,虽然功能很简单,但是一些细节的地方处理不到位,很可能就耽误你很多的时间。用这时间来摸鱼,它不香吗。
注:Elasticsearch版本是7.8.0,以上操作都是通过 kibana
执行的。
相关链接:https://www.elastic.co/guide/en/elasticsearch/painless/current/painless-operators-numeric.html