Elasticsearch 搜索引擎技术

日期 2023-06-22 Elasticsearch 作者 sanjiu 共0评论

一、Elasticsearch 概述

1.1 Elasticsearch 是什么

2023-06-21T17:31:26.png

The Elastic Stack, 包括 Elasticsearch、Kibana、Beats 和 Logstash(也称为 ELK Stack)。以ES能够安全可靠地获取任何来源、任何格式的数据,然后实时地对数据进行搜索、分析和可视化。Elaticsearch,简称为 ES,ES 是一个开源的高扩展的分布式全文搜索引擎,是整个 ElasticStack 技术栈的核心。它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理 PB 级别的数据

1.2 全文搜索引擎

Google,百度类的网站搜索,它们都是根据网页中的关键字生成索引,我们在搜索的时候输入关键字,它们会将该关键字即索引匹配到的所有网页返回。还有常见的项目中应用日志的搜索等等。对于这些非结构化的数据文本,关系型数据库搜索不是能很好的支持。

1.3 Elasticsearch And Solr

Lucene 是 Apache 软件基金会 Jakarta 项目组的一个子项目,提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻。在 Java 开发环境里 Lucene 是一个成熟的免费开源工具。就其本身而言,Lucene 是当前以及最近几年最受欢迎的免费 Java 信息检索程序库。

但 Lucene 只是一个提供全文搜索功能类库的核心工具包,而真正使用它还需要一个完善的服务框架搭建起来进行应用。目前市面上流行的搜索引擎软件,主流的就两款:Elasticsearch 和 Solr,这两款都是基于 Lucene 搭建的,可以独立部署启动的搜索引擎服务软件。由于内核相同,所以两者除了服务器安装、部署、管理、集群以外,对于数据的操作 修改、添加、保存、查询等等都十分类似。

1.5 Elasticsearch 应用案例

  • GitHub: 2013 年初,抛弃了 Solr,采取 Elasticsearch 来做 PB 级的搜索。“GitHub 使用Elasticsearch 搜索 20TB 的数据,包括 13 亿文件和 1300 亿行代码”。
  • 维基百科:启动以 Elasticsearch 为基础的核心搜索架构
  • SoundCloud:“SoundCloud 使用 Elasticsearch 为 1.8 亿用户提供即时而精准的音乐搜索服务”。
  • 百度:目前广泛使用 Elasticsearch 作为文本数据分析,采集百度所有服务器上的各类指标数据及用户自定义数据,通过对各种数据进行多维分析展示,辅助定位分析实例异常或业务层面异常。目前覆盖百度内部 20 多个业务线(包括云分析、网盟、预测、文库、直达号、钱包、风控等),单集群最大 100 台机器,200 个 ES 节点,每天导入 30TB+数据。
  • 新浪:使用 Elasticsearch 分析处理 32 亿条实时日志。
  • 阿里:使用 Elasticsearch 构建日志采集和分析体系。
  • Stack Overflow:解决 Bug 问题的网站,全英文,编程人员交流的网站。

二、 Elasticsearch 安装

2.1 下载软件

Elasticsearch 的官方地址:https://www.elastic.co/cn/

![0](https://note.youdao.com/yws/res/4736/97B43E823FF043759B087CFFC9CAD437 "0")

![0](https://note.youdao.com/yws/res/4701/2FF45EEF8F454501908516079969ABBE "0")

2.2 安装软件

Windows 版的 Elasticsearch 的安装很简单,解压即安装完毕,解压后的 Elasticsearch 的目录结构如下:

![0](https://note.youdao.com/yws/res/4747/BE491E8FEBC647DE9761837C4E0001F7 "0")

2.3 运行ES服务

解压后,进入 bin 文件目录,点击 elasticsearch.bat 文件启动 ES 服务:

![0](https://note.youdao.com/yws/res/4704/9B5A3A1A8B9C453494673EBE6B9BA041 "0")

![0](https://note.youdao.com/yws/res/4706/72A5E8909B65464D92B74C97D43FCF9E "0")

![0](https://note.youdao.com/yws/res/4750/E75FEDB80CD04292B4C9D9EC65A1EFEC "0")

注意:9300 端口为 Elasticsearch 集群间组件的通信端口,9200 端口为浏览器访问的 http协议 RESTful 端口。

打开浏览器(推荐使用谷歌浏览器),输入地址:http\://localhost:9200,测试结果:

![0](https://note.youdao.com/yws/res/4757/2A05C24014F94EC1ACA5EE169AE349A9 "0")

2.4 问题解决

Elasticsearch 是使用 java 开发的,且 7.8 版本的 ES 需要 JDK 版本 1.8 以上,默认安装包带有 jdk 环境,如果系统配置 JAVA\_HOME,那么使用系统默认的 JDK,如果没有配置使用自带的 JDK,一般建议使用系统配置的 JDK。

双击启动窗口闪退,通过路径访问追踪错误,如果是“空间不足”,请修改config/jvm.options 配置文件:

![0](https://note.youdao.com/yws/res/4767/8766C9D726524D03A5BD62E3B8BF378D "0")

# 设置 JVM 初始内存为 1G。此值可以设置与-Xmx 相同,以避免每次垃圾回收完成后 JVM 重新分配内存
# Xms represents the initial size of total heap space
# 设置 JVM 最大可用内存为 1G
# Xmx represents the maximum size of total heap space
-Xms1g
-Xmx1g

三、Elasticsearch 基本操作

3.1 RESTful

REST 指的是一组架构约束条件和原则。满足这些约束条件和原则的应用程序或设计就是 RESTful。Web 应用程序最重要的 REST 原则是,客户端和服务器之间的交互在请求之间是无状态的。从客户端到服务器的每个请求都必须包含理解请求所必需的信息。如果服务器在请求之间的任何时间点重启,客户端不会得到通知。此外,无状态请求可以由任何可用服务器回答。

其实说白了,就是同一个请求地址,不同的请求方式,所操作的功能都不一致。常用的请求方式分为这几种: GET、POST、PUT、DELETE,对资源进行增删改查:

![0](https://note.youdao.com/yws/res/4777/0FA4263AB2E145B69DAB1B8ED814B355 "0")

3.2 Postman客户端安装

如果直接通过浏览器向 Elasticsearch 服务器发请求,那么需要在发送的请求中包含HTTP 标准的方法,而 HTTP 的大部分特性且仅支持 GET 和 POST 方法。所以为了能方便地进行客户端的访问,可以使用 Postman 软件。

Postman 是一款强大的网页调试工具,提供功能强大的 Web API 和 HTTP 请求调试。软件功能强大,界面简洁明晰、操作方便快捷,设计得很人性化。Postman 中文版能够发送任何类型的 HTTP 请求 (GET, HEAD, POST, PUT..),不仅能够表单提交,且可以附带任意类型请求体。

Postman 官网:https://www.getpostman.com

Postman 下载:https://www.getpostman.com/apps

3.3 数据格式

Elasticsearch 是面向文档型数据库,一条数据在这里就是一个文档。为了方便大家理解,我们将 Elasticsearch 里存储文档数据和关系型数据库 MySQL 存储数据的概念进行一个类比ES 里的 Index 可以看做一个库,而 Types 相当于表,Documents 则相当于表的行。这里 Types 的概念已经被逐渐弱化,Elasticsearch 6.X 中,一个 index 下已经只能包含一个type,Elasticsearch 7.X 中, Type 的概念已经被删除了。

![0](https://note.youdao.com/yws/res/4794/2194FABC467F43A189193F7EB62BED58 "0")

3.4 倒排索引

正排(正向)索引:

id        content
------------------------------
1001    my name is zhangsan
1002    my name is lisi

通过主键索引快速关联到存储的信息,这种索引叫做正排索引。但是也有问题,如果我们想要查询某种热门词汇,这时候必须模糊查询,并且模糊查询是区分大小写规则,会影响查询的准确率。

keyword  关键字  与 id关联
--------------------------------
name    关联id  1001,1002
zhang    关联id  1001

通过关键词查询主键id,来关联文件内容,正好与之前正排不一样。可是就不会提现关系型数据库的表的概念与作用已经没那么明显了。那么ES里面的Type类型,也就是表,已经开始没有这个概念了。

3.4 索引操作

3.4.1 创建索引

对比关系型数据库,创建索引就等同于创建数据库。

在 Postman 中,向 ES 服务器发 PUT 请求 :http://127.0.0.1:9200/test

![0](https://note.youdao.com/yws/res/4831/6A15C4DC1F04447EA7154390109B9943 "0")

{
"acknowledged"【响应结果】: true, # true 操作成功
"shards_acknowledged"【分片结果】: true, # 分片操作成功
"index"【索引名称】: "shopping"
}
# 注意:创建索引库的分片数默认 1 片,在 7.0.0 之前的 Elasticsearch 版本中,默认 5 片

注意,ES数据库,并不是与关系型数据库那样叫创建数据库,而是叫创建索引。put请求具有幂等性,你只要发出同样的请求结果一样的话,那么创建就会有问题,也就是唯一性。这时候再次发起请求,会提示错误。说明这个索引已经存在。

![0](https://note.youdao.com/yws/res/4843/FF0337C0AA1349F2BB04DD8580644D06 "0")

如果使用post请求,它也会提示你请求类型错误。因为post是没有幂等性的,每次操作可能不一致,在ES里面是不允许。只允许使用delete、put、get、head。

![0](https://note.youdao.com/yws/res/4849/BEAC21D0EC6A4C70AF81CEC50272E68D "0")

3.4.2 查看所有索引

在 Postman 中,向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/_cat/indices?v

![0](https://note.youdao.com/yws/res/4862/A9E56D2FCE71421BA485386FEF3BE93D "0")

这里请求路径中的\_cat 表示查看的意思,indices 表示索引,所以整体含义就是查看当前 ES服务器中的所有索引,就好像 MySQL 中的 show tables 的感觉,服务器响应结果说明如下:

![0](https://note.youdao.com/yws/res/4869/420D7988BBD54E1DBDA379DCD491CA9F "0")

3.4.3 查看单个索引

在 Postman 中,向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/test

![0](https://note.youdao.com/yws/res/4872/D1458A919480475EA369FA73F05FC3D4 "0")

{
    "test"【索引名】: {
        "aliases"【别名】: {},
        "mappings"【映射】: {},
        "settings"【设置】: {
            "index"【设置 - 索引】: {
                "routing": {
                    "allocation": {
                        "include": {
                            "_tier_preference": "data_content"
                        }
                    }
                },
                "number_of_shards"【设置 - 索引 - 主分片数量】: "1",
                "provided_name"【设置 - 索引 - 名称】: "test",
                "creation_date"【设置 - 索引 - 创建时间】: "1621261313954",
                "number_of_replicas"【设置 - 索引 - 副分片数量】: "1",
                "uuid"【设置 - 索引 - 唯一标识】: "JMbuU2hHTvea-KcfrHl5EA",
                "version"【设置 - 索引 - 版本】: {
                    "created": "7120199"
                }
            }
        }
    }
}

3.4.4 删除索引

在 Postman 中,向 ES 服务器发 DELETE 请求 :http://127.0.0.1:9200/test

![0](https://note.youdao.com/yws/res/4890/A15F0A45B1E94C6EAE8BA87CB280D093 "0")

重新访问索引时,服务器返回响应:索引不存在。

2023-06-21T17:39:00.png

3.5 映射操作

3.5.1 创建映射

在 Postman 中,向 ES 服务器发 PUT 请求 : 127.0.0.1:9200/test/\_mapping

{
    "properties": {
        "title": {
            "type": "text",
            "index": true
        },
        "category": {
            "type": "keyword",  #表示不可分词
            "index": true  #表示跑索引,可以精确或分词查询
        },
        "images": {
            "type": "text",
            "index": false #表示不允许被分词查询
        },
        "price": {
            "type": "float",
            "index": true
        }
    }
}

注意:映射的创建必须要考虑某一个字段后期是否需要统计,如果需要统计,type类型必须要设置成keyword,不允许分词,不然无法进行分组统计。

3.6 文档操作

3.6.1 创建文档

索引已经创建好了,接下来我们来创建文档,并添加数据。这里的文档可以类比为关系型数据库中的表数据,添加的数据格式为 JSON 格式。

在 Postman 中,向 ES 服务器发 POST 请求 :http://127.0.0.1:9200/test/_doc

请求体内容为:

{
    "title": "小米手机",
    "category": "小米",
    "images": "https://img.alicdn.com/bao/uploaded/i1/1819961584/O1CN01sCdyO41NZW23Hb21L_!!0-item_pic.jpg_200x200q90.jpg_.webp",
    "price": 3999.00
}

响应结果:

{
    "_index"【索引】: "test",
    "_type"【类型-文档】: "_doc",
    "_id"【唯一标识】: "ah3-enkB_2T5iYi-OIz7", #可以类比为 MySQL 中的主键,随机生成
    "_version"【版本】: 1,
    "result"【结果】: "created",  #这里的 create 表示创建成功
    "_shards"【分片】: {
        "total"【分片 - 总数】: 2,
        "successful"【分片 - 成功】: 1,
        "failed"【分片 - 失败】: 0
    },
    "_seq_no": 0,
    "_primary_term": 1
}

上面的数据创建后,由于没有指定数据唯一性标识(ID),默认情况下,ES 服务器会随机生成一个。

如果想要自定义唯一性标识,需要在创建时指定:127.0.0.1:9200/test/\_doc/0001

2023-06-21T17:40:35.png

此处需要注意:如果增加数据时明确数据主键,那么请求方式也可以为 PUT ,请求地址也可以使用\_create 和\_doc 一样: 127.0.0.1:9200/test/\_create/0003

3.6.2 查看文档

查看文档时,需要指明文档的唯一性标识,类似于 MySQL 中数据的主键查询。

在 Postman 中,向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/test/_doc/0001

2023-06-21T17:40:49.png

{
    "_index"【索引】: "test",
    "_type"【文档类型】: "_doc",
    "_id": "0001",
    "_version": 1,
    "_seq_no"【序号】: 1,
    "_primary_term": 1,
    "found"【查询结果】: true,   # true 表示查找到,false 表示未查找到
    "_source"【文档源信息】: {
        "title": "小米手机",
        "category": "小米",
        "images": "https://img.alicdn.com/bao/uploaded/i1/1819961584/O1CN01sCdyO41NZW23Hb21L_!!0-item_pic.jpg_200x200q90.jpg_.webp",
        "price": 3999.00
    }
}

3.6.3 修改文档,全量字段更新(根据主键修改)

和新增文档一样,输入相同的 URL 地址请求,如果请求体变化,会将原有的数据内容覆盖,注意是当条数据全部字段。

在 Postman 中,向 ES 服务器发 POST || PUT 请求 :http://127.0.0.1:9200/test/_doc/1

请求体内容为:

{
    "title": "华为手机2",
    "category": "华为3",
    "images": "http://www.gulixueyuan.com/hw.jpg",
    "price": 4999.00
}

修改成功后,服务器响应结果:

{
    "_index": "test",
    "_type": "_doc",
    "_id": "0001",
    "_version"【版本】: 32,  #每次更新,这里都会更新版本
    "result"【结果】: "updated",  #这里变成update
    "_shards": {
        "total": 2,
        "successful": 1,
        "failed": 0
    },
    "_seq_no": 34,
    "_primary_term": 1
}

3.6.4 修改文档,局部更新(根据主键修改)

修改数据时,也可以只修改某一给条数据的局部信息。

在 Postman 中,向 ES 服务器发 POST 请求 :http://127.0.0.1:9200/test/_update/1

请求体内容为:

{
    "doc": {
        "title": "测试华为手机2"
    }
}

响应结果:

2023-06-21T17:41:26.png

根据唯一性标识,查询文档数据,文档数据已经更新:

2023-06-21T17:41:35.png

3.6.5 删除文档 (根据主键删除)

删除一个文档不会立即从磁盘上移除,它只是被标记成已删除(逻辑删除)。

在 Postman 中,向 ES 服务器发 DELETE 请求 :http://127.0.0.1:9200/test/_doc/0001

2023-06-21T17:41:55.png

3.7 高级查询

Elasticsearch 提供了基于 JSON 提供完整的查询 DSL 来定义查询。

在 Postman 中,向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/test/_search

3.7.1 查询所有文档

{
    "query": {
        "match_all": {}
    }
}

# "query":这里的 query 代表一个查询对象,里面可以有不同的查询属性
# "match_all":查询类型,例如:match_all(代表查询所有), match (匹配查询,其实类似于模糊查询,与模糊查询不同,他是关键词查询),term , range(范围查询) 等等

2023-06-21T17:42:10.png

响应结果:

2023-06-21T17:42:22.png

{
    "took"【查询花费时间,单位毫秒】: 89,
    "timed_out"【是否超时】: false,
    "_shards"【分片信息】: {
        "total"【总数】: 1,
        "successful"【成功】: 1,
        "skipped"【忽略】: 0,
        "failed"【失败】: 0
    },
    "hits"【搜索命中结果】: {
        "total"【搜索条件匹配的文档总数】: {
            "value"【总命中计数的值】: 14,
            "relation"【计数规则】: "eq" # eq 表示计数准确, gte 表示计数不准确
        },
        "max_score"【匹配度分值】: 1.0,
        "hits"【命中结果集合】: []  #查询到的数据都在这里
    }
}

3.7.2 匹配查询 (关键词查询)

match 匹配类型查询,会把查询条件进行分词,然后进行查询,多个词条之间是 or 的关系。

在 Postman 中,向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/test/_search

{
    "query": {
        "match": {
            "category": "小华"   #注意,这个是关键词查询,ES就会给他自动分词,分成小  与  华,查询小华的字段会连同小米与华为的数据都会查询出来
        }
    }
}

2023-06-21T17:42:37.png

3.7.3 分页查询、字段筛选、排序

multi\_match 与 match 类似,不同的是它可以在多个字段中查询。

在 Postman 中,向 ES 服务器发 GET 请求 :http://127.0.0.1:9200/test/_search

{
    "query": {
        "match_all": {}
    },
    "from": 0,    #分页查询,第几页
    "size": 100,  #分页查询,每页多条数据
    "_source": [  #要显示哪些字段 
        "title","category"
    ],
    "sort": {    # 排序
        "_id": { # 这里排序文档的id
            "order": "asc"     #排序的字段:排序类型 asc 与 desc
        }
    }
}

响应结果:

{
    "took": 8,
    "timed_out": false,
    "_shards": {
        "total": 1,
        "successful": 1,
        "skipped": 0,
        "failed": 0
    },
    "hits": {
        "total": {
            "value": 14,
            "relation": "eq"
        },
        "max_score": null,
        "hits": [
            {
                "_index": "test",
                "_type": "_doc",
                "_id": "0002",
                "_score": null,
                "_source": {
                    "title": "小米手机",
                    "category": "小米"
                },
                "sort": [  #排序的字段
                    "0002"
                ]
            }
        ]
    }
}

3.7.4 多条件or查询

or 或 查询

{
    "query": {
        "bool": {
            "should": [  #or  或查询
                {
                    "match": {  #匹配查询,全文检索
                        "title": "华为"   title包含华为
                    }
                },
                {
                    "match": {  #匹配查询,全文检索
                        "title": "小米" title包含小米
                    }
                }
            ]
        }
    }
}

3.7.5 范围查询

{
    "query": {
        "bool": {
            "should": [
                {
                    "match": {
                        "title": "华为"
                    }
                },
                {
                    "match": {
                        "title": "小米"
                    }
                }
            ],
            "filter": {  #过滤
                "range": {  #方位
                    "price": { #要查询的字段
                        "gt": 0,  #大于
                        "lt": 4000 #小于
                    }
                }
            }
        }
    }
}

2023-06-21T17:43:03.png

3.7.6 完全匹配(精确匹配)

{
    "query": {
        "match_phrase": {  #精确匹配
            "title": "测试华为手机2"
        }
    }
}

3.7.7 聚合查询 aggs

{
    "aggs": {  #聚合操作
        "price_group": {  #名称,随意起名
            "terms": { #分组
                "field": "price"  #要分组哪个字段,注意,只有没有被分词的字段才可以分组查询,如果需要分组查询的字段需要另类在映射里面设置
            }
        }
    },
    "size": 0  #如果不加size数据量等于0,就会连原始数据也会显示出来,这里只要分组之后的数据
}

响应结果

{
    "took": 84,
    "timed_out": false,
    "_shards": {
        "total": 1,
        "successful": 1,
        "skipped": 0,
        "failed": 0
    },
    "hits": {
        "total": {
            "value": 14,
            "relation": "eq"
        },
        "max_score": null,
        "hits": []
    },
    "aggregations": {
        "price_group": {
            "doc_count_error_upper_bound": 0,
            "sum_other_doc_count": 0,
            "buckets": [
                {
                    "key": 3999.0,
                    "doc_count": 11
                },
                {
                    "key": 4999.0,
                    "doc_count": 2
                },
                {
                    "key": 100.0,
                    "doc_count": 1
                }
            ]
        }
    }
}
人生在世,错别字在所难免,无需纠正。