最新动态
Elasticsearch - 搜索引擎入门
2024-12-27 04:21

Elasticsearch是一个分布式可扩展的实时搜索和分析引擎。它能帮助你搜索、分析和浏览数据,而往往大家并没有在某个项目一开始就预料到需要这些功能。Elasticsearch之所以出现就是为了重新赋予硬盘中看似无用的原始数据新的活力。

Elasticsearch每一个独立的部分都不是新创的。比如全文搜索早就已经被实现,统计系统和分布式数据库也早已存在。但是革命之处在于能将这些

独立的功能结合成一个连贯、实时处理的整体。对于新用户,它的门槛也很低,当然他也会因为你的强大而变得更强大。

很不幸的是,目前的大部分数据库在提取数据方面都是非常的薄弱的。虽然它们可以通过精准的时间戳或者确切的数值来进行内容的筛选,但是它们可

以在全文搜索时做到同义词或者相关性搜索吗?他们可以汇总相同内容数据吗?最重要的是,每对如此巨大的数据量,它们能做到实时处理吗

在Elasticsearch中,每一个字段都会默认被建立索引。也就是说,每一个字段都会有一个反向索引以便快速搜索。而且,与大多数其他数据库不同的是

ES可以在同一个查询中使用所有的反向索引,以惊人的速度返回查询结果。这便是Elasticsearch如此突出的理由:Elasticsearch可以帮助你浏览并利用已经快

烂在数据库里的那些极难查询的数据。


了解搜索

Elasticsearch - 搜索引擎入门

Elasticsearch是一个建立在全文搜索引擎Apache Lucene(TM)基础上的搜索引擎,可以说Lucene是当今最先进,最高效的全功能开源搜索引擎框架。但是Lucene只是一个框架,要充分利用它的功能,你需要使用JAVA,并且在你的程序中集成Lucene。更糟的是,你需要做很多的学习了解,才能明白它是如何运行的,Lucene确实非常复杂。

Elasticsearch使用Lucene作为内部引擎,但是在你使用它做全文搜索时,只需要使用统一开发好的API即可,而不需要了解其背后复杂的Lucene的运行原理。当然Elasticsearch并不仅仅是Lucene这么简单,它不但包括了全文搜索功能,还可以进行以下工作
分布式实时文件存储,并将每一个字段都编入索引,使其可以被搜索。
实时分析的分布式搜索引擎。
可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据。

这么多的功能被集成到一台服务器上,你可以轻松地通过客户端或者任何你喜欢的程序语言与ES的RESTful API进行交流,默认端口为9200,可以在配置文件中修改。


面向文档

程序中的对象很少是单纯的键值与数值的列表。更多的时候它拥有一个复杂的结构,比如包含了日期、地理位置、对象、数组等。
迟早你会把这些对象存储在数据库中。你会试图将这些丰富而又庞大的数据都放到一个由行与列组成的关系数据库中,然后你不得不根据每个字段的格式来调整数据,然后每次重建它你都要检索一遍数据。


Elasticsearch是面向文档型数据库,这意味着它存储的是整个对象或者文档,它不但会存储它们,还会为他们建立索引,这样你就可以搜索他们了。你可以在Elasticsearch中索引、搜索、排序和过滤这些文档。不需要成行成列的数据。这将会是完全不同的一种面对数据的思考方式,这也是为什么Elasticsearch可以执行复杂的全文搜索的原因。

Elasticsearch使用JSON (或称作Javascript Object Notation )作为文档序列化的格式。JSON已经被大多数语言支持,也成为NoSQL领域的一个标准格式。它简单、简洁、易于阅读。在Elasticsearch中,将对象转换为JSON并作为索引要比在表结构中做相同的事情简单多了。

     ES可以通过curl以get post delete等方式进行数据操作,或者通过match匹配、filter过滤器、range范围查询、布尔查询、aggregations(取代facet)聚合等方式,官方网站(https://www.elastic.co/guide/index.html)有丰富的查询示例。同样,它支持bulk api批量查询,减少网络往返。


基本搜索请求格式

 


HEAD方法可以用来检查文档是否存在,加上-i参数获取反馈头文件。另外,在查询字符串中带上pretty参数,Elasticsearch就可以得到优美打印的更加易于识别的JSON结果。 _source 字段不会执行优美打印,它的样子取决于我们录入的样子。


全文搜索

一项在传统数据库很难实现的功能。 我们将会搜索所有喜欢rock climbing的员工

 


你会发现我们同样使用了 match 查询来搜索 about 字段中的rock climbing。我们会得到两个匹配的文档

 


相关性评分
通常情况下,Elasticsearch会通过相关性来排列顺序,第一个结果中,John Smith的 about 字段中明确地写到rock climbing。而在Jane Smith的 about 字段中,提及到了rock,但是并没有提及到climbing,所以后者的 _score 就要比前者的低。即所谓的相关性(与指定搜索查询匹配程度的一个相对度量,得分越高,文档越相关

另外计算得分会带来一定的性能损耗,当不需要计算得分时,可以使用filter过滤器。这个例子很好地解释了Elasticsearch是如何执行全文搜索的。对于Elasticsearch来说,相关性的感念是很重要的,而这也是它与传统数据库在返回匹配数据时最大的不同之处。


段落搜索

能够找出每个字段中的独立单词固然很好,但是有的时候你可能还需要去匹配精确的短语或者段落。例如,我们只需要查询到 about 字段只包含rock climbing的短语的员工。为了实现这个效果,我们将对 match 查询变为 match_phrase 查询进行精确匹配。

    以上就是本篇文章【Elasticsearch - 搜索引擎入门】的全部内容了,欢迎阅览 ! 文章地址:http://ww.kub2b.com/news/13452.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 http://ww.kub2b.com/mobile/ , 查看更多   
最新文章
环球圆桌对话:用反制告诉美方,霸道高关税是错的
编者按:近日,美国借“对等关税”的名义挑动全球范围的“关税战”,引起国际舆论关注。中国为什么必须就“对等关税”实施反制?
OPPO、ViVO、加多宝的品牌营销强在哪里?oppo手机是哪个国家的品牌「OPPO、ViVO、加多宝的品牌营销强在哪里?」
今天跟大家分享品牌营销,它有规律可循。▌一、营销的品牌导向1.企业的品牌导向:创业的时候,开始的时候是产品导向,还是品牌导
手机静态ip设置参数 这七步帮你完成手机静态ip「手机静态ip设置参数 这七步帮你完成」
手机在我们现在飞速发展的社会中有着十分重要的作用,随着互联网的发展,手机的速度也是越来越快,越来越流畅。但也有时候我们在
tplogin重新设置密码,tplogincn路由器设置管理密码是多少tplogincn手机登录「tplogin重新设置密码,tplogincn路由器设置管理密码是多少」
tplogincn路由器路由器的管理密码:1.一般路由器的管理账号和密码是:admin(小写字母)。2.有些路由器要求安全登录一次,并设置自己
vivo 是什么手机牌子?认识一款手机-VIVOvivo中文叫什么手机「vivo 是什么手机牌子?认识一款手机-VIVO」
vivo,一个从音乐手机起步,逐渐成长为全球知名品牌,在智能手机领域不断追求创新和完美的品牌。从最初的步步高音乐手机,到如今
游戏手机的自我救赎:ROG 8 Pro上手后,我看到了ROG的未来专门打游戏的手机「游戏手机的自我救赎:ROG 8 Pro上手后,我看到了ROG的未来」
来源|锚思科技作者|陈宝玉 游戏手机二选一,告诉你我的选择!!! 游戏手机作为手机的一个细分产品线,只有专业玩家和对游戏有
battery guru最新版 v2.3.13手机电池检测软件「battery guru最新版 v2.3.13」
battery guru最新版是一款能够对你安卓设备的电池进行保护,能够延长其使用寿命。多项功能的设置,让你能够通过更为精准的数据,
CBA1/4决赛:辽篮拿到赛点,青岛队扳平比分
4月15日,2024-2025赛季中国男子篮球职业联赛(CBA)季后赛四分之一决赛继续进行,首回合失利的青岛队客场大胜广厦队将总比分扳
单场0分又被雪藏!火箭队第18人恐难留队,三分精准,但功能单一
火箭队季后赛的对手已然确定。北京时间4月16号,孟菲斯灰熊队客场不敌勇士队。如此一来,灰熊队还得与独行侠以及国王队的胜者进
《刺客信条:奥德赛》v1.5.0十四项修改器[MrAntiFun][Epic]刺客信条手机版下载「《刺客信条:奥德赛》v1.5.0十四项修改器[MrAntiFun][Epic]」
《刺客信条:奥德赛》v1.5.0十四项修改器,包含无限肾上腺素,无限技能点,完美潜行等等功能助你轻松“暗杀”!让你在希腊尽情无