ElasticSearch基本介绍

2017-01-14

ElasticSearch起源
多年前，一个叫做Shay Banon的刚结婚不久的失业开发者，由于妻子要去伦敦学习厨师，他便跟着也去了。在他找工作的过程中，为了给妻子构建一个食谱的搜索引擎，他开始构建一个早期版本的Lucene。

直接基于Lucene工作会比较困难，所以Shay开始抽象Lucene代码以便Java程序员可以在应用中添加搜索功能。他发布了他的第一个开源项目，叫做“Compass”。
后来Shay找到一份工作，这份工作处在高性能和内存数据网格的分布式环境中，因此高性能的、实时的、分布式的搜索引擎也是理所当然需要的。然后他决定重写Compass库使其成为一个独立的服务叫做Elasticsearch。
第一个公开版本出现在2010年2月，在那之后Elasticsearch已经成为Github上最受欢迎的项目之一，代码贡献者超过300人。一家主营Elasticsearch的公司就此成立，他们一边提供商业支持一边开发新功能，不过Elasticsearch将永远开源且对所有人可用。
Shay的妻子依旧等待着她的食谱搜索……

Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域，Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。

但是，Lucene只是一个库。想要使用它，你必须使用Java来作为开发语言并将其直接集成到你的应用中，更糟糕的是，Lucene非常复杂，你需要深入了解检索的相关知识来理解它是如何工作的。

Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能，但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性，从而让全文搜索变得简单。

不过，Elasticsearch不仅仅是Lucene和全文搜索，我们还能这样去描述它：

分布式的实时文件存储，每个字段都被索引并可被搜索
分布式的实时分析搜索引擎
可以扩展到上百台服务器，处理PB级结构化或非结构化数据

以上内容摘自Elasticsearch权威指南

个人认为，使用之前要明白什么是库表，什么是文档。如果说与数据库相比较的话，库表是mysql里的数据库，文档是mysql里的表，es中是用doc_type来区分属于哪张表，所以在配置mapping的时候，需要对同一库表不同doc_type配置每个字段属性。

然后再去理解怎么在es中添加记录，以及桶的设计理念，在对es做查询时，我推荐使用SQL PLUGIN，要比原生的es查询语句简单的多。es会对字符串类型的属性分词，如果有对中文做聚类时，一定要对分析的中文字字段，设计为不分词。为什么要分词，这是es在做倒排索引时需要，具体可以查相关的文档。

谈到ElasticSearch，肯定也会联想到Logstash和kibana。后续会更新这三者如何搭配置使用。