扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
作者:Dan Sullivan 来源:TechTarget中国 2014年1月27日
关键字: 亚马逊 CloudSearch
ZDNet至顶网服务器频道 01月27日 : 大数据对于企业商务智能的价值无可估量。然而,为了这种价值要挖掘大量非结构化文本数据,这意味着至少需要一个基本的搜索服务,有时候是更加高级的文本分析方法。使用亚马逊Web服务(AWS)的云管理者和开发者现在可以实施自己的搜索服务器,使用流行的开源工具,比如Lucene和Solr;或者使用亚马逊CloudSearch。在决定使用搜索即服务和DIY搜索时,有一些问题需要考虑。
亚马逊CloudSearch的搜索即服务
亚马逊CloudSearch是一种基于云的搜索服务,企业可以将这个应用集成到索引文件中,响应搜索查询。和其他的AWS服务一样,亚马逊管理服务器实现,而非使用者。亚马逊CloudSearch提供了免费的文本搜索,以及一些更加高级的功能,比如分面搜索和自定制相关性排序。
分面搜索。分面搜索可以让应用用户通过使用文档分类刚要缩小搜索的文档范围。比如,一个文档注册库可能根据多个面或者字段分类文档,比如创建日期、文档类型或者关键话题。
自定制相关性排序。默认情况下,搜索索引中的所有字段都被认为是平等相关的,这也并非总是最佳的权重模式。然而,相关字段权重允许开发者权衡一些字段(比如关键字)的重要性,来确定文档的相关度,最终,在结果集中排列文档。
除了为应用开发者和管理者提供核心搜索服务,亚马逊CloudSearch会根据需求扩展。也在内存中维护了搜索索引来减少延迟。
用Solr和LuceneDIY搜索
亚马逊服务通常在运行企业自己的服务时具备成本竞争力;然而,如果你愿意承担由于用程序管理开销导致的潜在的高成本风险,从而获得更大的控制权和更多的功能的话,你可以看一下第三方的工具。比如,开源搜索平台Apache Solr是一种免费的平台,包括支持高级文本搜索功能、线性扩展性、几近实时的索引和扩展插件架构。Solr也支持更加高级的文本分析操作,比如
单词拆分、正则表达式和听起来不错的过滤器。这个开源平台也包括支持国际化,对于拥有全球用户群的应用而言是一项重要的功能。
使用Solr的另一个优势是访问具体的应用可以减少你自己的开发者需求。以LucidWorks为例,提供了附件来执行命名实体识别;用Drools整合,开源业务规则引擎;调整搜索指针改善搜索结果质量和排序。
Lucene是一个基于Java的搜索和索引服务,也是另外一种选择,但是提供的功能比Solr少。实际上,Solr是基于Lucene的,但是增加了搜索和管理功能。
对比CloudSearch和DIY的成本
亚马逊CloudSearch的收费基于搜索实例的大小、文档批量上传、文档索引操作的数量和数据传输量。搜索实例的成本范围为:小实例每小时0.1美元到双倍超大实例每小时1.1美元
如果搜索服务需要持续较长时间,你可能需要考虑对比亚马逊CloudSearch成本和预留实例价格,而非按需价格。预留实例的一到三年承诺有效。
图1 不同场景成本
亚马逊CloudSearch成本如图所示。亚马逊CloudSearch的成本收到文档注册库的高度影响,决定了搜索实例大小。评估运行自己的搜索服务的成本,比如Lucene或者Solr服务器,由于管理成本的多变性更加困难,但是我们可以评估运行实例的成本,对比在亚马逊CloudSearch上的运行情况。使用按需价格和假定实例每天运行24小时,每月运行三十天,通用小型实例的成本为43.2美元,大型实例的成本为172.8美元,超大型实例的成本为345.6美元。DIY实例和亚马逊CloudSearch成本之间的差异并不明显。在用例查询大型实例中,DIY节省的成本可能少于管理员两个小时的成本。
亚马逊CloudSearch可以让开发者针对基于云的应用快速实施搜索功能。服务包括支持基本的搜索操作,以及一些比DIY方法更具成本竞争优势的更加高级的性能。对于需要更多高级需求的用户,管理自己的服务的额外支出等价于高级搜索和文本分析带来的好处。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者