概述
一、中文分析器IK Analyzer
IK Analyzer 是一个开源的,基亍 java 语言开发的轻量级的中文分词工具包。从 2006年 12 月推出 1.0 版开始, IKAnalyzer 已经推出了 4 个大版本。最初,它是以开源项目Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件。从 3.0 版本开始,IK 发展为面向 Java 的公用分词组件,独立亍 Lucene 项目,同时提供了对 Lucene 的默认优化实现。在 2012 版本中,IK 实现了简单的分词歧义排除算法,标志着 IK 分词器从单纯的词典分词向模拟语义分词衍化。
1.1 IK Analyzer配置
步骤:
1、把IKAnalyzer2012FF_u1.jar 添加到 solr 工程的 lib 目录下
2、创建WEB-INF/classes文件夹 把扩展词典、停用词词典、配置文件放到 solr 工程的 WEB-INF/classes 目录下。
3、修改 Solrhome 的solrhomecollection1confschema.xml 文件,配置一个 FieldType,使用 IKAnalyzer
<fieldType name="text_ik" class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
http://127.0.0.1:8080/solr/
配置自己的扩展字典
- 在apache-tomcat服务器的webappssolrWEB-INFclasses,创建一个ext.dic文件
- apache-tomcat服务器的webappssolrWEB-INFclasses中的IKAnalyzer.cfg.xml
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典-->
<entry key="ext_dict">ext.dic;</entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords">stopword.dic;</entry>
</properties>
3.在ext.dic文件中添加自己需要的词语
配置域
域相当于数据库的表字段,用户存放数据,因此用户根据业务需要去定义相关的Field(域),一般来说,每一种对应着一种数据,用户对同一种数据进行相同的操作。
域的常用属性:
• name:指定域的名称
• type:指定域的类型
• indexed:是否索引
• stored:是否存储
• required:是否必须
• multiValued:是否多值
域
修改solrhome的schema.xml 文件 设置业务系统 Field
<field name="item_goodsid" type="long" indexed="true" stored="true"/>
<field name="item_title" type="text_ik" indexed="true" stored="true"/>
<field name="item_price" type="double" indexed="true" stored="true"/>
<field name="item_image" type="string" indexed="false" stored="true" />
<field name="item_category" type="string" indexed="true" stored="true" />
<field name="item_seller" type="text_ik" indexed="true" stored="true" />
<field name="item_brand" type="string" indexed="true" stored="true" />
复制域
复制域的作用在于将某一个Field中的数据复制到另一个域中
<field name="item_keywords" type="text_ik" indexed="true" stored="false" multiValued="true"/>
<copyField source="item_title" dest="item_keywords"/>
<copyField source="item_category" dest="item_keywords"/>
<copyField source="item_seller" dest="item_keywords"/>
<copyField source="item_brand" dest="item_keywords"/>
动态域
当我们需要动态扩充字段时,我们需要使用动态域。对于品优购,规格的值是不确定的,所以我们需要使用动态域来实现。需要实现的效果如下:
配置:
<dynamicField name="item_spec_*" type="string" indexed="true" stored="true" />
Spring Data Solr入门
- 创建maven工程,pom.xml中引入依赖
<dependency>
<groupId>org.springframework.data</groupId>
<artifactId>spring-data-solr</artifactId>
<version>4.2.4.RELEASE</version>
</dependency>
<dependency>
<groupId>org.springframework</groupId>
<artifactId>spring-test</artifactId>
<version>4.2.4.RELEASE</version>
</dependency>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.11</version>
<scope>test</scope>
</dependency>
- 完善项目
- 在src/main/resources下创建 applicationContext-solr.xml
<?xml version="1.0" encoding="UTF-8"?>
<beans xmlns="http://www.springframework.org/schema/beans"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xmlns:solr="http://www.springframework.org/schema/data/solr"
xsi:schemaLocation="http://www.springframework.org/schema/beans
http://www.springframework.org/schema/beans/spring-beans.xsd
http://www.springframework.org/schema/data/solr
http://www.springframework.org/schema/data/solr/spring-solr-1.0.xsd">
<!-- solr服务器地址 -->
<solr:solr-server id="solrServer" url="http://127.0.0.1:8080/solr" />
<!-- solr模板,使用solr模板可对索引库进行CRUD的操作 -->
<bean id="solrTemplate" class="org.springframework.data.solr.core.SolrTemplate">
<constructor-arg ref="solrServer" />
</bean>
</beans>
- 创建com.wangxing.datasolr.bean,将品优购的TbItem实体类拷入本工程,属性使用@Field注解标识 。如果属性与配置文件定义的域名称不一致,需要在注解中指定域名称。
public class TbItem implements Serializable {
@Field
private Long id;
@Field("item_title")
private String title;
private String sellPoint;
@Field("item_price")
private BigDecimal price;
private Integer stockCount;
private Integer num;
private String barcode;
@Field("item_image")
private String image;
private Long categoryid;
private String status;
private Date createTime;
private Date updateTime;
private String itemSn;
private BigDecimal costPirce;
private BigDecimal marketPrice;
private String isDefault;
@Field("item_goodsid")
private Long goodsId;
private String sellerId;
private String cartThumbnail;
@Field("item_category")
private String category;
@Field("item_brand")
private String brand;
private String spec;
@Field("item_seller")
private String seller;
......
}
增加
创建测试类TestMain .java
package com.wangxing.springdatasolrdemo;
import com.wangxing.datasolr.bean.TbItem;
import org.springframework.context.ApplicationContext;
import org.springframework.context.support.ClassPathXmlApplicationContext;
import org.springframework.data.solr.core.SolrTemplate;
import java.math.BigDecimal;
public class TestMain {
public static void main(String[] args) {
ApplicationContext ac=new ClassPathXmlApplicationContext("applicationContext-solr.xml");
SolrTemplate solrTemplate=(SolrTemplate)ac.getBean("solrTemplate");
//测试添加
TbItem item=new TbItem();
item.setId(2L);
item.setBrand("苹果");
item.setCategory("笔记本");
item.setGoodsId(2L);
item.setSeller("苹果专卖店");
item.setTitle("苹果 12");
item.setPrice(new BigDecimal(8000));
solrTemplate.saveBean(item);
solrTemplate.commit();
}
}
修改
public static void main(String[] args) {
ApplicationContext ac=new ClassPathXmlApplicationContext("applicationContext-solr.xml");
SolrTemplate solrTemplate=(SolrTemplate)ac.getBean("solrTemplate");
//测试添加
TbItem item=new TbItem();
item.setId(2L);
item.setBrand("苹果");
item.setCategory("手机");
item.setGoodsId(2L);
item.setSeller("苹果手机专卖店");
item.setTitle("苹果 iPhone12");
item.setPrice(new BigDecimal(5000));
solrTemplate.saveBean(item);
solrTemplate.commit();
}
//修改与添加操作相同,只要id一样就会修改。
主键查询
//测试主键查询
TbItem item= solrTemplate.getById(1,TbItem.class);
solrTemplate.commit();
System.out.println(item.getTitle());
分页查询
为了测试分页查询,我们为solr添加一组数据
for(long i=3;i<=50;i++) {
TbItem item = new TbItem();
item.setId(i);
item.setBrand("苹果-"+i);
item.setCategory("手机");
item.setGoodsId(i);
item.setSeller("苹果手机专卖店");
item.setTitle("苹果 iphone-"+i);
item.setPrice(new BigDecimal(5000));
solrTemplate.saveBean(item);
solrTemplate.commit();
}
//分页查询
//创建查询对象
Query query=new SimpleQuery("*:*");
//设置查询的开始索引(默认0)【(当前页码-1)*每页记录数】
query.setOffset(10);
//设置每页记录数(默认10)
query.setRows(10);
//执行查询
ScoredPage<TbItem> page = solrTemplate.queryForPage(query, TbItem.class);
System.out.println("总记录数:"+page.getTotalElements());
List<TbItem> list = page.getContent();
for(TbItem item:list){
System.out.println(item.getTitle());
}
条件查询
Criteria 用于对条件的封装:
Query query=new SimpleQuery("*:*");
//并且
//Criteria criteria=new Criteria("item_title").contains("2");
//criteria=criteria.and("item_title").contains("5");
//或者
//Criteria criteria=new Criteria("item_title").contains("2");
//criteria=criteria.or("item_title").contains("5");
Criteria criteria=new Criteria("item_title").contains("华为");
query.addCriteria(criteria);
//query.setOffset(20);//开始索引(默认0)
//query.setRows(20);//每页记录数(默认10)
ScoredPage<TbItem> page = solrTemplate.queryForPage(query, TbItem.class);
System.out.println("总记录数:"+page.getTotalElements());
List<TbItem> list = page.getContent();
for(TbItem item:list){
System.out.println(item.getTitle());
}
最后
以上就是辛勤棒球为你收集整理的中文分析器IK Analyzer的全部内容,希望文章能够帮你解决中文分析器IK Analyzer所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复