小东Freeman + 关注

签名:我们爱我们的倒霉工作,也爱这千疮百孔的世界。

Solr建立索引时去除Html标签

发表于 10个月前   2758次查看    0评论  9 赞

在使用solr时,在数据库向solr导入数据时会把html标签同时导入,这在查询时会把html代码一同导出,会破坏页面排版样式,所以我们需要在建立索引时去除html标签

一、在 数据库 的读取文件data-config.xml 中的entity 标记里边添加 transformer=”HTMLStripTransformer” 代码 。

1
2
3
4
<entity name="article" transformer="HTMLStripTransformer" query="select aid,head,content,creatTime,
username,pageview from article" >
             <field column="aid" name="aid" />    
       </entity>

二、在field 字段需要过滤html代码的字段添加 stripHTML=”true”

1
<field column="content" name="content" stripHTML="true" />


这样配置完后重启tomcat,重新导入数据后就可以看到效果了,如果没有效果可以修改schema.xml文件中的fieldType标记中的内容,添加如下代码

1
<charFilter class=”solr.HTMLStripCharFilterFactory” />

如:

1
2
3
4
5
<analyzer type="query"
    <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"  mode="simple" reload="true" /> 
    <filter class="solr.LowerCaseFilterFactory" /> 
     <charFilter class="solr.HTMLStripCharFilterFactory" /> 
</analyzer>

这样就完成了Solr建立索引时去除Html标签的功能,喜欢就点个赞吧!

9人已赞


本文由Fun言网 – 小东Freeman创作,转载请务必附上本文链接和出处,欢迎参与我们的付费投稿计划


你还没有登录,请先 登录注册!
文章评论0