iteye问答频道-凯发k8国际

0

2

回答

228 浏览

[已解决]30

最近公司要做全文检索,选择了lucene,研究了下,能够实现基本的创建索引及检索功能。不过在学习的过程中运到些问题,求大神指教。主要是求解一些解决思路。 1.是不是要将文章内容存储起来?如果将文章内容存储了,是不是影响效率 2.如果要做高亮显示,是不是必须将文章内容存储 3.有好的分页查询思路吗,看到网上提供的方案都是先把符合条件的数据都查询出来,然后只返回查询出的部分数据,以此来实现分页功能 4. ...

2014年12月04日 16:40
0

0

回答

399 浏览

[已解决]5

我有个朋友,现在国外的石油行业工作,他想做一个基于文件的企业搜索引擎,同时还想对大量有关钻井的非结构化数据进行数据挖掘。不知有没有高手愿意合作?他想找的是技术合伙人,全职兼职均可。如果您有兴趣和时间,请和我联系。我将我将提供更多的技术细节。多谢!

2014年11月18日 13:34
0

0

回答

296 浏览

[已解决]5

java.lang.classnotfundexception:org.apache.solr.util.plugin.solr resourceloaderaware solr-core.jar是在solr.war里面的。整合mmseg4j中文分词报错。 配置是按照网上的文章配的,没整前solr可以启动,整后却一直报这个错误,但是mmseg4j的jar和配置应该都没问题。搞不明白,大家指指路!谢 ...

2014年11月12日 15:36
0

1

回答

1735 浏览

[已解决]0

public class lucenefactory { // song索引 private static indexreader songreader = null; private static indexsearcher songsearcher = null; private static directory songdirectory = null; private static ...

2014年10月23日 10:08
0

1

回答

1161 浏览

[已解决]5

刚刚接触lucene,用的是最新版的4.10.我现在有个这样的需求。 人员总共有两组,a、b组。 在设计索引时将a、b组的id也保存了。 我现在想a组的人只能搜a组的内容。 实现思路是: 通过组id精确定位到某个组,然后使用关键字模糊搜素这个组内的所有内容。 lucene小白一个,还请大家多多指教。

2014年10月19日 12:24
0

3

回答

3727 浏览

[已解决]5

项目中使用solr做列表页分页搜索 数据量大概在二十几万数据,应该不算大 但不知道什么原因 前面页码的时候还挺快,但越往后速度越慢,翻到二十万数据的时候非常慢,大概二十多秒才能出结果,甚至更慢,不带条件查询也是这样 现在没有头绪,请问这可能是什么原因导致的呢? info - 2014-08-22 17:59:41.747; org.apache.solr.core.solrcore; [prop ...

2014年8月22日 18:16
0

0

回答

304 浏览

[已解决]3

最近刚接触solr,看到在solr中schema.xml中定义fieldtype 中的docvaluesformat和postingsformat属性,通过查看也不知道具体怎么用,该用在什么场景下,有了解的给解释一下这两个属性,最好给举一个例子或代码示例。

2014年7月07日 11:12
0

0

回答

392 浏览

[已解决]10

1.persistence.xml org.hibernate.ejb.hibernatepersistence ...

2014年7月05日 11:24
0

1

回答

3697 浏览

[已解决]10

如题。。。

2014年6月24日 17:22
1

3

回答

1420 浏览

[已解决]10

最近用lucene4.0做全文检索:公司大约有700gb左右的文件,格式有pdf、word、ppt、图片及其它等等,文件数量大约在70万个左右。我用多线程调用tika来解析文件,解析后的文本文件写入本地磁盘,耗时大概1-2天的样子;然后用lucene4.0对做索引,索引代码如下: analyzer analyzer = new standardanalyzer(version.lucene_40) ...

2014年6月16日 16:33
0

3

回答

1173 浏览

[已解决]5

现在公司有个项目对日志文件进行全文检索,准备用solr完成。现在遇到一个问题,由于日志的文件比较大,一般10几兆,大的已经达到几百兆了。我们将日志的内容设置为content字段,类型为string,但是当我们将documnet提交到server的时候,就报oom的错误,请问如何解决该问题?

2014年6月13日 11:20
0

2

回答

4585 浏览

[已解决]0

我在hdfs-site.xml中是这样配置的: dfs.name.dir /home/hadoop/tamp df ...

2014年5月30日 09:10
0

1

回答

2186 浏览

[已解决]5

安装了一台master和一台salve 启动后的两台机器的jps都是可看到进程的,但是在管理页面上却是0个nodedata 基本配置如下: 1.core-site.xml hadoop.tmp.dir /usr/hadoop/tmp< ...

2014年5月29日 08:43
0

1

回答

636 浏览

[已解决]5

solr通过dataimport导入oracle数据库数据建立索引,表中含有blob类型的字段,在solrconfig.xml中配置了dataimport请求,data-config.xml文件配置见“data-config.zip”附件,启动solr运行,报“java.lang.runtimeexception: unsupported type : class java.lang.string” ...

2014年5月21日 15:37
0

5

回答

4056 浏览

[已解决]30

本人刚解除solr,测试从oracle导入数据,总得到如下信息: indexing completed. added/updated: 0 documents. deleted 0 documents. requests: 1, fetched: 4, skipped: 0, processed: 0 started: 6 minutes ago 添加的索引条数总为0,但实际获取到数据为4条,不 ...

2014年5月08日 11:50
0

0

回答

223 浏览

[已解决]0

es里面的将数据分为工作数据和持久化数据两种,工作数据可以都放在内存中,这样可以保证非常好的性能,es默认是先把索引存放到内存中,当内存满了时再持久化到本地硬盘,es节点间的数据会定时刷新和同步,那这个时间点在何时回执行?可以更改这个时间点吗?

2014年5月07日 11:40
0

3

回答

1270 浏览

[已解决]5

我想用lucene对一个529g大小的pdf文件进行索引,开始使用tika1.5,异常为: tika-198: illegal ioexception from org.apache.tika.parser.pdf.pdfparser@1455935 org.apache.tika.parser.compositeparser.parse(compositeparser.java:248) org ...

2014年5月06日 14:41
0

2

回答

1338 浏览

[已解决]30

使用lucene4.6.0版本建立的索引和搜索,在创建索引后会产生如下索引文件 [img] [/img] 但是在搜索时 scoredoc[] sds = tds.scoredocs; 中的sds总为空。求大神帮忙解决!!!!!!! 代码如下: package nhky.bs.lucene.test.hellolucene; import java.io.file; import java. ...

2014年4月24日 17:52
0

2

回答

396 浏览

[已解决]5

查询是这样的 首先先在lucene中查找相关电影的信息,得到电影的记录id, 然后再到数据库中用in(1,2,3,...n),查找喜欢这些电影的用户,得到用户的记录 现在我要做分页,该以什么标准来分呢?由于2个查询的总记录数不一样,我是把pagenum传给lucene还是数据库呢,有没有高手遇到了这类问题,谢谢

2014年3月19日 22:24
0

0

回答

248 浏览

[已解决]10

想将lucene和hadoop结合,新手入门有点茫然,不知哪位可以提供点学习资料,万分感谢!!!!

2014年3月19日 15:26

排行榜

本周活跃投票用户

最新评论

global site tag (gtag.js) - google analytics
网站地图