iteye问答频道-凯发k8国际

→ 问题分类：java企业应用→ lucene× 351

0

票

2

回答

228 浏览

[已解决]30

最近公司要做全文检索，选择了lucene，研究了下，能够实现基本的创建索引及检索功能。不过在学习的过程中运到些问题，求大神指教。主要是求解一些解决思路。 1.是不是要将文章内容存储起来？如果将文章内容存储了，是不是影响效率 2.如果要做高亮显示，是不是必须将文章内容存储 3.有好的分页查询思路吗，看到网上提供的方案都是先把符合条件的数据都查询出来，然后只返回查询出的部分数据，以此来实现分页功能 4. ...

2014年12月04日 16:40

0
0 0 1

0

票

0

回答

399 浏览

[已解决]5

我有个朋友，现在国外的石油行业工作，他想做一个基于文件的企业搜索引擎，同时还想对大量有关钻井的非结构化数据进行数据挖掘。不知有没有高手愿意合作？他想找的是技术合伙人，全职兼职均可。如果您有兴趣和时间，请和我联系。我将我将提供更多的技术细节。多谢！

2014年11月18日 13:34

11
0 0 5

0

票

0

回答

296 浏览

[已解决]5

java.lang.classnotfundexception:org.apache.solr.util.plugin.solr resourceloaderaware solr-core.jar是在solr.war里面的。整合mmseg4j中文分词报错。配置是按照网上的文章配的，没整前solr可以启动，整后却一直报这个错误，但是mmseg4j的jar和配置应该都没问题。搞不明白，大家指指路！谢 ...

2014年11月12日 15:36

15
0 0 2

0

票

1

回答

1735 浏览

[已解决]0

public class lucenefactory { // song索引 private static indexreader songreader = null; private static indexsearcher songsearcher = null; private static directory songdirectory = null; private static ...

2014年10月23日 10:08

1
0 0 7

0

票

1

回答

1161 浏览

[已解决]5

刚刚接触lucene，用的是最新版的4.10.我现在有个这样的需求。人员总共有两组，a、b组。在设计索引时将a、b组的id也保存了。我现在想a组的人只能搜a组的内容。实现思路是：通过组id精确定位到某个组，然后使用关键字模糊搜素这个组内的所有内容。 lucene小白一个，还请大家多多指教。

2014年10月19日 12:24

12
0 1 3

0

票

3

回答

3727 浏览

[已解决]5

项目中使用solr做列表页分页搜索数据量大概在二十几万数据,应该不算大但不知道什么原因前面页码的时候还挺快,但越往后速度越慢,翻到二十万数据的时候非常慢,大概二十多秒才能出结果,甚至更慢,不带条件查询也是这样现在没有头绪,请问这可能是什么原因导致的呢? info - 2014-08-22 17:59:41.747; org.apache.solr.core.solrcore; [prop ...

2014年8月22日 18:16

25
0 0 1

0

票

0

回答

304 浏览

[已解决]3

最近刚接触solr，看到在solr中schema.xml中定义fieldtype 中的docvaluesformat和postingsformat属性，通过查看也不知道具体怎么用，该用在什么场景下，有了解的给解释一下这两个属性，最好给举一个例子或代码示例。

2014年7月07日 11:12

3
0 0 3

0

票

0

回答

392 浏览

[已解决]10

1.persistence.xml org.hibernate.ejb.hibernatepersistence ...

2014年7月05日 11:24

5
0 0 2

0

票

1

回答

3697 浏览

[已解决]10

如题。。。

2014年6月24日 17:22

20
0 0 3

1

票

3

回答

1420 浏览

[已解决]10

最近用lucene4.0做全文检索：公司大约有700gb左右的文件，格式有pdf、word、ppt、图片及其它等等，文件数量大约在70万个左右。我用多线程调用tika来解析文件，解析后的文本文件写入本地磁盘，耗时大概1-2天的样子；然后用lucene4.0对做索引，索引代码如下： analyzer analyzer = new standardanalyzer(version.lucene_40) ...

2014年6月16日 16:33

11
0 0 5

0

票

3

回答

1173 浏览

[已解决]5

现在公司有个项目对日志文件进行全文检索，准备用solr完成。现在遇到一个问题，由于日志的文件比较大，一般10几兆，大的已经达到几百兆了。我们将日志的内容设置为content字段，类型为string，但是当我们将documnet提交到server的时候，就报oom的错误，请问如何解决该问题？

2014年6月13日 11:20

26
0 0 3

0

票

2

回答

4585 浏览

[已解决]0

我在hdfs-site.xml中是这样配置的： dfs.name.dir /home/hadoop/tamp df ...

hibernate 企业应用 lucene soa

2014年5月30日 09:10

1
0 0 3

0

票

1

回答

2186 浏览

[已解决]5

安装了一台master和一台salve 启动后的两台机器的jps都是可看到进程的，但是在管理页面上却是0个nodedata 基本配置如下： 1.core-site.xml hadoop.tmp.dir /usr/hadoop/tmp< ...

企业应用 lucene soa

2014年5月29日 08:43

1
0 0 3

0

票

1

回答

636 浏览

[已解决]5

solr通过dataimport导入oracle数据库数据建立索引，表中含有blob类型的字段，在solrconfig.xml中配置了dataimport请求，data-config.xml文件配置见“data-config.zip”附件，启动solr运行，报“java.lang.runtimeexception: unsupported type : class java.lang.string” ...

2014年5月21日 15:37

11
0 0 4

0

票

5

回答

4056 浏览

[已解决]30

本人刚解除solr,测试从oracle导入数据，总得到如下信息： indexing completed. added/updated: 0 documents. deleted 0 documents. requests: 1, fetched: 4, skipped: 0, processed: 0 started: 6 minutes ago 添加的索引条数总为0，但实际获取到数据为4条，不 ...

2014年5月08日 11:50

0
0 0 2

0

票

0

回答

223 浏览

[已解决]0

es里面的将数据分为工作数据和持久化数据两种，工作数据可以都放在内存中，这样可以保证非常好的性能，es默认是先把索引存放到内存中，当内存满了时再持久化到本地硬盘，es节点间的数据会定时刷新和同步，那这个时间点在何时回执行？可以更改这个时间点吗？

2014年5月07日 11:40

4
0 0 26

0

票

3

回答

1270 浏览

[已解决]5

我想用lucene对一个529g大小的pdf文件进行索引，开始使用tika1.5，异常为： tika-198: illegal ioexception from org.apache.tika.parser.pdf.pdfparser@1455935 org.apache.tika.parser.compositeparser.parse(compositeparser.java:248) org ...

2014年5月06日 14:41

11
0 0 5

0

票

2

回答

1338 浏览

[已解决]30

使用lucene4.6.0版本建立的索引和搜索，在创建索引后会产生如下索引文件 [img] [/img] 但是在搜索时 scoredoc[] sds = tds.scoredocs; 中的sds总为空。求大神帮忙解决！！！！！！！代码如下： package nhky.bs.lucene.test.hellolucene; import java.io.file; import java. ...

2014年4月24日 17:52

6
0 0 3

0

票

2

回答

396 浏览

[已解决]5

查询是这样的首先先在lucene中查找相关电影的信息，得到电影的记录id，然后再到数据库中用in(1,2,3,...n)，查找喜欢这些电影的用户，得到用户的记录现在我要做分页，该以什么标准来分呢？由于2个查询的总记录数不一样，我是把pagenum传给lucene还是数据库呢，有没有高手遇到了这类问题，谢谢

数据库 lucene

2014年3月19日 22:24

10
0 0 5

0

票

0

回答

248 浏览

[已解决]10

想将lucene和hadoop结合，新手入门有点茫然，不知哪位可以提供点学习资料，万分感谢！！！！

2014年3月19日 15:26

3
0 0 5

« 上一页 1 …

我的问答 faq | 勋章

最新问题

排行榜

查看全部排名>>

本周活跃投票用户

最新评论

才看到你的提问，这个依赖的google翻译服务不可用了，应该没法用了
oznyang 评论了关于oznyang发布的i18ntool工具的使用
问题解决了吗？有源码学习下吧
huayang912 评论了 easyui datagrid 弹出窗口空白的解决方法
除了去掉字段的title，还能修改mybatis的设置：，哥只能帮你到这了
haihuichen 评论了 mybatis联teradata 查询时返回结果集为空，同样的代码在mysql下就可以返回结果集
因为td有title这个鬼东西，会导致查出来的全是中文字段名，去掉title就好了
haihuichen 评论了 mybatis联teradata 查询时返回结果集为空，同样的代码在mysql下就可以返回结果集
session id就是登陆的key，所有持有session id，一般不会串号，除非你作死，把session作为全局的类变量，或者静态变量来玩。作为局部变量的情况下，session id正确，就不可能串号。另外，如果是小程序、app，特别要注意，登陆的之前，要有一个专属接口，去拿到session id，不要用登陆的接口持有session，这里很容易出现串号。很难理解吗？将app和小程序视为浏览器的登陆过程，就很好理解了。浏览器登陆，首先是打开登陆页面，这个时候，session id就产生了，而不是登陆的接口产生的。我们团队x-teamer刚解决这个问题，所以分享一下可以加我vx， 26762685
26762685 评论了 sos!session串号现象
请教下，java监听打印机状态是如何解决的？
elbert 评论了 java怎么实现打印机监控
能用字符串拼接解决的优先用字符串拼接解决。比如time=2359转成时间, 用字符串拼接time/60 ":" time`我笔记本耗时0ms, string.format("d:d", time/60, time`) 耗时43ms. 具体情况具体分析
sandy8508 评论了 java string.format性能如何
去除 return；
feng_tai_jun 评论了 jsp里加return就会无法编译说unreachable code
这么久了，问题有结果了吗，也是遇到此问题（因为pdfbox加载的内容与原文不一致才想修改实现方式）查了一下aspose这个插件，功能很多，示例太少，没找到怎么指定打印机及纸张大小
xiaojunjava 评论了 java 连接打印机打印作业属性设置无效果问题
jdk有两个jar替换一下
xiaominzi 评论了 java.security.invalidalgorithmparameterexception: prime size must be multiple

global site tag (gtag.js) - google analytics