|
〖 产品概况
〗
2003年12月20日,《尚唯全文检索及海量信息内容管理系统》通过国家专家组鉴定。专家们一致认为:《尚唯全文检索及海量信息内容管理系统》在海量数据存取技术、技术文本压缩技术、全文索引技术、中文自动分词技术等信息处理技术方面都取得了突破性的进展,各种指标及综合性能已达到国际水平!
《尚唯全文检索及海量信息内容管理系统》是由科技部西南信息中心牵头组织,武汉大学信息资源研究中心和重庆尚唯信息技术有限公司联合研制的。系统成功地采用了多项具有国内领先水平的中文信息处理技术,各种指标及其综合性能均大大领先于其它同类产品,达到了国内领先、国际先进水平,并具有完全独立自主的知识产权。
〖 产品主要功能 〗
《尚唯全文检索及海量信息内容管理系统》在功能上划分为数据管理和数据检索两大子系统。
〖 数据管理子系统
〗
数据管理子系统用于对系统内的全文数据与索引数据进行管理,提供一种高效便捷的方式来生成与定制全文数据库,以便在数据检索子系统中对数据内容进行检索。
主要有建库、建表、导入数据、创建和维护索引等功能,同时提供完善可靠的安全管理机制,保障数据的安全,并且具有操作和错误日志记录功能,使系统管理员能及时掌握系统的使用和运转情况,保障系统的稳定性和可靠性。
〖 数据检索子系统 〗
数据检索子系统用于对系统内的全文数据进行检索。包括:逻辑组合检索(与、或、非)、通配检索、前后一致检索、二次检索、中英混合检索、半、全角检索、简、繁体检索、数值检索(大于、小于、等于)等丰富的检索手段。
同时,《尚唯全文检索及海量信息内容管理系统》也提供了完善的、多样化的二次开发API接口,使用户可以用多种形式进行广泛的应用开发,设计出与其它应用程序风格一致的界面或是满足各种特殊的应用需求。
〖 产品特色 〗
1、 先进的符合中文语言特性的全文检索技术。包括字索引、词索引以及主题索引和字词混合索
引、串索引等,采用独创的文本压缩技术、索引压缩技术以及压缩检索技术。
2、 快速的检索能力,达到毫秒级的检索速度
3、 通过独创的文本压缩技术达到负空间膨胀率性能
4、 支持TB乃至EB级海量数据的存取
5、 强大丰富的检索功能,既符合非专业的普通查询也适用于专业性很强的检索
6、 多线程设计,支持大量并发用户同时访问
7、 全面支持UNICODE编码,彻底支持多内码(GB、GBK、BIG5),多语种(中文、英文、日文、俄
文)的全文检索。
8、 全面兼容多种数据库,实现数据的完美结合
9、 方便灵活、简单易用的管理能力
10、完善、丰富、多样化的二次开发API接口
|
分类
|
级别 |
查全查准率
|
性能指标
|
优势
|
| 字索引技术 |
毫秒级 |
查全率达到了100% |
索引数据的占原始数据的比例为0.3~0.4,空间膨胀比为-0.3~-0.1. |
解决提主题词、分词、维护词库等系统维护工作 |
| 词索引技术 |
毫秒级 |
查全率达到了98.6%,查准率达到了99.2% |
索引数据的占原始数据的比例小于0.1,空间膨胀比为-0.5~-0.3 |
解决了字索引技术不可避免的语义误检现象 |
| 主题索引技术 |
微秒级 |
查全率达到了92.8%,查准率达到了98.4% |
索引数据占原始数据的比例小于0.05,空间膨胀比为-0.6~-0.5 |
采用了高维文本特征矢量进行主题分析,具有更好的可理解性以及更高的查准率 |
〖 产品应用 〗
1、 大型数据库
对于海量数据的大型数据库,采用《尚唯全文检索及海量信息内容管理系统》可极大的改善数据计数器的检索性能,并支持往全文检索数据库中添加新数据,以保持数据的最新化。
2、 行业应用
对于大型的企业、媒体、政府单位和各种情报机构,《尚唯全文检索及海量信息内容管理系统》可以起到信息挖掘器的作用。通过将企事业单位内部现有的数据库系统中的数据导入到全文数据库当中,实现数据的无缝整合,使用二次开发接口开发出适合自身情况的Internet/Intranet应用程序,以供内部人员或客户对可用资料进行检索,使信息流动起来,充分发挥信息资源的潜在价值。
3、 数字图书馆建设
《尚唯全文检索及海量信息内容管理系统》可以作为数字化图书馆全文数据库的建设平台,为读者提供按书名、作者、出版商、图书类别等各种信息对图书进行检索的手段,解决非结构化信息的建库、发布和检索等问题。在此基础之上开发其他应用程序,使读者可以直接在Internet或是本地局域网内查阅各种图书。

|