浏览器之家


横瓜数据库全文检索中间件 3.0

横瓜数据库全文检索中间件全套软件,英文名称HdMap,可让你轻松将自己的数据库文件架构成全文搜索引擎,你无需对自己的数据库文件做任何更改,就可以为数据库文件创建可供编程语言调用的ActiveX DLL全文检索接口,可用于任何与数据库检索有关的查询,例如全文搜索、垂直搜索、海量数据库LIKE式快速查询等。软件主要特点如下:
(1)支持目前所有主流数据库(例如Access、SQL_server、Oracle、MySQL、DB2等),这些数据库文件都可以被架构成全文检索,HdMap并且支持异构数据库、多数据库,最多可容纳200个任意类型的数据库,但每个数据库须少于999万条记录。
(2)中间件接口支持目前所有主流编程语言调用(例如PHP、ASP、VB、VC、Delphi、C#等),程序员可在HdMap基础上用几十行代码打造出亿级规模的搜索引擎来。而对于打造堪比百度规模的搜索引擎,你也只缺少分布式通讯模块的编写。
(3)HdMap采用最大右匹配分词切词技术、倒排技术、MD5摘要信息抽取技术、硬盘整理加速技术、中文海量词典查询技术、HTM转换TXT技术、ActiveX DLL中间件技术、实时增量索引技术等。分词速度约为2500万字/分钟,约占99.984%关键词检索时间小于0.001秒。最低PC配置内存2G、主频1G、NTFS文件系统、中高档转速硬盘、WINDOW系列操作系统。
(4)绿色软件解压即可使用,软件使用前先执行Setup.exe以安装system32支持库。
(5)HdMap基础词典已用MD5加密封装,用户可在dic.txt中自由添加新词典,新词被添加到dic.txt后,被检索的几率变大。若不添加新词,也可以被检索到,只是几率稍小些。
(6)若要使用HdMap必须确保网络可以连接。此外不得将本软件用于赢利目的、销售他人、非法用途等,否则将会被追究法律责任。搜索引擎开发及合作,请联系QQ(601069289)。
2.数据库全文检索架构步骤(仅需4步即可完成搜索架构):
(1)准备工作。准备若干个存有大量记录的数据库,确保每个数据库须少于999万条记录。最好确保每个数据库有一个字段建立索引并且取值唯一,以便该字段值作为检索结果返回。
(2)配置set.ini文件。配置架构脚本,以下为配置例子并加注释,请务必详细研究:
DataBase: //列出用于构建搜索的全部数据库DB1、DB2...
DB1=[Provider=Microsoft.Jet.OLEDB.4.0;Data Source=Dataweb.mdb;Persist Security Info=False|web|title^txt|]
DB2=[Provider=Microsoft.Jet.OLEDB.4.0;Data Source=Data1.mdb;Persist Security Info=False|web|title^txt|id]
//[数据库连接字符串|表名|字段名,该字段value文本被列为检索内容,多个可用^隔开|字段名,该字段value值作为检索结果返回,为空时返回记录的存储顺序即第N条记录]
SearchIndex:
HD1=[1] //创建第1个索引HD1,该索引由数据库DB1加工而成。由HIndex.exe执行创建。
HD2=[1|2] //创建第2个索引HD2,该索引由数据库DB1和DB2加工而成。HD2由HIndex.exe依据该条配置信息执行创建。
SearchOrder:
SR=[2|1] //全部索引的检索顺序:HD2->HD1,按照顺序进行检索,排序靠前的索引所涉及的数据库记录排序靠前,数据内记录原排序保持不变。由DeepMap.Dll接口函数getmA或getmB依据该条配置顺序执行检索。
(3)执行创建索引。启动HIndex.exe,输入英文数字1并点击按钮开始创建第1个索引HD1。输入英文数字2并点击按钮开始创建第2个索引HD2,依次类推。
(4)调用检索接口DeepMap.DLL。使用DeepMap.dll前须引用该DLL或不改变目录注册该DLL。具体调用接口编程以VB调用ActiveX DLL为例进行说明,其它编程语言依此参照。
● public test As DeepMap.HLL
代码说明:在公共模块中声明全局变量test
● Set test = New DeepMap.HLL
代码说明:在载入模块中执行该条代码,该条代码在软件退出前只允许执行一次。创建DLL对象实例。
● Result=testdll.getmA("中国", 400, 1)
代码说明:在调用模块中执行该条代码,该条代码可被多次调用。检索'中国'符合条件的前400个记录。函数getmA(关键字, 返回前N条检索记录, 重复数据库是否过滤相同记录),函数getmB与getmA完全一样,getmB是精确搜索,getmA是智能搜索拆词更细小。函数getmA返回结果为符合检索条件的数据库记录,返回数据库记录的物理存储顺序或数据库记录的配置字段的值[ID]。函数getmA返回结果如下图:

● RE=testdll.Dload(100)
代码说明:该条代码一般不用。若增量索引或set.ini信息被修改时,须执行一次Dload函数来刷新DeepMap.DLL内存中已经载入的数据信息。
3.附注:
中间件DeepMap.DLL里面的其它函数是搜索引擎技术的辅助函数,可有可无,故不做介绍,有兴趣的可自行测试。程序员通过提取getmA函数返回的文本内容,并依此追踪原数据库相关记录,可开发出任何自主的数据库检索应用。软件使用请详细研究软件使用须知。搜索引擎开发及合作请联系QQ(601069289)。
[email protected]

下载地址:

评论

没安装畅言模块