`
guoxinzz
  • 浏览: 431018 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

垂直搜索引擎模块设计

 
阅读更多

1:配置模块:
采集目标:新闻,用户评论,博客,论坛等等
采集源配置的集成开发环境,可视化。

2:爬虫模块:
网站内容组织结构(网站地图)的自动识别。
支持cookie二次验证(如新华网),验证码登陆的支持编辑弹出验证

3:初次过滤模块(过滤广告,导航等无用信息)
概览页面选定区域内包含链接的规则识别、地址过滤和转换。
细览页面选定区域内包含数据的精确识别、格式转换(内码转换,地址转换,时间转换等等)
基于视觉的网页自动分区技术(VIPS),网页分区后的区域类型和特征的自动标注。
DOM树结构分析;基于分区的网页结构分析思想,可视化的区域选择配置

4:任务调度模块:更新策略,调度策略,日志管理
预设监控目标网站的各项阈值,提供异常情况发生的报警机制;考虑URL二级映射,以便爬虫服务器在动态增减后数据交换量尽量少

5:数据挖掘模块:
文本分类、文本聚类、相似性检索、自动摘要、自动分词、信息抽取、敏感信息过滤、情感分析、拼音检索、相关短语检索
5.1文本分类:
基于统计的文本分类(训练语料库,支持修改补充语料库和规则库);支持多级和复分;支持基于语义分析的向量空间模型,用户可以建立知识词典,模块自动调用知识库资源,进一步提高分类的精确度。
基于规则体系的文本分类(编写分类规则):
规则支持“与或非”等逻辑运算和词频数条件设置。
比如表达式:作者=(刘翔+顾宝刚)- 正文=(比赛);标题=(复出) + 正文=(美国+治疗)
K近邻法和支持向量机等分类算法:http://www.360doc.com/content/070716/23/11966_615236.html

某SVM分类器:http://www.csie.ntu.edu.tw/~cjlin/libsvm/

5.2文本聚类:
将相近、相似或者相同特征的文本聚合在一起

5.3相似性检索
用户可以自定义相似度阈值
提取网页摘要、关键词和主题词等特征,自动生成唯一序列,自动判断信息指纹是否相等
效率方面用倒排索引机制等等提高

5.4自动摘要
用户可以建立专业词典,自定义线索词
网页包含关键词的自动提取

5.5自动分词
第一阶段:正向减字最大匹配+逆向减字最大匹配,如果不相同,再用回溯法重新处理
第二阶段:
规则与统计相结合,内嵌分词歧义规则库
提供词性标注功能,准确识别人名、地名、组织机构名等信息
分词词典:系统支持设立主题词表、同义词/反义词典、禁用词典以及词典按需 维护
分词规则库:统计建立了大量歧义排除规则,有效提高了分词准确性、提高了 查准率。
支持主题词典自动扩展检索、同义词/反义词自动扩展检索、全半角 自动扩展检索、简繁体自动扩展检索(基于权威知识库体系,辅助元数据信息的纠错和补全)

5.6信息抽取
抽取目标:结构化(时间),半结构化(html),非结构化(人名、地名、机构名、时间以及货币等等)

抽取方法:
1:模板技术(人工标注各类模板库,然后自动萃取。有可能的话用神经网络自动训练)
2:启发式的获取(新闻的正文一般在标题下面最近的一块大区域)
3:利用视觉相似性自动分析网页语义结构(目前比较流行的方式)

对于js信息(js解释器本地解析或者模拟触发js事件,如搜狐论坛)

5.7情感分析

6存储模块:
结构化数据:各种关系数据库
非机构化数据:文件系统Lucene做索引,BigTable(HBase、Hypertable)
分布式:Hadoop集群,MogileFS自动备份等等


分享到:
评论

相关推荐

    垂直搜索引擎的设计与实现

    在总体设计方面采用的是模块化思想,垂直搜索引擎被分为搜集子系统、索引子系统和检索子系统,各子系统相对独立,实现较为方便。 本文实现的垂直搜索引擎已经在实际中成功运用,具有较好的效果,很好地满足了主题...

    论文研究-手机信息垂直搜索引擎的设计与实现 .pdf

    手机信息垂直搜索引擎的设计与实现,华大年,李胜喜,文章研究了垂直搜索引擎的一般特点,分析全文索引开发包Lucene与开源网络爬虫Heritrix的架构与主要模块功能并根据实际需要进行了相关�

    基于Lucene的房产信息垂直搜索引擎的研究 (2011年)

    结果设计建立了包含网页抓取模块、网页解析模块、数据库存 储模块、索引建立模块、查询模块组成的房产信息垂直搜索引擎。结论该房产信息垂直搜索引 擎可为用户提供房源信息、房产新闻和数据的检索、查询与分析等服务...

    毕业设计-旅游系统源码-trip-search:solr构建景点搜索引擎

    以开源搜索框架Solr和Lucene为基础,以另外一些开源项目例如Heritrix、webmagic、Zookeeper、Ionic、gradle、jetty等为工具,并在相关文档和技术博客的帮助下,完成了整个垂直搜索引擎系统的开发。用到的技术主要有...

    嘟嘟搜索 7.0 VB加速版.exe

    本搜索引擎是采用倒排结构算法,ASP_VB脚本,Access数据库的小型垂直(行业)搜索引擎。 具有平台适应性好,易于维护,速度快,源码开放等优点。 平均单个网页处理时间:小于15秒。 平均检索时间:小于300豪秒。 ...

    垂直行业b2b网站策划总体方案

    2. 搜索引擎登记、排名 17 七、 网站的运营 17 1. 目标计划 17 2. 任务分配 18 3. 团队建设 18 4. 网站培训 19 5. 沟通机制 19 6. 组织结构图 20 7. 日志分析与数据挖掘 20 八、 网站的投资与风险分析 21 1. 风险...

    软件设计大赛决赛评分系统

    美工太差),冠军是大四一个做的垂直搜索引擎(得到了很多赞助的创业项目),不过我得到了锻炼感觉也不错!JAVA又熟悉了不少,呵呵! 后台我做了下删减:)具体自己研究吧,简单得很~ 我把这套系统共享出来是想和大家分享,我们...

    2014版大气高档的分类信息网源码行业信息网源码地方门户网源码

    使用该系统可为网民提供出租、招聘、求购、求租、搬迁、运输、二手交易、招生培训、婚介交友等各类信息的发布和查询,拥有功能强大的信息搜索引擎,适合于做城市门户网站的综合信息发布 网站界面美化 简洁大方 干净...

    使用div+css开发个人网站毕业设计.doc

    6 一、利于搜索引擎蜘蛛爬行 6 二、易于修改 7 三、减少网页加载时间 7 四、代码精简 7 五、相对表格的嵌套问题 8 六、搜索排名的影响 8 第四节 div+css布局方式 8 第五节 div+css理论概述 9 一、理解CSS盒子模型 9 ...

    心理咨询网站设计方案(1).doc

    网站页面创意设计 7 3.1 首页设计 7 3.2页面设计 7 3.3页面静与动 7 4、网站栏目介绍 7 5、附加内容 9 6、功能要求 9 6.1 网站新闻发布系统 9 6.2 栏目设置系统 9 6.3 管理员系统 10 6.4 文章搜索系统 10 6.5 留言...

    客客威客系统KPPW 2.2 GBK Beta.zip

    优化了SEO,伪静态,网站能够更好的被各大搜索引擎收录,让访问量得到进一步的提高。模板标签调用使用简单快捷,支持站内,站外调用。重新开发的广告系统,针对全站的广告位进行了规划设计。除了可以上传广告之外,...

    HTML开发王

    4.3.7 定义搜索引擎搜索方式 4.4 用于http消息报头的元数据(属性http-equiv) 4.4.1 设置网页内容类型和字符集 4.4.2 设置网页所使用的语言 4.4.3 设置网页定时跳转 4.4.4 设置网页禁用缓存 4.4.5 设置网页到期 4.4.6...

    phpapp威客系统 v2.6 GBK build20141211.zip

    链接交换来使新站获得访问量、增加用户浏览、在搜索引擎排名中增加重权收录、通过合作网站增加访问者的可信度等等 链接悬赏功能使用方法? 发布悬赏 -> 站长做好链接提交 -> 系统检测是否合格-> 站长中标得到赏金 ...

    仿阿里巴巴商贸通b2b行业商务网站管理系统SQL版生成html

    行业门户网站,行业网站联盟,中国行业网站,汽车行业网站,垂直类行业网站,行业网站程序,中国行业网站联盟,垂直行业网站,行业网站大全,行业网站策划方案,行业网站建设方案,安防行业网站,行业网站模板,行业网站方案,天津...

    Java数据库编程宝典2

    2.1 数据库设计应考虑的事项 2.1.1 项目规范 2.1.2 设计表 2.1.3 生成发票 2.2 引用完整性 2.2.1 通用完整性规则 2.2.2 特定于数据库的完整性规则 2.3 小结 第3章 SQL基础 3.1 SQL语言 3.2 SQL数据类型...

    Java数据库编程宝典4

    2.1 数据库设计应考虑的事项 2.1.1 项目规范 2.1.2 设计表 2.1.3 生成发票 2.2 引用完整性 2.2.1 通用完整性规则 2.2.2 特定于数据库的完整性规则 2.3 小结 第3章 SQL基础 3.1 SQL语言 3.2 SQL数据类型...

    Java数据库编程宝典1

    2.1 数据库设计应考虑的事项 2.1.1 项目规范 2.1.2 设计表 2.1.3 生成发票 2.2 引用完整性 2.2.1 通用完整性规则 2.2.2 特定于数据库的完整性规则 2.3 小结 第3章 SQL基础 3.1 SQL语言 3.2 SQL数据类型...

Global site tag (gtag.js) - Google Analytics