谷尼Goonie信息采集系统
- 类型:办公软件
- 大小:6.77M
- 平台:WinAll
- 语言:简体中文
- 版本:2.0
- 时间:2022-09-07 06:36
软件简介
基本简介 Goonie信息采集系统采用领先的信息采集技术,能够自动智能化完成指定信息的采集、分类和发布等一系列信息处理过程,让这些分散在互联网上各个角落的数以亿计的海量信息为我所用。
同时Goonie信息采集系统具有丰富的接口,可以为网站、多种软件系统提供强大的信息处理应用,提高系统的应用价值。
应用领域
党、政、军应用
实时跟踪、采集与业务工作相关的信息来源。
全面满足内部工作人员对互联网信息的阅读需求。
及时解决政务外网、政务内网的信息源问题,实现动态发布。
快速解决主网站对各地级子网站的信息获取需求。
全面整合信息,实现内部跨地区、跨部门信息资源共享与有效沟通。
节约信息采集的人力、物力、时间,提高办公效率。
企业应用
实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。
及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。
为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。
大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存储、挖掘的相关费用,是提高企业核心竞争力的关键。
提高企业整体分析研究能力、市场快速反应能力,建立起以知识管理为核心的“竞争情报数据仓库”,是提高企业核心竞争力的神经中枢。
新闻媒体行业应用
快速准确地自动跟踪、采集数千家网络媒体信息,扩大新闻线索,提高采编速度。
支持每天对百万条新闻进行有效抓取。监控范围的深度、频率可以自行设定。
支持对所需内容智能抽取、关键词的自动提取。
实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。
产品架构
Goonie信息采集系统由数据采集、数据存储、数据管理发布三部分组成。
采集服务器实现对目标网站的信息进行实时监控,并把最新的网页及时采集到本地,进行内容分析和过滤等操作;数据库服务器提供采集信息的存储服务;Web发布模块实现网页信息的统一发布,导航和检索功能。
产品功能
监控和采集
自定义URL来源及采集频率
用户可以设定采集的栏目、URL、更新时间、扫描间隔等,系统的扫描间隔最小可以设置成1分钟,即每隔一分钟,系统将自动扫描目标信息源,以便及时发现目标信息源的最新变化,并以最快的速度采集到本地。
支持多种网页格式
可以采集常见的静态网页(HTML/HTM/SHTML)和动态网页(ASP/PHP/JSP),还可以采集网页中包含的图片、TXT/DOC/PPT/XLS/RTF/PDF等文档格式信息。
支持多种字符集编码
采集子系统能够自动识别多种字符集编码,包括中文、英文、中文简体、中文繁体等,并可以统一转换为GBK编码格式。
支持元搜索模式采集
元搜索模式集成了不同性能和不同风格的搜索引擎并发展了一些新的查询功能。查一个元搜索引擎就相当于查多个独立搜索引擎。
内容抽取、去重
内容抽取
系统可对网页进行内容分析和过滤,自动去除广告、版权、栏目等无用信息,精确获取目标内容主体。
信息归类
支持按采集栏目设置分类,并为分类设置相应属性,只要属于该栏目的信息即送到相应分类中。
自动去重
通过内容相关识别技术自动判别分类中文章的关系,如果发现描述相同事件的文章自动去除重复部分。
发布管理
对采集的信息可通过发布管理模块实时发布到网站上,并提供信息分类导航和检索功能;对于发布的信息,用户既可以查阅本地数据库中经过自动过滤的内容,也可以对照查阅原始网页。
支持自动发布和审核发布两种方式,在自动发布方式下,采集到的网页将自动发布到网站上,审核发布方式下,采集到的网页需要经过维护人员的选择才能发布到网站上。
产品优势
采用先进的数学模型和算法建立一个安全、稳定、准确、及时的信息智能采集系统。系统在总体设计上遵循稳定、开放、可扩展、经济、安全的原则,从而使整个系统结构合理,技术先进,易于扩展,既能满足当前的业务数据处理要求,又能符合长期发展的需要。
低耦合性:检索系统与门户网站及发布系统彼此间相对独立,直接采用XML进行数据交换,保证整体系统的底耦合性,系统彼此之间不会受到较大影响。
先进性:软件的投资要考虑到今后的发展,不能使用落后的产品与技术,避免投资的浪费;在系统软件选型、开发技术上,达到国内、外行业先进水平。
高效性:采集分类系统对系统的效率要求较高,本系统在底层的技术实现上采用C语言,运行效率卓越。同时对发布管理系统在数据处理和网络的稳定性上没有任何影响。
经济性:本系统在平台架构、技术选择上具有很高的先进性、可扩充性、开放性,从而极大的增加了系统生命周期,使得经济性原则得以保证。
易维护性:整套系统的数据维护简单,容易操作,完全通过WEB方式完成,降低维护的技术难度,也减少了人为隐患的发生。
同时Goonie信息采集系统具有丰富的接口,可以为网站、多种软件系统提供强大的信息处理应用,提高系统的应用价值。
应用领域
党、政、军应用
实时跟踪、采集与业务工作相关的信息来源。
全面满足内部工作人员对互联网信息的阅读需求。
及时解决政务外网、政务内网的信息源问题,实现动态发布。
快速解决主网站对各地级子网站的信息获取需求。
全面整合信息,实现内部跨地区、跨部门信息资源共享与有效沟通。
节约信息采集的人力、物力、时间,提高办公效率。
企业应用
实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。
及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。
为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。
大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存储、挖掘的相关费用,是提高企业核心竞争力的关键。
提高企业整体分析研究能力、市场快速反应能力,建立起以知识管理为核心的“竞争情报数据仓库”,是提高企业核心竞争力的神经中枢。
新闻媒体行业应用
快速准确地自动跟踪、采集数千家网络媒体信息,扩大新闻线索,提高采编速度。
支持每天对百万条新闻进行有效抓取。监控范围的深度、频率可以自行设定。
支持对所需内容智能抽取、关键词的自动提取。
实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。
产品架构
Goonie信息采集系统由数据采集、数据存储、数据管理发布三部分组成。
采集服务器实现对目标网站的信息进行实时监控,并把最新的网页及时采集到本地,进行内容分析和过滤等操作;数据库服务器提供采集信息的存储服务;Web发布模块实现网页信息的统一发布,导航和检索功能。
产品功能
监控和采集
自定义URL来源及采集频率
用户可以设定采集的栏目、URL、更新时间、扫描间隔等,系统的扫描间隔最小可以设置成1分钟,即每隔一分钟,系统将自动扫描目标信息源,以便及时发现目标信息源的最新变化,并以最快的速度采集到本地。
支持多种网页格式
可以采集常见的静态网页(HTML/HTM/SHTML)和动态网页(ASP/PHP/JSP),还可以采集网页中包含的图片、TXT/DOC/PPT/XLS/RTF/PDF等文档格式信息。
支持多种字符集编码
采集子系统能够自动识别多种字符集编码,包括中文、英文、中文简体、中文繁体等,并可以统一转换为GBK编码格式。
支持元搜索模式采集
元搜索模式集成了不同性能和不同风格的搜索引擎并发展了一些新的查询功能。查一个元搜索引擎就相当于查多个独立搜索引擎。
内容抽取、去重
内容抽取
系统可对网页进行内容分析和过滤,自动去除广告、版权、栏目等无用信息,精确获取目标内容主体。
信息归类
支持按采集栏目设置分类,并为分类设置相应属性,只要属于该栏目的信息即送到相应分类中。
自动去重
通过内容相关识别技术自动判别分类中文章的关系,如果发现描述相同事件的文章自动去除重复部分。
发布管理
对采集的信息可通过发布管理模块实时发布到网站上,并提供信息分类导航和检索功能;对于发布的信息,用户既可以查阅本地数据库中经过自动过滤的内容,也可以对照查阅原始网页。
支持自动发布和审核发布两种方式,在自动发布方式下,采集到的网页将自动发布到网站上,审核发布方式下,采集到的网页需要经过维护人员的选择才能发布到网站上。
产品优势
采用先进的数学模型和算法建立一个安全、稳定、准确、及时的信息智能采集系统。系统在总体设计上遵循稳定、开放、可扩展、经济、安全的原则,从而使整个系统结构合理,技术先进,易于扩展,既能满足当前的业务数据处理要求,又能符合长期发展的需要。
低耦合性:检索系统与门户网站及发布系统彼此间相对独立,直接采用XML进行数据交换,保证整体系统的底耦合性,系统彼此之间不会受到较大影响。
先进性:软件的投资要考虑到今后的发展,不能使用落后的产品与技术,避免投资的浪费;在系统软件选型、开发技术上,达到国内、外行业先进水平。
高效性:采集分类系统对系统的效率要求较高,本系统在底层的技术实现上采用C语言,运行效率卓越。同时对发布管理系统在数据处理和网络的稳定性上没有任何影响。
经济性:本系统在平台架构、技术选择上具有很高的先进性、可扩充性、开放性,从而极大的增加了系统生命周期,使得经济性原则得以保证。
易维护性:整套系统的数据维护简单,容易操作,完全通过WEB方式完成,降低维护的技术难度,也减少了人为隐患的发生。
相关最新
最新推荐
本类推荐
软件排行