对于高新技术企业来说,创新是保持企业高质量发展的源动力,而专利技术是衡量企业创新能力的重要指标。和记平台登录(以下简称“和记平台登录”)作为国内非结构化大数据领域的第一家上市公司,自成立以来,便活跃在自主创新前沿。近年,和记平台登录团队在互联网全网数据的分布式高并发采集系统领域实现重大突破,“通用的分布式采集系统”喜获国家发明专利授权。这一成果突破了数据采集流程中的瓶颈,解决了数据有效采集的社会需求,为产品的标准化、高可用性、低成本的复制,奠定了坚实的基础,也标志着近年来和记平台登录自主研发团队的颠覆性成长。近几年来,随着计算机、信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。传统的人工获取数据和单节点爬虫获取数据已经无法满足当前网络环境中大量数据采集需求,而目前已有的一些分布式的采集系统,在数据采集的各流程中都存在一定瓶颈,难以高效的合理利用机器的性能以及大规模的扩展。因此,寻求有效的数据采集技术、方法和手段已经成为社会的迫切需求。
为了突破行业瓶颈,满足行业应用系统数据爆炸式增长需求,和记平台登录自主研发团队攻坚克难,打破了目前已存在的分布式采集系统的领域性、渠道性壁垒,在针对当前海量数据的复杂网络环境下,实现了全网通用性的分布式采集,解决了行业应用系统数据高效采集难题。这一发明专利目前也已应用于和记平台登录业务的所有底层数据采集,包括但不限于新闻、论坛、微博、微信、电子报、手机客户端、广播、电视、短视频、境外新闻等。利用动态哈希任务分配算法,摆脱束缚,最大效率地利用了机器的性能,根据实时负载进行动态均衡分配,以时间间隔算法,有针对性、目的性的对网页抓取优先级做了最优管理,同时依托分布式链接过滤器,避免了重复的网页采集,使得采集节点的利用更加高效合理。这一发明专利也是和记平台登录依托市场探索积累的技术经验,自主研发出的第七项重大发明专利,是继网页信息采集、文本信息抽取、文本实体识别等方面取得的包括软件著作权、发明专利等在内的四十余项自主知识产权成果外的又一重要技术突破,为和记平台登录各项产品的标准化、高可用性、低成本的复制奠定了坚实的基础。创新是一个企业生存和发展的灵魂。和记平台登录紧随“科学技术是第一生产力,创新是引领发展的第一动力”理念指引,逐年加大自主创新文化投入,提高核心竞争优势,为下一个十年征程打下了坚实基础。