数据挖掘

如果能把整个互联网装在你口袋里,你打算做什么?我想,你能做很多事情。在网上有那么多和你业务有关的信息,但仅仅通过普通的搜索引擎无法把这些数据的概览给你,以便让你分析和处理它。

互联网上有价值的信息是海量和巨大的。但有可能它们深埋在一个很难发觉的角落或杂乱无章的散落在各地。而互联网信息挖掘系统就是对特定有价值信息的聚合,这其中包括了很多不同的技术。从互联网上抓取大量文档是第一步,我们通常叫他蜘蛛或网络爬虫。但其中最重要的部分是对“暗网”(deep web)的抓取,因为它们深藏在网站的数据库里很难被发掘。因此我们要对一般的网络爬虫做出相应的修改和定制。在网络文档信息被抓取之后,我们要对它们进行自动分类,以判断它们是不是包含我们感兴趣的信息,这样可以过滤掉绝大部分不相关的文档以便做下一步的处理。最后一步是从这些非结构化或半结构化的网页中抽取结构化信息。这其中模糊识别,统计模型以及机器学习算法起到非常关键的作用。下图体现了这个流程:

区别于一般的通过手工定义规则的办法来从网页中抓取结构化信息,我们通过自主研发的完全无监督的机器学习算法自动从大量同类文档中发掘出模式和规律从而大大降低开发维护成本,也提高了可维护性。

相关产品

SmartMiner®

互联网上海量的信息大多无组织无结构。SmartMiner®是一个强大的 信息挖掘工具。它能帮你从海量无结构的文本中挖掘出您所需要的特定类型特定结构的信息。

 
SmartNER®

正确的处理人名、地名、机构名等命名实体对于自动文本处理至关重要。我们提供的SmartNER®命名实体识别技术能够准确地识别和挖掘文本中的实体名,目前支持中文和韩文。

 

更多信息

欲了解词泰科技的自然语言处理技术如何集成到您的系统来帮助您的应用,请与我们联系