SmartSeg®

高精度中文分词

分词是中文信息处理的基础,大部分中文文本处理系统都依赖分词算法的结果,所以分词的准确率和效率至关重要。中文的词汇由于没有西方词汇之间的空格作为间隔,所以使用词典来分词往往需要解决消歧问题。除此之外,命名实体和新词的识别也是分词中的难点。

产品简介

词泰科技的SmartSeg® 采用最新的统计分词模型。通过大规模的人工标注的语料库作为训练语料,SmartSeg®从中提取大量特征,并通过条件随机场(Conditional Random Fields)等机器学习算法,自动对分词模型进行整体的最优化训练。而Viterbi解码算法保证了分词解码的效率,从而在保证高准确度的同时具有极高的分词速度。SmartSeg®对于新词和命名实体识别的能力也非常突出,其各项评测性能指标达到了行业领先水准。

系统需求

  • 最低配置: 单核 2.0 GHz CPU , 1 GB 内存.
  • 推荐配置: 多核 2.0 GHz (或更好) CPU, 2 GB 内存.
  • 支持的操作系统: Microsoft Windows (95, 98, XP, Vista, 7, 8, Server 2003, 2008)
  • 运行环境: .Net framework 2.0 或更高

支持的语言

目前SmartSeg®支持中文

更多信息

如果您希望了解有关SmartSeg®的更多信息,请与我们联系