- 情感分析Sentiment Analysis
- 情感分析指的是对文本中情感的倾向性和评价对象进行提取的过程。
- 我们情感分析引擎提供行业领先的篇章级情感分析。基于上百万条社交网络平衡语料和数十万条新闻平衡语料的机器学习模型,结合自主开发的半监督学习技术,正负面情感分析准确度达到85%左右。经过行业数据标注学习后准确率可达85%~90%。
- 信息分类Classification
- 文本信息分类将文本按照预设的分类体系进行自动区分。
- 我们提供定制的文本分类服务,有着广泛的商业应用前景。
- 例如,通过社交网络挖掘商业情报和潜在销售机会,企业内文本数据分析,海量数据筛选,资讯分类和自动标签预测等。
- 我们自主研发的语义联想、句法分析等技术,通过半监督学习引擎的训练,只需要进行少量的代表性数据标注,就可以达到商用级别的预测准确率。
- 文本传播监测Text Communication
- 文本传播监测用于监测文本在互联网的传播情况。移动互联网的迅速发展使得传播范围变得很广,进行文本传播的监测,不但可以掌握文本的真实传播情况,而且可以有效的保护版权信息。
- 文本传播引擎是基于我们海量数据自主研发的基于多特征的大规模文本相似性计算算法,用户可以自定义监控时间窗口范围,引擎可快速的返回整个互联网的传播信息。
- 语义联想Semantic Association
- 语义联想计算引擎将输入文本进行词际关联的计算,计算出近期与输入文本最相关的人物、属性、动作以及相关的机构信息。可用于文本聚类中关键词的扩展,智能推荐,检索查询中智能提示以及关键词预测等。
- 该计算引擎是基于海量数据的事实计算,相关联的数据不同我们得到的结果也不同。该算法在国内首创,计算引擎与Word2VEC完全不同,是我们的专利产品,词际联想的相关性可以让人达到惊人的地步。
- 实体识别Named Entity Recognition
- 实体识别用于从文本中发现有意义的信息,例如人名、公司名、产品名、时间、地点等。 实体识别是语义分析中的重要的基础,是情感分析、机器翻译、语义理解等任务中的重要步骤。
- 我们的实体识别引擎基于自主研发的结构化信息抽取算法,F1分数达到81%,相比于StanfordNER高出7个百分点。通过对行业语料的进一步学习,可以达到更高的准确率。
- 文本聚类Clustering
- 相似文本聚类指的是机器自动对给定的文本进行话题聚类,将语义上相似的内容归为一类,有助于海量文档、资讯的整理,和话题级别的统计分析。
- 我们自主研发的文本聚类算法:
- 一方面加入了对语义的扩展,保证同一个意见的不同表述可以被归纳在一起。
- 另一方面又避免了传统的K-means等算法需要预先设定聚类总数的困难,基于数据的分布自动选择合适的阈值。
- 关键词提取Keyword Extraction
- 关键词提取引擎从一篇或多篇文本中提取出有代表性的关键词。
- 我们的关键词提取技术综合考虑词语在文本中的频率,和词语在千万级背景数据中的频率,选择出最具有代表性的关键词并给出相应权重。