调研分词方法报告

调研分词方法报告

问:NLP之分词
  1. 答:其实市面上的分词工具很多,python的c++的都有,那为啥还要写分词呢,因为分词的很多方法可以套用到其他nlp基础任务中,比如命名实体识别、词性标注。
    在中文中,最小单位首先是字,由字组成词,再由词组成句子,然后由句子组成段落,最后由段落组成文章。尽管字是最小单位,但是文章的语义表达却是以词来划分的。因此在中文的NLP中,我们首先要先做分伍高词,中文不像英文,每一个单词就是一个词用空格划分好了,所以英文的分词简单,只需要按空格分割就行。但是中文的词语是连在一起的,所以相对于英文会困难一些。
    到目前为止,中文的分词主要有四种方法:1)基于规则的分词;2)基于概率统计的分词;3)混合分词(1+2);4)基于深度学习的分词。下面就来介绍这四种分词:
    基于规则的分词有三种:正向最大匹配法,逆向最大匹配发,双向最大匹配腔帆尺发。他们的基本思想都相同,都是通轿梁过维护一个词典,按字典中最长的词的长度在句子中枚举字符串域词典中的词逐一匹配,能在词典中找到则切分,不能则最长的长度减一再枚举匹配。
    基于概率统计的分词的思想是:如果在已经建立的大规模语料库中,相连的字在不同的文本中出现的次数越多,就证明这相连的字很可能就是一个词。所以可以利用字与字相邻出现的频率来反应组成词的可靠度,统计预料中相邻共现的各个字的组合的频度,当组合频度高于莫一个临界值时,便可认为此字组可能会构成一个词语。
    如采用google开源的bert模型来分词,还有lstm+crf等。
问:如何对新闻评论分词,情感分析
  1. 答:新闻情感分析它是新闻内容评论及转发的情感分析的集合,因为每一起舆情事件的信息类型都是由原贴、转发以及评论构成。
    那么当 上有与己相关的舆情事件发生,或想要关注的舆情事件发生时,我们应该如何掌握其情感倾向或各情绪的占比情况,以评估事态影响,采取针对性的应对措施呢?
    新闻情感分析解决方法
    在这里以新闻情感分析工具-识微商情为例,看其如何助力新闻情感信汪辩分析工作开展:
    1.舆情数据收集:可根据用户需求,自动对全网的舆情数据进行采集,释放人力,关注信息一目了然。
    2.语义分析:这就包括原贴、转发以及评论,用户也可以自定义筛选某一信息类型。通过监测关于某一个特定主题的正负面中立意见,可自动识别文本中各种情感是如何表达的,然后通过内置的告警通知,向舆情接收者发出通知(用户可自定义舆情预警接收方式,如微信、短信、邮件、客户端、人工 等)。
    3.全面综合分析:除新闻情感分析之外,还能实时追滑缺踪已订阅主题的发展变化趋势,分析舆情事件在各生命周期阶段的热点话题,挖掘舆情事件在演化陵好过程中的传播网站、传播媒体、关键传播节点以及传播溯源、同步生成可视化的分析图表和报告等,便于对 舆情事件的发展变化趋势做出有效的预测,为舆情应对、引导以及工作总结提供助力。
  2. 答:像现闹肢歼在的记者,
    节操碎了一地,饥蔽
    为了增加曝光度,
    无下限的事情都可以液冲出来。
问:分词算法是什么?
  1. 答:分词算法是文本挖掘的基础,通常对整个模型的效果起着较大的决定作用。
    分词算法常用的两种运行方式:
    1、用户搜索及匹配。
    例如:我们在百度搜索一个词 “手机回收”,那么百度会先把这个词分为手机和回收两个词这个时候呢百度会先在库中搜索手机这个词然后进行第一轮的筛选。把网页当中没有手机这个词的去除,只保留带有手机这个词的结果,之后再从已筛选出来的网页中,筛选出带有回收这个词的页面。然后在所得结果里面根据页面评分给用户进行排序。
    2、网页主题计算
    前面启蒙博客也讲过,百度蜘蛛只是一个机器,并不能向人一谨誉样去思考,而在处理文章的时候,百度蜘蛛则会把文章也进行分词去处理,如过文章里 手机 这个词出现频率比较多,也就是所说的关键词密度,那么这个页面也就会定性为手机方面的文章。
    搜索引擎是通过分词算法来计算网页的,如果我们能够合理地利用分词算法进行网页布局,会让网页将会有一个很好的得分。
    中文分词算法大概分为三大类:
    第一类是基于字符串匹配,即行中扫描字符串,如果发现字符串的子串和词典中的词相同,就算匹配,比如机械分词方法。这类分词通常会加入一些启发式规则,比如“正向/反向最大匹配”,“长词优先”等。
    第二类是基于统计以及机器学习的分词方法,它们基于人工标注的词性和统计特征,对中文进行建模,即根据观测到的数据(标注好的语料)对模型参数进行训练,在分词阶段再通过模型计算各种分词出现的概率,将概率最大的分词结果作为最终结果。
    常见的序列标注模型有HMM和CRF。这类分词算法能祥带段很好处理歧义和未登录词问题,效果比前一类效果好,但是需要大量的人工标注数据,以及较慢的分词速度。
调研分词方法报告
下载Doc文档

猜你喜欢