时间:2020-07-18 | 标签: | 作者:Q8 | 来源:网络
小提示:您能找到这篇{搜索引擎中文分词的方法说明}绝对不是偶然,我们能帮您找到潜在客户,解决您的困扰。如果您对本页介绍的搜索引擎中文分词的方法说明内容感兴趣,有相关需求意向欢迎拨打我们的服务热线,或留言咨询,我们将第一时间联系您! |
分词是指将一段句子切分成一个个单独的词项,对于英文来讲,单词作为词项,由于英文的书写格式,词与词之间必须有空格,这样搜索引擎很容易将一段句子处理成词项的集合;但是中文来讲,词之间没有空格,搜索引擎不能够直接将句子处理成词危机公关的定义与内涵项的集合,需要一个分词过程,营销简单介绍搜索引擎中文分词的方法。 一、基于词典的分词方法 也叫“机械分词法”,将分词的句子与词典中的词语进行匹配,如果匹配成功,则将匹配的部分作为一个词,最后生成一个词语序列,根据分词的方向与优先长度不同可分为一下四种方法: 1、正向匹配法 根绝句子的正序(由左至右)进行匹配,例如:发展中国家,切分为:发展/中国/家。 2、逆向匹配法 根据句子的逆序(由右至左)进行匹配,例如:发展中国家,切分为:发展/中/国家。 3、最大匹配法 根据词典中最长的词语的长度确切分,如果不是,则在使用次一级长度去切分,假设字典中最长的词语是4个,以“发展中国家”为例,首先截取前四个“发展中国”判断,如果与字典中的词匹配,那么就是词项,如果不匹配,那就截取前三个词“发展中”来判断,以此类推直至切分出词项。 4、最小匹配法 同最大匹配法刚好相反。 二、基于理解分词的方法 为了解决分词中的歧义问题,搜索引擎完全模拟人理解句子的过程,对句子进行句法分析与语义分析,这个方法需要危机公关处理报价大量的语言知识和信息,计算过程比较复杂,对搜索引擎的基础硬件要求比较高。 三、基于统计分词的方法 随着时代与互联网的发展,会产生很多新的词汇,例如一些人名、新科技名词、新事件名(比如XX门、XX帝等),这些词汇未被词典收录,这些词成为“未登录词”,这些词汇的切分就要依靠统计分词的方法,搜索引擎通过统计这些字在整个语料库中出现的频率,例如在语料库中发现“S”、“E”、“O”同时出现的次数非常高,那么搜索引擎就判定”SEO”是一个词汇。 |
上一篇:什么是百度停用词Stopword
下一篇:seo中的长尾理论
花间一壶酒,独酌无相亲。举杯邀明月,对影成三人。这四句诗的字里行间都能够...
女性半边天的重要地位,以及女性的购买欲通常比男性强的多,,特别是一个家庭...
近些年来,中国工程机械行业在经历着快速的发展,并呈现出新的特点。一方面,...
橱柜行业想实现销售业绩,使其价值主张与消费者内心吻合,终端体验是最佳路径...
先有深圳唯冠与苹果之争,现有广药集团与鸿道集团关于王老吉商标之争,相信未...
免费模式,一直是商家们的营销利器,利用人们爱贪便宜的特点来进行营销。笔者...
传统企业利用新媒体来进行市场营销已经不是新兴的事儿了,中小企业受限于广告...
随着微博的火热,催生了有关的营销方式,就是微博营销,微博营销如今备受各大...
2012年,是疯狂的一年,除了玛雅预言给我们的小恐慌世界末日,更让我们惊奇的文...
很多人都在讨论21世纪最热门的是什么?其实不是世界末日,而是网络营销。从201...
小提示:您应该对本页介绍的“搜索引擎中文分词的方法说明”相关内容感兴趣,若您有相关需求欢迎拨打我们的服务热线或留言咨询,我们尽快与您联系沟通搜索引擎中文分词的方法说明的相关事宜。
关键词:中文,分词,简单,介绍,分词