搜索引擎中文分词的方法说明

时间:2020-07-18 | 标签: | 作者:Q8 | 来源:网络

小提示:您能找到这篇{搜索引擎中文分词的方法说明}绝对不是偶然,我们能帮您找到潜在客户,解决您的困扰。如果您对本页介绍的搜索引擎中文分词的方法说明内容感兴趣,有相关需求意向欢迎拨打我们的服务热线,或留言咨询,我们将第一时间联系您!

  分词是指将一段句子切分成一个个单独的词项,对于英文来讲,单词作为词项,由于英文的书写格式,词与词之间必须有空格,这样搜索引擎很容易将一段句子处理成词项的集合;但是中文来讲,词之间没有空格,搜索引擎不能够直接将句子处理成词危机公关的定义与内涵项的集合,需要一个分词过程,营销简单介绍搜索引擎中文分词的方法。

一、基于词典的分词方法

  也叫“机械分词法”,将分词的句子与词典中的词语进行匹配,如果匹配成功,则将匹配的部分作为一个词,最后生成一个词语序列,根据分词的方向与优先长度不同可分为一下四种方法:

1、正向匹配法



  根绝句子的正序(由左至右)进行匹配,例如:发展中国家,切分为:发展/中国/家。

2、逆向匹配法

  根据句子的逆序(由右至左)进行匹配,例如:发展中国家,切分为:发展/中/国家。

3、最大匹配法

  根据词典中最长的词语的长度确切分,如果不是,则在使用次一级长度去切分,假设字典中最长的词语是4个,以“发展中国家”为例,首先截取前四个“发展中国”判断,如果与字典中的词匹配,那么就是词项,如果不匹配,那就截取前三个词“发展中”来判断,以此类推直至切分出词项。

4、最小匹配法

  同最大匹配法刚好相反。

二、基于理解分词的方法

  为了解决分词中的歧义问题,搜索引擎完全模拟人理解句子的过程,对句子进行句法分析与语义分析,这个方法需要危机公关处理报价大量的语言知识和信息,计算过程比较复杂,对搜索引擎的基础硬件要求比较高。



三、基于统计分词的方法

  随着时代与互联网的发展,会产生很多新的词汇,例如一些人名、新科技名词、新事件名(比如XX门、XX帝等),这些词汇未被词典收录,这些词成为“未登录词”,这些词汇的切分就要依靠统计分词的方法,搜索引擎通过统计这些字在整个语料库中出现的频率,例如在语料库中发现“S”、“E”、“O”同时出现的次数非常高,那么搜索引擎就判定”SEO”是一个词汇。

搜索引擎中文分词的方法说明

上一篇:什么是百度停用词Stopword
下一篇:seo中的长尾理论


版权声明:以上主题为“搜索引擎中文分词的方法说明"的内容可能是本站网友自行发布,或者来至于网络。如有侵权欢迎联系我们客服QQ处理,谢谢。
相关内容
推荐内容
扫码咨询
    搜索引擎中文分词的方法说明
    打开微信扫码或长按识别二维码

小提示:您应该对本页介绍的“搜索引擎中文分词的方法说明”相关内容感兴趣,若您有相关需求欢迎拨打我们的服务热线或留言咨询,我们尽快与您联系沟通搜索引擎中文分词的方法说明的相关事宜。

关键词:中文,分词,简单,介绍,分词

关于 | 业务 | 案例 | 免责 | 隐私
客服邮箱:sales@1330.com.cn
电话:400-021-1330 | 客服QQ:865612759
沪ICP备12034177号 | 沪公网安备31010702002418号