SEO学堂:百度分词技术跟百度分词工具
做SEO的朋友壹一般喜欢研究关键词,而关键词搜索又会涉及到分词算法。百度分词技术就是百度针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。所谓分词就是把字与字连在一起的汉语句子分成若干个相互独立、完整、正确的单词。词是最小的、能独立活动的、有意义的语言成分。
计算机的所有语言知识都来自机器词典(给出词的各项信息) 、句法规则(以词类的各种组合方式来描述词的聚合现象) 以及有关词和句子的语义、语境、语用知识库。中文信息处理系统只要涉及句法、语义(如检索、翻译、文摘、校对等应用) ,就需要以词为基本单位。当汉字由句转化为词之后,才能使得句法分析、语句理解、自动文摘、自动分类和机器翻译等文本处理具有可行性。可以说,分词是机器 语言学的基础。
百度分词的4个原理:
1、基于理解:傻瓜式匹配,小于等于3个中文字符百度是不进行切词的,比如搜索“大学堂”。
2、基于统计:百度把一个词标红的原因:标红的词一般是一个关键词,你搜索“学”字的时候,百度它自认的把“学习”也当成了一个关键词,所以出现“学习”这个词标红,这就是百度分词法:基于统计分词。
3、基于字符串匹配(百度的分词法:正向最大切词法)
最大与最小(最大匹配:一直匹配到没词可配;最小匹配:匹配出词了就停止匹配,再从另一个词开始匹配)比如:百度搜索“湖南大学堂屋顶”,百度的一个分词算法我们把它当成一个黑盒子,我们通过一些输入关键词,根据百度的输出结果来判定百度的分词算法。正向与反向(正向:从前往后配;反向:从后往前配)(湖南大学堂屋顶)正向分法:湖南大学 堂屋 顶 (刘强大地方法)正向分法:刘 强大 地方 法。反向分法:方法 大地 刘 强。而在这个词语当中“大地”不是一个词。
4、基于专有词库。比如杰出人物(如:毛泽东)明星(如:刘德华)检索量大的词(如:买票难) 。
分词工具(没有百度的,收集了几个开源的分词工具):
1、ICTCLAS – 全球最受欢迎的汉语分词系统
2、HTTPCWS – 基于HTTP协议的开源中文分词系统
3、SCWS – 简易中文分词系统
4、PhpanAlysis – PHP无组件分词系统
5 、MMSEG4J
6、盘古分词
7、IKAnalyzer 开源的轻量级中文分词工具包
2. 分享目的仅供大家学习和交流,请不要用于商业用途!
3. 如果你也有好源码或者教程,可以到用户中心发布投稿,分享有金币奖励和额外收入!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务 请大家谅解!
5. 如有链接无法下载、失效或广告,请联系站长,可领回失去的金币,并额外有奖!
6. 如遇到加密压缩包,默认解压密码为"www.zyfx8.cn",如遇到无法解压的请联系管理员!
本站部分文章、资源来自互联网,版权归原作者及网站所有,如果侵犯了您的权利,请及时联系我站删除。免责声明
资源分享吧 » SEO学堂:百度分词技术跟百度分词工具
常见问题FAQ
- 免费下载或者VIP会员专享资源能否直接商用?
- 本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
- 织梦模板使用说明
- 你下载的织梦模板并不包括DedeCMS使用授权,根据DedeCMS授权协议,除个人非盈利站点外,均需购买DedeCMS商业使用授权。购买地址: http://www.desdev.cn/service-dedecms.html