歡迎訪(fǎng)問(wèn)世紀網(wǎng)絡(luò )官網(wǎng),寶雞網(wǎng)站建設SEO優(yōu)化已累計服務(wù)超過(guò)900家企業(yè)!     咨詢(xún)熱線(xiàn):13619273150

15年網(wǎng)站建設優(yōu)化經(jīng)驗,900家客戶(hù)的選擇,值得信賴(lài)!


淺談百度搜索引擎的中文分詞技術(shù)

作者:佚名      發(fā)布時(shí)間:2012-08-13      瀏覽:2270

62.9K


  本篇文章淺析一下百度的中文分詞技術(shù),有不足之處還望各位有心人能指出,當然,也希望可以幫助站長(cháng)們更深層的理解百度搜索引擎分詞技術(shù),做好自己的網(wǎng)站,獲得更好的排名。

  一、百度搜索引擎中文分詞技術(shù)

  百度搜索引擎中文分詞技術(shù)簡(jiǎn)單來(lái)說(shuō),就是把中文的漢字序列切分成有意義的百度詞組。

  二、百度搜索引擎分詞技術(shù)簡(jiǎn)述

  1.基于字符串匹配的分詞方法

  按照一定的策略將待分析的漢字串與一個(gè)極其百度詞庫中的詞條進(jìn)行匹配。

  常用分詞的方法:

  正向最大匹配法(由左到右的方向)

  分詞測試例子:我/有意/見(jiàn)/分歧

  反向最大匹配法(由右到左的方向)

  分詞測試例子:我/有/意見(jiàn)/分歧

  據大量測試數據統計結果表明:?jiǎn)渭兪褂谜蜃畲笃ヅ涞腻e誤率為1/169,單純使用反

  向最大匹配的錯誤率為1/245。逆向匹配的切分精度略高于正向匹配。

  2.基于統計的分詞方法

  相鄰的字同時(shí)出現的次數越多,就越有可能構成一個(gè)詞。用于系統自動(dòng)識別新詞。

  3.基于理解的分詞方法

  在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來(lái)處理歧異現象。

  三、百度搜索引擎分詞技術(shù)分析

  1.最大分詞詞長(cháng)

  分詞技術(shù)歸納:少于等于3個(gè)中文字不切割

  分詞技術(shù)歸納:對于大于等于4個(gè)漢字的詞將被分詞

  2.分詞匹配算法

  分詞測試查詢(xún):查詢(xún):“工地方向導”

  正向最大匹配:工地/方向/導

  反響最大匹配:工/地方/向導

  百度采用 正向最大匹配算法

  分詞技術(shù)歸納:首先用專(zhuān)用詞典采用最大正向匹配分詞,切出部分結果;剩余沒(méi)有切分交給普通詞典,同樣采取正向最大匹配分詞。



0