教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

文本數(shù)據(jù)分析:分詞是什么意思?

更新時間:2022年11月28日12時21分 來源:傳智教育 瀏覽次數(shù):

好口碑IT培訓(xùn)

  分詞是指將由連續(xù)字符組成的語句,按照一定的規(guī)則劃分成一個個獨立詞語的過程。不同的語言具有不同的語法結(jié)構(gòu),以常見的英文和中文為例,英文的句子中是以空格為分隔符的,所以可以指定空格為分詞的標記,而中文并沒有一個形式上的分界符,它只有字、句和段能通過明顯的分界符來簡單地劃分。因此,中文分詞要比英文分詞困難很多。

  根據(jù)中文的結(jié)構(gòu)特點,可以把分詞算法分為以下三類:

  1.基于規(guī)則的分詞方法

  基于規(guī)則的分詞方法,又稱為機械分詞方法,它是按照一定的策略將待分析的中文句子與一個“充分大的”機器詞典中的詞條進行匹配。如果在詞典中找到了某個字或詞語,則表示匹配成功。

  基于規(guī)則的分詞方法,其優(yōu)點是簡單且易于實現(xiàn),缺點是匹配速度慢,而且不同的詞典產(chǎn)生的歧義也那你慢慢弄,,,嗎會不同。

  2.基于統(tǒng)計的分詞方法

  基于統(tǒng)計的分詞方法,它的基本思想是常用的詞語是比較穩(wěn)定的組合。在上下文中,相鄰的字同時出現(xiàn)的次數(shù)多,就越有可能構(gòu)成一個詞,所以字與字相鄰出現(xiàn)的頻率能夠較好地反映成詞的可信度。當訓(xùn)練文本中相鄰出現(xiàn)的緊密程度高于某個閾值時,便可以認為此字組可能構(gòu)成了一個詞。

  基于統(tǒng)計的分詞方法所應(yīng)用的主要統(tǒng)計模型有:N元文法模型(N-gram)、隱馬爾可夫模型(Hiden Markov Model,HMM)、最大熵模型(ME)、條件隨機場模型(Conditional Random Fields,CRF)等。

  3.基于理解的分詞方法

  基于理解的分詞方法是通過計算機模擬人對句子的理解,達到識別詞的效果,它的基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息處理歧義對象。這種分詞方法需要使用大量的語言知識和信息。

  由于漢語語言知識的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗階段。

0 分享到:
和我們在線交談!