亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

評論詞匯觀點關(guān)連分析方法及其裝置的制作方法

文檔序號:6585864閱讀:159來源:國知局
專利名稱:評論詞匯觀點關(guān)連分析方法及其裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明是有關(guān)于一種文件分析方法與裝置,且特別是有關(guān)于一種針對文件中關(guān)鍵 詞分析的方法與裝置。
背景技術(shù)
隨信息爆炸時代來臨與網(wǎng)絡(luò)興起,博客及微型推特(Twitter)等評論文章以指數(shù) 方式增長。特別是對各項商品意見觀點、評論等文章是逐日增加。對市場調(diào)查員或是銷售通 路者而言,每天無時無刻地在網(wǎng)絡(luò)上收集各項商品的使用心得或評價曠時耗日。對消費者 而言,找出感興趣商品的銷售評價及其它人的心得也必須經(jīng)由網(wǎng)絡(luò)搜尋,并逐一閱讀瀏覽。而目前收集評論分析文章方式有以人工的方式每天在工作時間內(nèi),監(jiān)督各大討 論區(qū)、廣告牌、BBS文章,然如此的方式人力成本高、且不能M小時運作,再加以每個人的主 觀意見并非完全一致,因此收集的結(jié)果并不一致。另有以關(guān)鍵詞的方式每天上網(wǎng)收集評論 文章,然而關(guān)鍵詞下達不易,查詢大量數(shù)據(jù)時很慢?;驈男侣劽襟w報導(dǎo)收集,但信息來源并 非穩(wěn)定,且仍須人力介入注記。上述這些傳統(tǒng)方法,由于或多或少均需人力介入,因此難以量化每篇報導(dǎo)。且對人 來說記憶是短程的,倘若同時處理分析多向針點,則不易對一特定針點的評論,長期進行追 蹤,而形成一時間演進分析。因此急需一種可解決上述缺點的評論分析方法與裝置。

發(fā)明內(nèi)容
因此,本發(fā)明的目的在于提供一種文章評論觀點關(guān)連分析方法與裝置。本發(fā)明的一實施方式是在提供一種文章評論觀點關(guān)連分析方法,包括下述步驟 建立一文件庫以及一關(guān)鍵詞匯庫,其中該文件庫包括至少一筆數(shù)字文件數(shù)據(jù),關(guān)鍵詞匯庫 包括至少一筆關(guān)鍵詞匯;判斷該數(shù)字文件數(shù)據(jù)的語系;根據(jù)該語系對該至少一筆數(shù)字文件 數(shù)據(jù)進行詞性分析處理成為一第一文件;接收一搜尋范圍以及一搜尋詞性;以及根據(jù)該搜 尋范圍以及該詞性從該第一文件擷取出多個詞匯組合,其中每一該些詞匯組合包含該關(guān)鍵 詞匯以及符合該詞性的一詞匯。在一實施例中,其中該搜尋范圍為在該第一文件中,以具有該關(guān)鍵詞匯的句子為 起點,搜尋前句子以及后句子的數(shù)目,其中搜尋前句子的數(shù)目為1,搜尋后句子的數(shù)目為1。在一實施例中,其中該搜尋范圍為在該第一文件中,以該關(guān)鍵詞匯為起點,搜該關(guān) 鍵詞匯前后的詞匯數(shù)目,其中該詞匯數(shù)目為5。在一實施例中,其中該搜尋詞性包括名詞、受詞、形容詞、副詞、或上述詞性的組
口 O 在一實施例中,還包括根據(jù)每一該些詞匯組合出現(xiàn)的次數(shù),排序該些詞匯組合;以 及根據(jù)該排序,擷取該些詞匯組合中一定比率的詞匯組合。 在一實施例中,還包括在該一定比率的詞匯組合中,計算每一詞匯組合的該
5關(guān)鍵詞匯以及符合該詞性的該詞匯間的相關(guān)度;以及擷取該一定比率的詞匯組合中,相 關(guān)度大于一門檻值的詞匯組合,該相關(guān)度計算是使用條件機率、期望交互信息(Mutual Information)或可信度方法。在一實施例中,還包括建立一索引對照表,該索引對照表記錄有該至少一筆數(shù)字 文件的來源以及日期,以及每個詞匯的位置,并根據(jù)該索引對照表將來源以及日期與該些 詞匯組合連接。本發(fā)明的另一實施方式是在提供一種文章評論觀點關(guān)連分析方法,包括下述步 驟建立一文件庫以及一關(guān)鍵詞匯庫,其中該文件庫包括至少一筆數(shù)字文件數(shù)據(jù),關(guān)鍵詞匯 庫包括至少一筆關(guān)鍵詞匯;判斷該數(shù)字文件數(shù)據(jù)的語系;根據(jù)該語系對該至少一筆數(shù)字文 件數(shù)據(jù)進行詞性分析處理成為一第一文件;接收一搜尋范圍以及一搜尋詞性;根據(jù)該搜尋 范圍以及該詞性從該第一文件擷取出多個詞匯組合,其中每一該些詞匯組合包含該關(guān)鍵詞 匯以及符合該詞性的一詞匯;根據(jù)每一該些詞匯組合出現(xiàn)的次數(shù),排序該些詞匯組合;根 據(jù)該排序,擷取該些詞匯組合中一定比率的詞匯組合;在該一定比率的詞匯組合中,計算每 一詞匯組合中的該關(guān)鍵詞匯以及符合該詞性的該詞匯間的相關(guān)度;以及擷取該一定比率的 詞匯組合中,相關(guān)度大于一門檻值的詞匯組合。本發(fā)明的另一實施方式是在提供一種文章評論觀點關(guān)連分析裝置,包括一文件 庫,其中該文件庫包括至少一筆數(shù)字文件數(shù)據(jù);一關(guān)鍵詞匯庫,其中該關(guān)鍵詞匯庫包括至少 一筆關(guān)鍵詞匯;一語系判定模塊,用以判斷該數(shù)字文件數(shù)據(jù)的語系;一詞性分析處理模塊, 根據(jù)該語系判定模塊判定出的語系對該數(shù)字文件數(shù)據(jù)進行詞性分析處理成為一第一文件; 一過濾模塊,根據(jù)一搜尋范圍以及一搜尋詞性從該第一文件擷取出多個詞匯組合,其中每 一該些詞匯組合包含該關(guān)鍵詞匯以及符合該詞性的一詞匯,并根據(jù)每一該些詞匯組合出現(xiàn) 的次數(shù),排序該些詞匯組合,以及根據(jù)該排序,擷取該些詞匯組合中一定比率的詞匯組合; 一相關(guān)度計算模塊,在該一定比率的詞匯組合中,計算每一詞匯組合中的該關(guān)鍵詞匯以及 符合該詞性的該詞匯間的相關(guān)度,以及擷取該一定比率的詞匯組合中,相關(guān)度大于一門檻 值的詞匯組合;以及一顯示模塊,顯示該獨立性檢定模塊擷取出的詞匯組合。在一實施例中,文章評論觀點關(guān)連分析裝置,還包括一索引對照表建立模塊,用以 建立一索引對照表,該索引對照表記錄有該至少一筆數(shù)字文件數(shù)據(jù)的來源以及日期,以及 每個詞匯在對應(yīng)文章的位置。在一實施例中,該詞性分析處理模塊,還包括一詞匯擷取單元,對該數(shù)字文件數(shù) 據(jù)進行詞匯擷??;以及一詞性標注單元,對該擷取出的詞匯進行詞性標注。綜合上述所言,應(yīng)用本發(fā)明至少具有下列優(yōu)點??梢粤谐龈飨M者感興趣的產(chǎn)品 評價及其相關(guān)描述,供消費者于購買相同產(chǎn)品的評估。可以找出制造者生產(chǎn)在線所有產(chǎn)品 的評價描述,與用戶試用心得供制造商進行改進缺點,以及廣告放大消費者感興趣的優(yōu)點。


為讓本發(fā)明的上述和其它目的、特征、優(yōu)點與實施例能更明顯易懂,所附附圖的說 明如下圖1所示為根據(jù)本發(fā)明一實施例文章評論觀點關(guān)連分析方法的流程圖;圖2所示為根據(jù)本發(fā)明一實施例的文章評論觀點關(guān)連分析裝置;
圖3所示為應(yīng)用本發(fā)明于各種文章中搜尋產(chǎn)品評論的一實施例;圖4所示為應(yīng)用本發(fā)明于各種文章中搜尋產(chǎn)品評論的另一實施例。主要組件符號說明100 流程101-109 步驟200關(guān)連分析裝置201文件庫202索引對照表建立模塊203語系判定模塊204詞性分析處理模塊205過濾模塊206相關(guān)度計算模塊207顯示模塊208關(guān)鍵詞匯庫2041詞匯擷取單元2042詞匯標注單元
具體實施例方式本發(fā)明通過先對所收集的各文章進行詞性分析處理后,根據(jù)所定義的產(chǎn)品名稱以 及與該產(chǎn)品有關(guān)欲擷取的詞性與擷取范圍,將位于各文章產(chǎn)品名稱處的擷取范圍內(nèi)符合定 義詞性的詞匯擷取出來,與產(chǎn)品名稱形成一組合,并根據(jù)相關(guān)度計算方式計算詞匯與產(chǎn)品 名稱的相關(guān)度,來搜尋出符合一相關(guān)度門檻值的詞匯與產(chǎn)品名稱組合。其詳細的發(fā)明流成 如下所述。參閱圖1所示為根據(jù)本發(fā)明一實施例文章評論觀點關(guān)連分析方法的流程圖。本發(fā)明的流程100,首先于步驟101,文件庫與關(guān)鍵詞匯庫。其中文件庫中儲存有 所收集的各數(shù)字文件數(shù)據(jù),例如來自于網(wǎng)絡(luò)的BBS,論壇討論區(qū)、推特類型網(wǎng)站,或其它數(shù)字 文章等。并根據(jù)所收集的數(shù)字文件數(shù)據(jù)建立一索引對照表。其中該索引對照表記錄有每 一篇數(shù)字文件數(shù)據(jù)的來源以及日期,以及每個詞匯在對應(yīng)文章的位置。而關(guān)鍵詞匯庫則儲 存有搜尋的關(guān)鍵詞匯,在一實施例中,若以搜尋產(chǎn)品評論為例,則此關(guān)鍵詞匯為該產(chǎn)品的名 稱。接著于步驟102,判斷一文章各字間是否有明顯的邊界。在一實施例中,在判斷 欲分析文章為中文內(nèi)容或英文內(nèi)容時,是判斷字與字間是否有一空格,因為對一英文文件, 只要依空格即可將文件分解成一個個字,因此只要字與字間具有一空格,即可判定此為英 文文件,并于步驟103,根據(jù)已知的英文詞性分析處理方式進行該文章的詞匯擷取與詞性標 注。反之,若判斷出字與字間未具有任何空格時,即可判定此為中文文件,并于步驟104,根 據(jù)已知的中文詞性分析處理方式進行該文章的詞匯擷取與詞性標注。其中詞性分析方式會 先將文章斷句拆解成句子,并切割獨立詞匯辨識專有名詞,最后將切割出的詞匯進行詞性 標注。值得注意的是本發(fā)明并不限于應(yīng)用在分析中文以及英文文章。接著于步驟105,判斷該些文章是否具有關(guān)鍵詞匯。在一實施例中,若以搜尋產(chǎn)品評論為例,則此關(guān)鍵詞匯為產(chǎn)品的名稱,本發(fā)明會將完成詞匯擷取的文章與關(guān)鍵詞匯庫中 記載的關(guān)鍵詞匯進行比對,若其中擷取的詞匯完全無關(guān)鍵詞匯,即代表此篇文章非用以評 論該產(chǎn)品,與該產(chǎn)品無關(guān),即會結(jié)束此流程100。反之,若其中擷取的詞匯含有關(guān)鍵詞匯,即 代表此篇文章可能與該產(chǎn)品有關(guān),即會進行后續(xù)步驟106,進行詞匯的擷取。于步驟106中,根據(jù)使用者設(shè)定的規(guī)則進行相關(guān)詞匯組擷取。此規(guī)則包括設(shè)定產(chǎn) 品名稱以及與該產(chǎn)品有關(guān)欲擷取的詞性與擷取范圍,藉以將位在該文章產(chǎn)品名稱處擷取范 圍內(nèi)符合設(shè)定詞性的詞匯擷取出來,與該產(chǎn)品名稱形成一詞匯組合。在一實施例中,例如 設(shè)定擷取范圍為產(chǎn)品名稱所在句子的前后一句,而設(shè)定的擷取詞性為形容詞。因此,本流程 即會根據(jù)此規(guī)則,擷取產(chǎn)品名稱所在句子前后一句內(nèi)的形容詞,來與產(chǎn)品名稱形成一詞匯 組合。此外,亦可增加設(shè)定搜尋范圍限定與該產(chǎn)品名稱相距5詞匯內(nèi),來避免因產(chǎn)品名稱所 在句子的前后句過于冗長,所搜尋出的形容詞非用以形容該產(chǎn)品名稱,造成結(jié)果不正確。此 外在另一實施例中,使用者亦可設(shè)定額外的搜尋詞性,例如,設(shè)定的擷取詞性包括名詞、受 詞、形容詞、副詞、形容詞+副詞等,本流程即會根據(jù)此規(guī)則,擷取產(chǎn)品名稱所在句子前后一 句內(nèi)的形容詞或/和副詞,來與產(chǎn)品名稱形成一詞匯組合。接著步驟107,將所擷取的詞匯組合列出,其中相同的詞匯組合會進行累加,并 統(tǒng)計其次數(shù),計算其出現(xiàn)的比率。在一實施例中,例如可設(shè)定一門檻比率值,僅出現(xiàn)次數(shù) 高于此門檻比率的詞匯組合才會被取出。此外,為避免擷取出詞匯組合內(nèi)的詞匯為彼此 不相關(guān)的詞匯,例如,關(guān)鍵詞匯為手機產(chǎn)品,但搜尋出的形容詞匯為形容食物的相關(guān)詞匯, 因此于步驟108,會進行一獨立性檢定估計,計算詞匯組合中各詞匯的相關(guān)度,在一實施 例中例如可使用下述已知的方法進行獨立性檢定,包括條件機率、期望交互信息(Mutual Information)或可信度等。并于步驟109,擷取相關(guān)度最高的詞匯組合。在一實施例中,例 如可設(shè)定一相關(guān)度門檻值(θ ),僅擷取獨立性檢定超過此門檻值的詞匯組合。最后結(jié)束此 流程100。此時一使用者即可根據(jù)所擷取出的詞匯組合判斷該項產(chǎn)品在消費者中的評價。在另一實施例中,所擷取出的詞匯組合亦可再次連接文件庫,根據(jù)索引對照表,將 擷取出的詞匯組合與其來源進行連接,如此一使用者即可知曉此篇評論是來自于哪一篇數(shù) 字文件,以及其發(fā)表的時間、日期,借以了解,該項產(chǎn)品的評價在上市初期是好評或是壞評, 以及使用者使用一段時間后對該項產(chǎn)品的評價是否有更改。例如,若一產(chǎn)品在上市初期是 好評但使用者使用一段時間后對該項產(chǎn)品的評價卻轉(zhuǎn)換成壞評,此時廠商即可判斷是否商 品設(shè)計不符合使用者使用,或是其它可能原因。或是壞評,才以及每個詞匯在對應(yīng)文章的位置。而關(guān)鍵詞匯庫則儲存有搜尋的關(guān) 鍵詞匯,在一實施例中,若以搜尋產(chǎn)品評論為例,則此關(guān)鍵詞匯為該產(chǎn)品的名稱。參閱圖2所示,為根據(jù)本發(fā)明一實施例的文章評論觀點關(guān)連分析裝置。文章評論 觀點關(guān)連分析裝置200包括一文件庫201、一索引對照表建立模塊202、一語系判定模塊 203、一詞性分析處理模塊204、一過濾模塊205、一相關(guān)度計算模塊206、一顯示模塊207以 及一關(guān)鍵詞匯庫208。其中,文件庫201中儲存有所收集的各數(shù)字文件數(shù)據(jù),例如來自于網(wǎng)絡(luò)的BBS,論 壇討論區(qū)、推特類型網(wǎng)站,或其它數(shù)字文章等。而索引對照表建立模塊202根據(jù)所收集的 數(shù)字文件數(shù)據(jù)建立一索引對照表,該索引對照表記錄有每一篇數(shù)字文件數(shù)據(jù)的來源以及日 期,以及每個詞匯在對應(yīng)文章的位置。關(guān)鍵詞匯庫208則儲存有搜尋的關(guān)鍵詞匯,在一實施例中,若以搜尋產(chǎn)品評論為例,則此關(guān)鍵詞匯為該產(chǎn)品的名稱。語系判定模塊203,用以判斷一文章的語系。在一實施例中,在判斷欲分析文章為 中文內(nèi)容或英文內(nèi)容時,語系判定模塊203會判斷字與字間是否有一空格,因為對一英文 文件,只要一空格即可將文件分解成一個個字,因此只要字與字間具有一空格,即可判定此 為英文文件。反之,若判斷出字與字間未具有任何空格時,即可判定此為中文文件。詞性分析處理模塊204,會根據(jù)語系判定模塊203判斷出的文章語系,進行詞性分 析處理。其中詞性分析處理模塊204還包括詞匯擷取單元2041和詞匯標注單元2042,其中 詞匯擷取單元2041會將文章拆解成句子,并根據(jù)空格、標點符號或者是其它斷字規(guī)則,來 切割獨立詞匯。而詞匯標注單元2042,會將各獨立詞匯進行詞性標注。過濾模塊205,會根據(jù)使用者設(shè)定的規(guī)則進行相關(guān)詞匯組擷取。此規(guī)則包括根據(jù)關(guān) 鍵詞匯庫中的產(chǎn)品名稱,以及根據(jù)詞性與擷取范圍進行相關(guān)詞匯組擷取。在一實施例中,例 如設(shè)定擷取范圍為產(chǎn)品名稱所在句子的前后一句,而設(shè)定的擷取詞性為形容詞。過濾模塊 205即會根據(jù)此規(guī)則,擷取產(chǎn)品名稱所在句子前后一句內(nèi)的形容詞,來與產(chǎn)品名稱形成一詞 匯組合。此外,亦可增加設(shè)定搜尋范圍限定與該產(chǎn)品名稱相距5詞匯內(nèi),來避免因產(chǎn)品名 稱所在句子的前后句過于冗長,所搜尋出的形容詞非用以形容該產(chǎn)品名稱,造成結(jié)果不正 確。此外在另一實施例中,使用者亦可設(shè)定額外的搜尋詞性,例如,設(shè)定的擷取詞性包括形 容詞、副詞、形容詞+副詞等,過濾模塊205即會根據(jù)此規(guī)則,擷取產(chǎn)品名稱所在句子前后一 句內(nèi)的形容詞或/和副詞,來與產(chǎn)品名稱形成一詞匯組合。其中相同的詞匯組合會進行累 加,并統(tǒng)計其次數(shù),計算其出現(xiàn)的比率。在一實施例中,可設(shè)定一門檻比率值,僅出現(xiàn)次數(shù)高 于此門檻比率的詞匯組合才會被取出。相關(guān)度計算模塊,將過濾模塊205擷取的詞匯組合進行一獨立性檢定估計,計算 詞匯組合中各詞匯的相關(guān)度,在一實施例中例如可使用下述已知的方法進行獨立性檢定, 包括條件機率、期望交互信息(Mutual ^formation)或可信度等。在一實施例中,可設(shè)定 一相關(guān)度門檻值(θ ),僅擷取獨立性檢定超過此門檻值的詞匯組合。顯示模塊207,顯示最終的詞匯組合。一使用者即可根據(jù)所擷取出的詞匯組合判斷 該項產(chǎn)品在消費者中的評價。此外,所擷取出的詞匯組合亦可再次連接文件庫,根據(jù)索引對 照表,將擷取出的詞匯組合與其來源進行連接,并由顯示模塊207顯示連接結(jié)果,如此一使 用者即可知曉此篇評論是來自于哪一篇數(shù)字文件,以及其發(fā)表的時間、日期,借以了解,該 項產(chǎn)品的評價在上市初期是好評或是壞評,以及使用者使用一段時間后對該項產(chǎn)品的評價 是否有更改。例如,若一產(chǎn)品在上市初期是好評但使用者使用一段時間后對該項產(chǎn)品的評 價卻轉(zhuǎn)換成壞評,此時廠商即可判斷是否商品設(shè)計不符合使用者使用,或是其它可能原因。圖3所示為應(yīng)用本發(fā)明于各種文章中搜尋產(chǎn)品評論的一實施例。在本實施例中, 以搜尋中文文章中的產(chǎn)品評論為例進行說明。請同時參閱圖1-3。其中文件庫中的欲分析文件有3貝U,其出處與日期分別為3(a)的MobileOl 2009-09-22。 3(b)的 MobileOl 2009-09-23。 3(c)的 PTT2009-09-22。關(guān)鍵詞匯庫中,欲分析的產(chǎn)品名稱為3個手機產(chǎn)品名稱,N85、N82以及N79。使用者設(shè)定的規(guī)則為擷取產(chǎn)品名稱所在句子前后一句,并限定與該產(chǎn)品名稱相距 5詞匯內(nèi)的形容詞。最終欲顯示的項目包括產(chǎn)品名稱、評價詞匯、日期和來源。此外,亦設(shè) 定門檻比率值為10%,僅擷取出現(xiàn)次數(shù)高于此門檻比率的詞匯組合才會被取出。此外,采用期望交互信息進行獨立性檢測,其相關(guān)度門檻值(θ )為70%。其搜尋出的結(jié)果如3(d)所示,包括Ν85—不喜愛--Mobile01--2009· 09. 22選--N82--Mobile01—2009·09. 22喜歡—N82—MobileOl-2009.09. 23N82—老氣一MobileOl—2009. 09. 23N82—高--PTT—2009. 09. 22N79—連在一起一MobileOl—2009· 09. 22喜歡--N79--Mobile01—2009·09. 23看上--N79--Mobile01—2009·09. 22其中以搜尋“N85是上下滑蓋機...我比較不喜愛”為例,N85為欲搜尋的產(chǎn)品 名稱,亦即關(guān)鍵詞匯,因此本發(fā)明會根據(jù)設(shè)定搜尋N85產(chǎn)品名稱所在句子的前后一句,且與 N85相距5詞匯內(nèi)的形容詞。依此,其中“我比較不喜愛”為N85所在句子的后一句,而前 一句“不過好像都沒貨了”不具形容詞,因此其搜尋范圍變成后一句且相距5詞匯內(nèi)的形容 詞。N85后四個詞匯分別為“是” “上下滑蓋機” “我” “比較”,因此即會擷取出“不喜愛”此 形容詞。而組成“N85-不喜愛”的詞匯組合。接著使用期望交互信息(Mutual Information)相關(guān)度計算方法將值最高的10% 并且滿足相關(guān)性> θ的詞匯組合擷取出來。使用者即可根據(jù)上述擷取出的詞匯組合判斷 該項產(chǎn)品在消費者中的評價。圖4所示為應(yīng)用本發(fā)明于各種文章中搜尋產(chǎn)品評論的一實施例。在本實施例中, 以搜尋英文文章中的產(chǎn)品評論為例進行說明。請同時參閱圖1-3。其中文件庫中的欲分析文件有3貝U,其出處與日期分別為4 (a)的Amazone 2009-08-11。 4(b)的 Amazone 2009-08-12。 4(c)的 CPU review2009-08_22。關(guān)鍵詞匯庫中,欲分析的產(chǎn)品名稱為2個中央處理器(CPU)名稱,i7_920以及i7。使用者設(shè)定的規(guī)則為擷取產(chǎn)品名稱所在句子前后2句,并限定與該產(chǎn)品名稱相距 6詞匯內(nèi)的形容詞。最終欲顯示的項目包括產(chǎn)品名稱、評價詞匯、日期和來源。此外,亦設(shè) 定門檻比率值為20%,僅擷取出現(xiàn)次數(shù)高于此門檻比率的詞匯組合才會被取出。此外,采用 期望交互信息(Mutual Information)相關(guān)度計算檢測,其相關(guān)度門檻值(Θ)為70%。其搜尋出的結(jié)果如4(d)所示,包括 7—excellent—Amazon—2009. 08. 11loud—i7—Amazon—2009. 08. 11low speed—i7—Amazon—2009. 08. 11i7—amazing—Amazon—2009. 08. 12cheaper—i7—Amazon—2009. 08. 12 7-920—amazing—CPU review—2009. 08. 22接著使用期望交互信息(Mutual ^formation)相關(guān)度計算方法將值最高的20% 并且滿足相關(guān)性> θ的詞匯組合擷取出來。使用者即可根據(jù)上述擷取出的詞匯組合判斷 該項產(chǎn)品在消費者中的評價。綜合上述所言,應(yīng)用本發(fā)明至少具有下列優(yōu)點。對于消費者而言本發(fā)明可以列出
10各消費者感興趣的產(chǎn)品評價及其相關(guān)描述,供消費者于購買相同產(chǎn)品的評估。對于制造業(yè) 者而言,本發(fā)明可以找出其生產(chǎn)在線所有產(chǎn)品的評價描述,與用戶試用心得供制造商進行 改進缺點,以及廣告放大消費者感興趣的優(yōu)點。對于同業(yè)競爭者而言本發(fā)明能找出類似 產(chǎn)品的相關(guān)評價,并整理各家產(chǎn)品的特色與優(yōu)缺點,供競爭者進行評估,以發(fā)展下一世代產(chǎn)品。 雖然本發(fā)明已以實施方式揭露如上,然其并非用以限定本發(fā)明,任何熟悉此技術(shù) 的人員,在不脫離本發(fā)明的精神和范圍內(nèi),當(dāng)可作各種的更動與潤飾,因此本發(fā)明的保護范 圍當(dāng)視權(quán)利要求書所界定的范圍為準。
權(quán)利要求
1.一種文章評論觀點關(guān)連分析方法,其特征在于,包括下述步驟建立一文件庫以及一關(guān)鍵詞匯庫,其中該文件庫包括至少一筆數(shù)字文件數(shù)據(jù),關(guān)鍵詞 匯庫包括至少一筆關(guān)鍵詞匯; 判斷該數(shù)字文件數(shù)據(jù)的語系;根據(jù)該語系對該至少一筆數(shù)字文件數(shù)據(jù)進行詞性分析處理成為一第一文件; 接收一搜尋范圍以及一搜尋詞性;以及根據(jù)該搜尋范圍以及該詞性從該第一文件擷取出多個詞匯組合,其中每一該些詞匯組 合包含該關(guān)鍵詞匯以及符合該詞性的一詞匯。
2.根據(jù)權(quán)利要求1所述的文章評論觀點關(guān)連分析方法,其特征在于,該搜尋范圍為在 該第一文件中,以具有該關(guān)鍵詞匯的句子為起點,搜尋前句子以及后句子的數(shù)目。
3.根據(jù)權(quán)利要求2所述的文章評論觀點關(guān)連分析方法,其特征在于,搜尋前句子的數(shù) 目為1,搜尋后句子的數(shù)目為1。
4.根據(jù)權(quán)利要求1所述的文章評論觀點關(guān)連分析方法,其特征在于,該搜尋范圍為在 該第一文件中,以該關(guān)鍵詞匯為起點,搜該關(guān)鍵詞匯前后的詞匯數(shù)目。
5.根據(jù)權(quán)利要求4所述的文章評論觀點關(guān)連分析方法,其特征在于,該詞匯數(shù)目為5。
6.根據(jù)權(quán)利要求1所述的文章評論觀點關(guān)連分析方法,其特征在于,該搜尋詞性包括 名詞、受詞、形容詞、副詞、或上述詞性的組合。
7.根據(jù)權(quán)利要求1所述的文章評論觀點關(guān)連分析方法,其特征在于,判斷該數(shù)字文件 數(shù)據(jù)的語系還包括判斷該數(shù)字文件數(shù)據(jù)的各字間是否具有一空格。
8.根據(jù)權(quán)利要求1所述的文章評論觀點關(guān)連分析方法,其特征在于,該詞性分析處理 還包括對該數(shù)字文件數(shù)據(jù)進行詞匯擷?。灰约?對該擷取出的詞匯進行詞性標注。
9.根據(jù)權(quán)利要求1所述的文章評論觀點關(guān)連分析方法,其特征在于,還包括 判斷該第一文件中是否含有該關(guān)鍵詞匯;當(dāng)該第一文件中不含有該關(guān)鍵詞匯,結(jié)束該分析方法;以及 當(dāng)該第一文件中含有該關(guān)鍵詞匯,進行該詞匯組合擷取。
10.根據(jù)權(quán)利要求1所述的文章評論觀點關(guān)連分析方法,其特征在于,還包括 根據(jù)每一該些詞匯組合出現(xiàn)的次數(shù),排序該些詞匯組合;以及根據(jù)該排序,擷取該些詞匯組合中一定比率的詞匯組合。
11.根據(jù)權(quán)利要求10所述的文章評論觀點關(guān)連分析方法,其特征在于,包括在該一定比率的詞匯組合中,計算每一詞匯組合的該關(guān)鍵詞匯以及符合該詞性的該詞 匯間的相關(guān)度;以及擷取該一定比率的詞匯組合中,相關(guān)度大于一門檻值的詞匯組合。
12.根據(jù)權(quán)利要求11所述的文章評論觀點關(guān)連分析方法,其特征在于,該相關(guān)度計算 是使用條件機率、期望交互信息或可信度方法。
13.根據(jù)權(quán)利要求11所述的文章評論觀點關(guān)連分析方法,其特征在于,還包括建立一 索引對照表,該索引對照表記錄有該至少一筆數(shù)字文件的來源以及日期,以及每個詞匯的 位置。
14.根據(jù)權(quán)利要求13所述的文章評論觀點關(guān)連分析方法,其特征在于,還包括根據(jù)該 索引對照表將來源以及日期與該些詞匯組合連接。
15.一種文章評論觀點關(guān)連分析方法,其特征在于,包括下述步驟建立一文件庫以及一關(guān)鍵詞匯庫,其中該文件庫包括至少一筆數(shù)字文件數(shù)據(jù),關(guān)鍵詞 匯庫包括至少一筆關(guān)鍵詞匯; 判斷該數(shù)字文件數(shù)據(jù)的語系;根據(jù)該語系對該至少一筆數(shù)字文件數(shù)據(jù)進行詞性分析處理成為一第一文件; 接收一搜尋范圍以及一搜尋詞性;根據(jù)該搜尋范圍以及該詞性從該第一文件擷取出多個詞匯組合,其中每一該些詞匯組 合包含該關(guān)鍵詞匯以及符合該詞性的一詞匯;根據(jù)每一該些詞匯組合出現(xiàn)的次數(shù),排序該些詞匯組合; 根據(jù)該排序,擷取該些詞匯組合中一定比率的詞匯組合;在該一定比率的詞匯組合中,計算每一詞匯組合中的該關(guān)鍵詞匯以及符合該詞性的該 詞匯間的相關(guān)度;以及擷取該一定比率的詞匯組合中,相關(guān)度大于一門檻值的詞匯組合。
16.根據(jù)權(quán)利要求15所述的文章評論觀點關(guān)連分析方法,其特征在于,該搜尋范圍為 在該第一文件中,以具有該關(guān)鍵詞匯的句子為起點,搜尋前句子以及后句子的數(shù)目。
17.根據(jù)權(quán)利要求15所述的文章評論觀點關(guān)連分析方法,其特征在于,該搜尋范圍為 在該第一文件中,以該關(guān)鍵詞匯為起點,搜該關(guān)鍵詞匯前后的詞匯數(shù)目。
18.根據(jù)權(quán)利要求15所述的文章評論觀點關(guān)連分析方法,其特征在于,該搜尋詞性包 括名詞、受詞、形容詞、副詞、或上述詞性的組合。
19.根據(jù)權(quán)利要求15所述的文章評論觀點關(guān)連分析方法,其特征在于,該詞性分析處 理還包括對該數(shù)字文件數(shù)據(jù)進行詞匯擷??;以及 對該擷取出的詞匯進行詞性標注。
20.根據(jù)權(quán)利要求15所述的文章評論觀點關(guān)連分析方法,其特征在于,還包括 判斷該第一文件中是否含有該關(guān)鍵詞匯;當(dāng)該第一文件中不含有該關(guān)鍵詞匯,結(jié)束該分析方法;以及 當(dāng)該第一文件中含有該關(guān)鍵詞匯,進行該詞匯組合擷取。
21.根據(jù)權(quán)利要求15所述的文章評論觀點關(guān)連分析方法,其特征在于,該相關(guān)度計算 是使用相關(guān)度計算是使用條件機率、期望交互信息或可信度方法。
22.根據(jù)權(quán)利要求15所述的文章評論觀點關(guān)連分析方法,其特征在于,還包括建立一 索引對照表,該索引對照表記錄有該至少一筆數(shù)字文件的來源以及日期,以及每個詞匯的 位置。
23.根據(jù)權(quán)利要求22所述的文章評論觀點關(guān)連分析方法,其特征在于,還包括根據(jù)該 索引對照表將來源以及日期與該些詞匯組合連接。
24.一種文章評論觀點關(guān)連分析裝置,其特征在于,包括 一文件庫,其中該文件庫包括至少一筆數(shù)字文件數(shù)據(jù); 一關(guān)鍵詞匯庫,其中該關(guān)鍵詞匯庫包括至少一筆關(guān)鍵詞匯;一語系判定模塊,用以判斷該數(shù)字文件數(shù)據(jù)的語系;一詞性分析處理模塊,根據(jù)該語系判定模塊判定出的語系對該數(shù)字文件數(shù)據(jù)進行詞性 分析處理成為一第一文件;一過濾模塊,根據(jù)一搜尋范圍以及一搜尋詞性從該第一文件擷取出多個詞匯組合,其 中每一該些詞匯組合包含該關(guān)鍵詞匯以及符合該詞性的一詞匯,并根據(jù)每一該些詞匯組合 出現(xiàn)的次數(shù),排序該些詞匯組合,以及根據(jù)該排序,擷取該些詞匯組合中一定比率的詞匯組 合;一相關(guān)度計算模塊,在該一定比率的詞匯組合中,計算每一詞匯組合中的該關(guān)鍵詞匯 以及符合該詞性的該詞匯間的相關(guān)度,以及擷取該一定比率的詞匯組合中,相關(guān)度大于一 門檻值的詞匯組合;以及一顯示模塊,顯示該獨立性檢定模塊擷取出的詞匯組合。
25.根據(jù)權(quán)利要求M所述的文章評論觀點關(guān)連分析裝置,其特征在于,該搜尋范圍為 在該第一文件中,以具有該關(guān)鍵詞匯的句子為起點,搜尋前句子以及后句子的數(shù)目。
26.根據(jù)權(quán)利要求M所述的文章評論觀點關(guān)連分析裝置,其特征在于,該搜尋范圍為 在該第一文件中,以該關(guān)鍵詞匯為起點,搜該關(guān)鍵詞匯前后的詞匯數(shù)目。
27.根據(jù)權(quán)利要求M所述的文章評論觀點關(guān)連分析裝置,其特征在于,還包括一索引 對照表建立模塊,用以建立一索引對照表,該索引對照表記錄有該至少一筆數(shù)字文件數(shù)據(jù) 的來源以及日期,以及每個詞匯在對應(yīng)文章的位置。
28.根據(jù)權(quán)利要求M所述的文章評論觀點關(guān)連分析裝置,其特征在于,該搜尋詞性包 括名詞、受詞、形容詞、副詞、或上述詞性的組合。
29.根據(jù)權(quán)利要求M所述的文章評論觀點關(guān)連分析裝置,其特征在于,該詞性分析處 理模塊,還包括一詞匯擷取單元,對該數(shù)字文件數(shù)據(jù)進行詞匯擷??;以及一詞性標注單元,對該擷取出的詞匯進行詞性標注。
30.根據(jù)權(quán)利要求M所述的文章評論觀點關(guān)連分析裝置,其特征在于,該相關(guān)度計算 是使用條件機率、期望交互信息或可信度方法。
全文摘要
本發(fā)明提供一種文章評論詞匯關(guān)連分析方法及其裝置,該方法包括下述步驟建立一文件庫以及一關(guān)鍵詞匯庫,其中該文件庫包括至少一筆數(shù)字文件數(shù)據(jù),關(guān)鍵詞匯庫包括至少一筆關(guān)鍵詞匯;判斷該數(shù)字文件數(shù)據(jù)的語系;根據(jù)該語系對該至少一筆數(shù)字文件數(shù)據(jù)進行詞性分析處理成為一第一文件;接收一搜尋范圍以及一搜尋詞性;以及根據(jù)該搜尋范圍以及該詞性從該第一文件擷取出多個詞匯組合,其中每一該些詞匯組合包含該關(guān)鍵詞匯以及符合該詞性的一詞匯。
文檔編號G06F17/27GK102087643SQ20091025139
公開日2011年6月8日 申請日期2009年12月3日 優(yōu)先權(quán)日2009年12月3日
發(fā)明者劉培森, 吳毓杰, 張升賀, 張翰軒, 黃信榮 申請人:財團法人資訊工業(yè)策進會
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1