專利名稱::社群特有表現(xiàn)檢測裝置及方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及根據(jù)語言形成理論,從社群中使用的表現(xiàn)中檢測該社群特有表現(xiàn)的檢測裝置及方法。
背景技術(shù):
:10在圍繞特定的興趣或者題目進(jìn)行活躍討論的人們的社群中,往往發(fā)生該社群獨自的表現(xiàn)。例如,在討論日本酒的社群中,使用"老fe(匕才、)、匕年(Z^3、年P(guān)3、.."這樣的表現(xiàn)。在喜好葡萄酒的人們之間可以看到"黑體(Mbody)、中度干(mediumdry)、桶香(caskflavor)、后味(aftertaste)、.."這樣的表現(xiàn)。這些并不是具有專業(yè)知識的人們使用的難以理解的專業(yè)術(shù)語,而是只15要是喜好葡萄酒或者日本酒的人,作為表達(dá)其味道的表現(xiàn),能自然理解其意思的一種詞匯。另外,作為高中生,大學(xué)生等的"年青人語語言'而被收集的表現(xiàn)也可以認(rèn)為是社群固有的表J見。最近,在聚集于因特網(wǎng)的公告板等上的人們形成的社群中可見到許多新的表現(xiàn)。專利文獻(xiàn)1特開2002~297589"未知語匯收集方法";20專利文獻(xiàn)2:特開平5—113997"詞典翻收集裝置";專利文獻(xiàn)3:特開2004~265440"未知詞匯登記裝置和方法以及存儲介質(zhì)";專利文獻(xiàn)4:特開2005—309853"專業(yè)的記逸和非專業(yè)的iM之間的詞匯變換方法程序,系統(tǒng)";非專利文獻(xiàn)h中川祐志、湯本紘彰&辰則(2003),根據(jù)出現(xiàn)頻率和連接25頻率的專業(yè)術(shù)語的抽出,自然語言處理,10(1),2745;非專利文獻(xiàn)2:辻慶太,&芳鐘冬樹(2004),針對專業(yè)領(lǐng)域中成為重要的新詞的確定的基礎(chǔ)研究,語言處理學(xué)會第10屆年會發(fā)表論文集(pp.189-191);非專利文獻(xiàn)3:藤井敦、伊藤克亙、秋葉友良(2003),IPA未開發(fā)軟件創(chuàng)造事業(yè)"CYCLONE:最強(qiáng)事典網(wǎng)站的構(gòu)筑",3()www.ipa.go.jp/about/news/event/pdf/29A7一fojii.pdf;非專利文獻(xiàn)4:米川明彥(1998)"年青人語言的科學(xué)化,東京明治書院。
發(fā)明內(nèi)容在涉及社群固有表現(xiàn)的收集的現(xiàn)有技術(shù)中,主要有關(guān)于專業(yè)術(shù)語的收集和5未知詞匯的收集的技術(shù)。關(guān)于專業(yè)術(shù)語的收集有以非專利文獻(xiàn)l、非專利文獻(xiàn)2開始的研究,但是大體上是關(guān)于專業(yè)領(lǐng)域中的由名詞、復(fù)合名詞組成的專業(yè)術(shù)語的收集。通過這樣的限定,能使用根據(jù)著眼于單名詞的重疊或者連接關(guān)系等的得分的算法,但慰隹于應(yīng)用至IJ名詞以夕卜的表現(xiàn)。另外,關(guān)于未知詞匯-新詞的收集,在詞典的編纂中也是重要的題目,特開io2002""297589"未知詞匯收集方法"(專利文獻(xiàn)1)、特開2004—265440"未知詞匯登記裝置和方法以及存儲介質(zhì)"(專利文獻(xiàn)3)等己有專利中存在處理該題目的技術(shù)。但是,像在專利文獻(xiàn)3等的報告中那樣,也有檢測日本語中的未知詞匯困難的問題,特開2002^297589"未知詞匯收集方法"(專利文獻(xiàn)1)的方法也是15那樣,不過基本上多通過手工或者推斷方式收集詞典中未登記的詞匯。另外,在這些未知詞匯的檢測中也大體限于名詞,真正聚焦在新表現(xiàn)的收集上的很少。另外,在社會語言學(xué)中,存在進(jìn)行高中生'大學(xué)生使用的"年青人語言'的收集和分析的領(lǐng)域(非專利文獻(xiàn)4)。作為社群固有的表現(xiàn)的現(xiàn)有研究,認(rèn)為接近于本發(fā)明,但是在社會語言學(xué)領(lǐng)域中,未提出有規(guī)則地收集年青人語言或者流20行語的方法。ffi51公開以下的裝置來解決所述課題。(1)一種裝置,其特征在于,從規(guī)定的社群中使用的文本集合,檢索所述規(guī)定的社群中的特有表現(xiàn),具25有以下從(a)到(d)的單元,(a)抽出所述規(guī)定的社群中特有使用的n元語法搭配的單元,(b)選擇有可能成為所述特有表現(xiàn)的核的第一詞干的單元,(c)根據(jù)使用所述第一詞干的顯著性以及取入了所述第一詞干的前或后的要素的第二詞干的顯著性計算出來的值,選擇擴(kuò)展詞干的單元,30(d)從所述擴(kuò)展詞干中,根據(jù)該語言的語言形成規(guī)則,選擇所述規(guī)定的社群中特有表現(xiàn)的單元。(2)再有,根據(jù)(l)中所述的裝置,其特征在于,包含通過把規(guī)定的術(shù)語歹據(jù)中包含的術(shù)語作為關(guān)鍵詞進(jìn)行M檢索,將所述文本集合進(jìn)行收集的單元。5(3)再有,根據(jù)(1)或(2)中所述的裝置,其特征在于,抽出所述n元語法搭配的單元包含禾,多個社群中使用的文本,并根據(jù)所述規(guī)定的社群中使用的n元語法搭配的顯著性與其他社群中使用的n元語法搭配的顯著性的比較,抽出所述n元語法搭配的單元。io再有,通過公開以下的方法來解決所述課題。(4)一種方法,其特征在于,從規(guī)定的社群中使用的文本集合,檢索所述規(guī)定的社群中的特有表現(xiàn),具有以下從問到(d)的步驟,15(a)抽出所述規(guī)定的社群中特有使用的n元語法搭配的步驟,(b)選擇有可能成為所述特有表現(xiàn)的核的第一詞干的步驟,(c)根據(jù)使用所述第一詞干的顯著性以及取入了所述第一詞干的前或后的要素的第二詞干的顯著性計算出來的值,選擇擴(kuò)展詞干的步驟,(d)從所述擴(kuò)展詞干中,根據(jù)該語言的語言形成規(guī)則,選擇所述規(guī)定的社20群中特有表現(xiàn)的步驟。(5)再有,根據(jù)(4)中所述的方法,其特征在于,包含通過把規(guī)定的術(shù)語列表中包含的術(shù)語作為關(guān)鍵詞進(jìn)行檢索,將所述文本集合進(jìn)行收集的步驟。再有,通過公開以下的禾聘來解決所述課題。25(6)—種程序,其特征在于,從規(guī)定的社群中使用的文本集合,檢索所述社群中的特有表現(xiàn),并控制計^m使以下從(a)到(d)的單織行工作,(a)抽出所述社群中特有使用的n元語法搭配的單元,30(b)選擇有可能成為所述特有表現(xiàn)的核的第一詞干的單元,(C)根據(jù)使用所述第一詞干的顯著性以及取入了所述第一詞干的前或后的要素的第二詞干的顯著性計算出來的值,選擇擴(kuò)展詞干的單元,(d)從所述擴(kuò)展詞干中,根據(jù)該語言的語言形成規(guī)則,選擇所述規(guī)定的社群中特有表現(xiàn)的單元。5(7)再有,根據(jù)(6)中所述的禾聘,其特征在于,包含通過把規(guī)定的術(shù)語列表中包含的術(shù)語作為關(guān)鍵詞進(jìn)行檢索,將所述文本集合進(jìn)行收集的步驟。根據(jù)本發(fā)明,收敏希望的社群中使用的表現(xiàn)并理解其含義,對于社群的成員來說交流變得容易,進(jìn)而能在其身份確認(rèn)中起作用。另外,也能以用于分10析該社群的特征或者性格的為目的。再有,在商品開發(fā)等中,認(rèn)為分析用戶在社群中討論的內(nèi)容是有用的,在該情況下收集該社群固有的表現(xiàn)并理解其含義,認(rèn)為會有大的貢獻(xiàn)。另外,本發(fā)明是主要詞類間的語法的擴(kuò)展,也可以應(yīng)用于其他語言。舉英語的例子,"He747'edtoChicago"這樣的表現(xiàn)是可能的。這是把飛機(jī)的型號動詞15化。另夕卜,也使用"Theweb-loggingisbecomingasocialphenomenon"這樣的表現(xiàn),而這是'Web-log(寫入環(huán)球網(wǎng))"這樣的動詞被名詞化了的例子。圖1是表示實施本發(fā)明的系統(tǒng)例的圖。20圖2是實施本發(fā)明的一部分的PC的框圖。圖3是根據(jù)本發(fā)明的社群固有表現(xiàn)檢測裝置的框圖。圖4是本發(fā)明的流程圖。圖5是本發(fā)明的文本收集的流程圖。圖6是判斷擴(kuò)展的詞干的適合與否的流程圖。25圖7是判定擴(kuò)展的詞干是否與語言形成規(guī)則一致的流程圖。符號說明110:用戶PC120:站點服務(wù)器(1)130:站點服務(wù)器(2)30140:網(wǎng)絡(luò)200:框架210:存儲體220:主存儲器230:輸出裝置5240:中央控制裝置(CPU)250:操作裝置260:網(wǎng)絡(luò)!/O具體實施方式10以下說明最佳形態(tài)。第一實施例圖1表示實施本發(fā)明的場合的系統(tǒng)例。在網(wǎng)絡(luò)140上連接用戶PC110、站點服務(wù)器(1)120、站點服務(wù)器(2)130等。il3K頓者操作用戶PC110,訪問在網(wǎng)絡(luò)140上連接的站點服務(wù)器(1)120、站點服務(wù)器(2)130等,使用檢15索工具等取得必要的信息。本發(fā)明以在因特網(wǎng)上的檢索作為實施例,但是不限于此,只要是能檢索信息的系統(tǒng),也可以在其他方法中應(yīng)用。使用用戶PC上的計敦幾程序處理取得的信息,能得到希望的結(jié)果。圖2表示實施本發(fā)明一部分的用戶PC。在框架200中,包含存儲裝置210、主存儲器220、輸出裝置230、中央控制裝置(CPU)240、操作裝置250、網(wǎng)絡(luò)20170260。iOT者操作操作裝置250,1K1網(wǎng)絡(luò)I/O,從因特網(wǎng)的各站點獲得必要的信息。中央控制裝置240把在存儲裝置210中存儲的文本處理程序下載到存儲器中,使用從因特網(wǎng)檢索到的信息進(jìn)行規(guī)定的處理,在輸出裝置230上顯示結(jié)果。圖3表示根據(jù)本發(fā)明的社群固有表現(xiàn)檢測裝置的框圖。310表示社群文本25檢索部,314表示網(wǎng)站,316表示術(shù)語列表存儲部,320表示文本處理部,330表示n元語法搭配抽出部,335表示顯著性判定部,340表^i司干選擇部,350表示詞干的左右擴(kuò)展部,354表示左側(cè)擴(kuò)展規(guī)則存儲部,356表示右側(cè)擴(kuò)展規(guī)則存儲部,360表満表現(xiàn)的選擇部,365^i吾言規(guī)則存儲部,370表示輸出部。以下說明它們的細(xì)節(jié)。30[基本算法]根據(jù)圖4表示的流程圖,說明本發(fā)明的基本算法。步驟410:社群中使用的文本的收集步驟420:n元語法搭配的抽出步驟430:成為新表現(xiàn)的核的要素(詞干)的選擇5步驟440:擴(kuò)展詞干的選擇步驟450:新表現(xiàn)的選擇[算法的細(xì)節(jié)]以下說明算法的細(xì)節(jié)(1)規(guī)定的社群中使用的文本的收集(圖4步驟410)io首先,使用下面的步驟收集在規(guī)定的社群中使用的文本集合。參照圖5表示的算法。步驟510:基于術(shù)語的指定取得候補文本步驟520:候補文本的預(yù)處理步驟530:除去無用文本15步驟540:是否檢索其他的社群文本以下說明各步驟的細(xì)節(jié)。(1-1)步驟510:候補文本的取得為實施本發(fā)明,使用包含規(guī)定的術(shù)語的術(shù)語列表,收集規(guī)定的社群的關(guān)系者使用的文本。這里,術(shù)語列表在術(shù)語列表存儲部(圖3:316)中存儲。20這里所謂的術(shù)語列表,是成為一個社群中的關(guān)鍵詞的術(shù)語的集合。例如,當(dāng)作為一個社群選擇"葡萄酒愛好者"時,術(shù)語列表的構(gòu)成要素是"葡萄酒的品牌"。根據(jù)在葡萄酒的術(shù)語列表中記載的品牌,《頓因特網(wǎng)的檢索工具,收集關(guān)于葡萄酒的信息(圖3:314)。這里,作為品牌,可以指定"Auslese"、"ChateauCure-Bon"、"ChateauMargaux"、"VinSanToscano"等品牌。把該術(shù)語作為關(guān)鍵25詞,從數(shù)據(jù)庫中檢索候補文本。作為數(shù)據(jù)庫只要是存儲有這樣的信息的數(shù)據(jù)庫均可,而在本實施例中說明使用因特網(wǎng)的檢索弓l擎檢索候補文本的方法。(1-2)歩驟520:候補文本的預(yù)處理在預(yù)處理中,首先從網(wǎng)頁的信息中取出與文本相當(dāng)?shù)膬?nèi)容迸行文本解析。接著,抽出留空格寫入的內(nèi)容詞、助詞、助動詞等,求出表示這些文本的特征30的特征值。使用這些特征值,如下除去無用文本。另外,事前選定認(rèn)為是要收集的文本的典型那樣的少量的模式文本。(1-3)步驟530:除去無用文本在從因特網(wǎng)的網(wǎng)頁自動地收集了這些信息的文本中包含各種信息,大多不能原樣不變地利用。在本實施例中,從這些文本中把相當(dāng)于垃圾文本、歹據(jù)文5本、以及日記型文本的文本作為無用文本除去。以下說明垃圾文本、列表文本、以及日記型文本。(a)垃圾文本垃圾文本是指滿足內(nèi)容詞數(shù)少的文本或者固有名詞比率低的文本等斜牛的全部的文本。所謂內(nèi)容詞數(shù)是在一個網(wǎng)頁中記載的文本中包含的內(nèi)容詞的數(shù)量。10所謂內(nèi)容詞是除助詞'助動詞外的、相當(dāng)于名詞、動詞、形容詞、副詞的單詞。另外,這里所述的所謂固有名詞,指社會上一般認(rèn)識為固有名詞的名詞。所謂固有名詞比率是指在一個網(wǎng)頁上出現(xiàn)的固有名詞的數(shù)量和內(nèi)容詞數(shù)的比率。(b)列表文本把滿足固有名詞比率高的文本、內(nèi)容詞和助詞勒動詞的相關(guān)系數(shù)低的文本15等條件的全部的文本定義為列表信息文本。這是在因特網(wǎng)的網(wǎng)站中把關(guān)于某領(lǐng)域中的對象物的信息僅作為列表存儲的文本。(c)日記型文本把滿足某社群的固有名詞比率低的文本、和根據(jù)內(nèi)容詞n元語法的模式文本的相關(guān)度低的文本、以及根據(jù)助詞,助動詞n元語法的模式文本的相關(guān)度髙的20文本等條件的全部的文本定義為日記型文本。這些可以是作為寫入個人日記的網(wǎng)站利用的文本、以及關(guān)于商場的賣場的網(wǎng)站等需要主要記載其他的信息的文本。根據(jù)以上的定義,把垃圾文本、列表文本、以及日記型文本作為無用文本除去。(M)步驟540:是否檢索其他的社群文本25M31步驟510至陟驟530,收^E規(guī)定的社群中使用的文本集合。在步驟540,同樣收驗其他社群中{柳的文本集合。接著使用這些收集到的在多個社群中使用的文本集合,選擇在這些社群中固有使用的新的表現(xiàn)。M以上的步驟,制作在多個社群中《柳的文本集合(圖3:320)。30(2)n元語法搭配的抽出(圖4步驟420)(2-1)社群固有的搭配抽出ffii^充計方法抽出在特定的社群中使用單詞級的n-gramcollocations(n元語法搭配)的場合顯著出現(xiàn)的n元語法搭配。將它們稱為社群固有的搭配。說明它們的細(xì)節(jié)。5所謂n元語法搭配,是指連續(xù)一個以上的詞,在一個詞的場合稱為一元語法(Uni-gram),在兩個詞的場合稱為二元語法(Bi-gram),在三個詞的場合稱為三元語法(Tri-gram)。在本實施例中,使用二元語法、三元語法(圖3:330)。(2-2)通過顯著性的判定i!31簡單地求n元語法搭配能得到數(shù)目很多的n元語法搭配,但是不一定io全部n元語法搭配都有效。因此,比較在兩個社群中^柳的文本集合,選擇在一方社群中使用的n元語法搭配有顯著地偏于一方出現(xiàn)的n元語法搭配(Z檢驗)。在本申請的說明書中,比較在兩個文本集合中各自的n元語法搭配出現(xiàn)的比率,使用檢驗其比率差的方法(圖3:330)。這里,考慮某n元語法搭配W在兩個文本集合dl、d2中共同表現(xiàn),設(shè)其頻率是wl、w2。把在文本集合dl15中表現(xiàn)的術(shù)語的總數(shù)設(shè)為nl,把在文本d2中的設(shè)為n2。于是,W在各個文本集合中表現(xiàn)的比例如下(式l)pl,l/nl,(式2)p2=w2/n2這里,當(dāng)把標(biāo)本比率作為從實際的數(shù)據(jù)得到的比率時,pl以及p2是標(biāo)本20比率。這里,在pl〉p2的場合,檢驗這是否顯著,即意,檢驗n元語法搭配W是否顯著地偏于dl的文本的一方而出現(xiàn)(單側(cè)檢驗)。這里,虛無假i兌(nullhypothesis)和對立假i兌(altemativehypothesis)如下。HO:pil=pi2虛無假說25Hl:pil〉pi2單側(cè)檢驗中的對立假說為進(jìn)行檢驗,首先從標(biāo)本比率推定實際不知道的母比率pihat(式3)。(式3)pihat=(nl*pl+n2*p2)/(nl+n2)由此用(式4)計算z,(式4)z=(pl-P2)/々(pihat*(l-pihat)*(l/nl+l/n2))30在放棄虛無假說而采用對立假說中,在5%的危險率中,必須z〉1.65。這樣,對于全部搭lSiS行檢驗,能分別選擇作為在文本集合中出現(xiàn)的n元語法搭配的、在一方社群中使用的文本中顯著地出現(xiàn)的n元語法搭配、以及在另一方社群中使用的文本中顯著地出現(xiàn)的n元語法搭配。因此,不會選擇在雙方社群中共同使用的n元語法搭配。5在本申請實施例中,取出在葡萄酒愛好者使用的文本集合和日本酒愛好者使用的文本集合作為特征表現(xiàn)的二元語法、三元語法的列表,進(jìn)行Z檢驗。這里,Z檢驗的結(jié)果,從葡萄酒愛好者使用的文本集合中選擇Z值在1.65以上的n元語法o(3)成為新表現(xiàn)的核的要素(詞干)的選擇(圖4步驟430)io這里,關(guān)于M31,方法抽出的n元語法,從其中取出成為新的表現(xiàn)的核的要素(圖3:340)。為此,暫且切斷n元語法連鎖,制作在那里產(chǎn)生的全部的要素(詞素)的列表。從那里除去不可能成為核的要素。這里,作為不成為核的可能性的要素,有助詞、助動詞、連接詞、活用詞尾等功能詞、"、"、"。"、""等區(qū)分要素。另外,也除去"平假名一文字"、"片假名一文字"的要素。由此,15制作具有成為新表現(xiàn)的核的可能性的要素的列表(核列表)。(4)擴(kuò)展詞干的選擇(圖4步驟440)(4-1)詞干的擴(kuò)展對于各個詞干候補,根據(jù)搭配模式的分布,判斷是否需要取入前后的要素進(jìn)行擴(kuò)展(圖3:350)。20這里如式(5)定義Z^。,(式5)^。=Z閃/AvgZ(閃[X+l])這里,所謂Z閃是現(xiàn)在著眼的n元語法詞干的Z值。把核要素作為X,把其上擴(kuò)展一個詞的要素作為[X+1],把擴(kuò)展兩個詞的要素作為[X+2]。所謂AvgZ(閃[X+l])是從n元語法詞干向"右"擴(kuò)展一個詞時的、相當(dāng)于[X][X+1]的全25部(n+l)元語法的詞干的Z值的平均值((KZ^。)。正確地說,也考慮從n元語法詞干向"左"擴(kuò)展一個詞時的AvgZ([X-1閃])。因此,以下在本申請的說明書中,在說U。時,只要不特別說明,包含從n元語法詞干向"左'或"右"擴(kuò)展一個詞時的兩方。進(jìn)而,為數(shù)據(jù)處理方便,取Z^。的對數(shù),來定義(式6)。30(式6)LZ=10*10^2^0)(4-2)右側(cè)擴(kuò)展規(guī)則如圖6的算法所示,在從n元語法詞干向右擴(kuò)展一個詞時,適用以下的規(guī)則(圖3:356)。但是[X+1]、以及[x+2]的最后的詞是區(qū)分要素的場合除外。在滿足第一餅5(i)Z(閃,[X+〗])〉A(chǔ)vgZ(閃,[X+l],[X+2]),而且(ii)LZ〉第一閾值的場合,作為向[X+1]的擴(kuò)展的候補被選擇(610,620,650)。這里,第一閾值在本實施例中取5.0,Z([X],[X+l])是用(閃,[X+l])表現(xiàn)的(n+l)元語法詞干的Z值,AvgZ(閃,[X+l],[X+2])是與閃、[X+l]、[X+2]相當(dāng)?shù)娜?n+2)元語法的Zio值的平均值。此外,對于在第一割牛中使用的LZ的第一閾值設(shè)定的高。在該值高的場合,因為即使僅MZ的值的判定也能充分地判斷能作為新表現(xiàn)被認(rèn)定,所以與U。(后述)的值無關(guān),作為有新表現(xiàn)的可能性進(jìn)行選擇。在滿足第一條件即(i)以及(u)的雙方的條件的場合,作為擴(kuò)展的詞干的候補被選擇(650)。在不滿足(i)的條件的場合不作為擴(kuò)展的候補被選擇(660)。在15滿足(i)的條件而不滿足(ii)的條件的場合,用如下表示的第二條件判別(630,640)。在滿足第二劍牛(iii)LZ>第二閾值,而且(iv)U。-Njun/Na11〉第三閾值20的場合,作為向[X+1]的擴(kuò)展的候補韋雌擇(630,640,650)。對于在第二條件中使用的LZ的第二閾值,在實施例中設(shè)定為3.0,僅在LZ比該值大而且J她取O.l以上的值時,才判定有新表現(xiàn)的可能性。這里,所謂U。是[X+2揮素是作為區(qū)分要素的比例(0=<U。=<1)。另夕卜,第三閾值在本實施例中取O.l,Njun是認(rèn)定為區(qū)分要素的先端要素[X+2]的25數(shù),NaJl是相當(dāng)于成為對象的[X+2]的(n+2)元語法的數(shù)。在滿足第二條件即(iii)以及(iv)的雙方的條件的場合,作為擴(kuò)展的詞干的候補被選擇(650)。在不滿足(iu)以及(iv)的任何一個條件的場合,不選擇擴(kuò)展的詞干(660)。(4-3)左側(cè)擴(kuò)展規(guī)則30基本上與右側(cè)擴(kuò)展規(guī)則相同(圖3:354)?!繼的(1)、(ii)、(ui)的條件全部相同。但是在(i力中,區(qū)分要素的計數(shù)方法不同。在右側(cè)擴(kuò)展規(guī)則中,像在[老][打司的例子中表現(xiàn)的[松S]那樣,著眼的動詞的活用詞尾不被視為區(qū)分要素。但是在左側(cè)擴(kuò)展規(guī)則中,在著眼的詞干的左頂瞎在的動詞的活用詞尾,很難認(rèn)為可以作為著眼的詞干的新的表現(xiàn)的接頭詞。因此,在該場合作為區(qū)分要素被計數(shù)。艮P,拉側(cè)作為區(qū)分要素,追加被計數(shù)的要素。(44)右側(cè)擴(kuò)展規(guī)則適用例4頓實例說明右側(cè)擴(kuò)展規(guī)則。說明把作為詞干選擇的7小一亍一(z值為147.14)向右側(cè)擴(kuò)展。擴(kuò)展[X+l][X+2]向閣[詞向網(wǎng)Z值5.662.002.00首先,向右延伸一^Mt行研究。[7詞干io閃[7/P—于一]這里,著眼的詞干是[力P—亍一一].15》一亍J一]、[《與戰(zhàn)的[X][X+l]對應(yīng)。此時的Z值如下,Z([X〗[X+1])=Z([7少一于吖一][$])=5.66再向右延伸一個研究(閃[x+i][x+2])。這里看到兩個搭配。即[力i^一亍<一]兇[狗,以及[7》一亍一]兇閱。20[7小一亍V—][3][狗的Z值:Z([7小一亍^一]fe][力S])=2.00[:7少一亍一一]fe]時]的Z值-Z([力P—亍一一][$][出)=2.00這里,把[X+2]的要素,即[別[3],稱為kOne要素。如該例那樣,在有多個kOne要素的場合,求它們的Z值的平均值。在該場合,因為每一個都是2.00,所以平均值為2.00。25艮口,AvgZ([X][X+l〗[X+2])=2.00。Z^Z(閃[X+l])/AvgZ([X][X+l][X+2]H.66/2.00=2.83LZ—(mog(Z^oH-52。接著,關(guān)于該kOne要素,調(diào)查是否為表示區(qū)分的"區(qū)分要素"。艮卩,在"7A—亍j一$"這樣的新的表現(xiàn)的候補后面,檢查是否有表琉吾法上的區(qū)分的要30素。如果有,則啟示該候補("7/P—亍^一S")在語法上作為一體的要素處理,成為新表現(xiàn)的候補。這里,[力s][出都是格助詞。是^i吾法區(qū)分的要素。即很難認(rèn)為與要素("7A—亍^f一S")聯(lián)系形成更大的一體的表現(xiàn)或詞。把kOne要素中作為區(qū)分要素的比例稱為Jm。。這里,因為兩個都是區(qū)分要素,所以^0=2/2=1。s在進(jìn)行了這些準(zhǔn)備的基礎(chǔ)上,檢觀陏作為新表現(xiàn)的可能性的對象。首先,檢查第一綠第一餅(i)Z(閃,[X+l])>AvgZ([X],[X+l],[X+2]),而且(u)LZ>第一閾值io(i)的條件,因為Z([7》一亍<一$][$])=5.66、以及AvgZ([X][X+l][X+2])=2.00,所以滿足(i)的^f牛。(u)的劍牛,LZ-l(mog(Z^。h4.52,第一閾值=5.0,不滿足該條件。因此因為第一條件不滿足,所以接著研究第二條件。第二餅15(iii)LZ>第二閾值,而且(iv)Jrafo-Njun/Nal1〉第三閾值(iii)的條件,因為LZ=4.52、第二閾值是3.00所以滿足。(iv)的條件,因為JU。=2/2=1、第三閾值是0.1所以滿足。M±^,因為滿足第二劍牛,所以從[力^一亍一]向[力P—^V—S]20擴(kuò)展。同時,[7/W"亍吖一3]的Z值-Z([7小一亍吖一][$])=5.66。(4-5)左側(cè)擴(kuò)展規(guī)則適用例4頓實例說明左側(cè)擴(kuò)展規(guī)則。說明把作為詞干選擇的[受rt](Z值為73.01)向左側(cè)擴(kuò)展。<table>tableseeoriginaldocumentpage15</column></row><table>因為和右側(cè)擴(kuò)展規(guī)則的例同樣,所以也向左側(cè)擴(kuò)展。首先,檢查第一緣①Z([X誦l],閃)〉A(chǔ)vgZ(閃,[X+1],[X+2〗),而且(ii)LZ〉第一閾值5因為Z([X-1][X])-6.83以及AvgZ([X][X-l][X-2]>=2.00,所以滿足(i)的條件。由于LZ-5.33,第一閾值為5.00,所以(ii)的剝牛他薛足。i!3U^,從[受W向[女性受i力擴(kuò)展。同時,[女性受力的Z值二Z([女性受〖寸])=5.33。(5)新表現(xiàn)的選擇(圖4步驟450)io從符合擴(kuò)展的條件的對象中,把符合詞形成規(guī)則的對象作為新表現(xiàn)選出(圖3:360)。產(chǎn)生新的表現(xiàn)的可能性高的詞必須遵從日本語形成規(guī)則,該形成規(guī)則受限制(圖3:365)。為了作為新的表現(xiàn)^^擇,需要確認(rèn)語法擴(kuò)展發(fā)生的部分是否遵守形成名詞、動詞、形容詞、形容動詞等的規(guī)則。根據(jù)圖7表示的流程圖進(jìn)fiH兌明。15710:名詞化規(guī)則720:動詞化規(guī)則730:形容詞化規(guī)則740:形容動詞化規(guī)則750:在全部劍牛都不滿足的場合,不作為候補進(jìn)行選擇20760:在滿足任何一個條件的場合,作為候補進(jìn)行選擇以下詳細(xì)說明。(5-1)名詞化規(guī)則(步驟"0)符合名詞化形成規(guī)則的對象,作為詞干的擴(kuò)展的候補被選擇。作為名詞化,可以舉出"詞干+后綴詞"、"動詞連用形名詞化"、"復(fù)合名詞"等。對于每一種,25需要確認(rèn)是否滿足作為日本語的規(guī)則。(a)詞干+后綴詞在將名詞以外的形容詞等進(jìn)行名詞化的場合,有在它們的詞尾上追加'》"、"^"等的場合。例如可以舉出以下的情形。(齢、悲LS、伎&b扎tS)30"rf,(寒rt、;fetHt、吐含rt、力、《mt)"^"(強(qiáng)^、v、々&)(b)動詞連用形名詞化M51在詞干的右側(cè)附加格助詞'名詞,也能發(fā)生把動詞連用形作為名詞用法的場合。例如,可以舉出以下的例子。5從"走3"產(chǎn)生"走i9"、"步含"從"遊《"產(chǎn)生","(C)復(fù)合名詞被認(rèn)為是復(fù)合名詞的對象,作為詞干的擴(kuò)展的候補被選擇。例如可以舉出以下的例子。io在詞尾上附力n"米,,的場合[掛力[米]、,][米]、[純][米]、[赤][米]在詞尾上附力口"泰,的場合[〃于于][香]、[吟關(guān)[香]、[熟成][香](d)英語的名詞化本發(fā)明不僅能應(yīng)用于日本語,也能應(yīng)用于外國語。以英語為例說明。在英語中,有時把原來作為名詞以外的詞而使用的詞,作為名詞使用。例如,通過15附加以下的后綴詞被名詞化。"ness":pleasantness,ugliness"ing":gathering"M,earfol"dom":femidom20"hood":brotherhood^womanhood(5-2)動詞化規(guī)則(步驟720)與動詞化形成規(guī)則一致的對象,作為詞干的擴(kuò)展的候補被選擇。作為動詞化的例子,可以考慮'名詞+卞3"、"動詞的一般活用形等。作為擴(kuò)展的候補被選擇的對象,需要確認(rèn)是否滿足作為日本語的規(guī)則。25(a)是否為"名詞+動詞化后綴詞"的形態(tài)在名詞上結(jié)合"t《'、"《3"的動詞化后綴詞、或其活用形的場合,作為詞干的動詞化擴(kuò)展的候補被選擇。例如,在"招萊'上附加'卞3"而成為"招茶卞3"的場合,可以舉出在"美人"上附'^^"就成為"美人i^"。(b)動詞的一般活用形30擴(kuò)展了的詞干,在除去了"名詞+動詞化后綴詞"的形態(tài)的、為動詞的一般活用形的場合,也作為詞干的擴(kuò)展的候補被選擇。例如,作為在名詞上附加動詞的活用詞尾進(jìn)行動詞化的生產(chǎn)的例子,可以舉出以下的例子。"f乇《f乇b^V、、,、乇^Uf"。同樣,可以用該方法制作#)巧、八乇3、、乂f3、夕、—夕、》"這樣的新的動詞。5(C)英語的動詞化本發(fā)明不僅能應(yīng)用于日本語,也能應(yīng)用于外國語。以英語為例說明。在英語中有時把原來作為名詞4頓的詞,作為動詞來4細(xì)。Areyougoogling是把原來為名詞盼'google"作為"使用google進(jìn)行檢索"這樣的動詞來4頓io的例子。I747,edtoChicago.是把原來為飛機(jī)型號的"747"作為"乘747飛機(jī)'這樣的動詞來使用的例子。此外,通過以下這樣的后綴詞來動詞化。"ify":Frenchify15"en,,enliven,soften"ize":pluralize(5-3)形容詞化規(guī)則(步驟730)符合形容詞化形成規(guī)則的對象作為詞干的擴(kuò)展的候補被選擇。作為擴(kuò)展的候補被選擇的對象,需要確認(rèn)是否滿足作為日本語的規(guī)則。20、、"(LA^:、、V、、四角V、)"二V、"(氺于o二V、)"任V、"(恕Ay&o成V、、七"o成l/、)(54)形容動詞化規(guī)則(步驟740)符合形容動詞化形成規(guī)則的對象作為詞干的擴(kuò)展的候補被選擇。作為擴(kuò)展25的候補被選擇的對象、需要確認(rèn)是否滿足作為日本語的規(guī)則。"風(fēng),,(王朝風(fēng)、風(fēng))"&"("殆[人])在滿足以上的步驟710到步驟740的任何一個剝牛的場合,作為詞干的擴(kuò)30展的候補被選擇(760)。在哪一個劍牛都不滿足的場合,不作為詞干的擴(kuò)展的候補鵬擇(750)。[實驗結(jié)果]根據(jù)以上的算法,表示使用實際數(shù)據(jù)的實驗結(jié)果。此外,在本實驗中,作為對象的社群,選取了"討論日本酒的味覺的社群"和"討論葡萄酒的味覺的社群"5的例子。把日本酒以及葡萄酒的品牌名作為"關(guān)鍵詞",使用因特網(wǎng)的檢索工具收集了各自的文本集合。(1)名詞化(1-1)詞干+后綴詞對形容詞名詞化的例子進(jìn)行說明。這里,對將形容詞"7,一亍^一"名詞化io作為"7》一亍^一3"的例子進(jìn)行說明。詞干擴(kuò)展Z值閃網(wǎng)網(wǎng)兇5.66[,一亍<-]兇[狗2.0015[刀卜亍一]兇時]2.00從[7》—亍—]到[:7》一亍^^]的擴(kuò)展如上所述。接著,研究被擴(kuò)展了的詞干是否滿足名詞化形成規(guī)則(詞干+后綴詞)。在把名詞以外的形容詞等名詞化的場合,在這些詞上追加'》"、"W等。在該實施例中滿足該斜牛。203!3iJd^,作為新的詞干選擇"7》—亍^一"的名詞即":7》—亍-$"。同時,用于"7》一^V—"+'》"的判定的LZ值是4.52。(1-2)動詞連用形名詞化說明把關(guān)于作為詞干選擇的[受〖力(Z值為73.01)向左側(cè)擴(kuò)展。擴(kuò)展詞干z值25[X-2][X國l]閃斷]6.83卩:]斷]2.83[女閨斷]6.83[、][女性]斷]2.0030[女性]斷]2.00從[受W向[女性受W的擴(kuò)展如,。因此,研究被擴(kuò)展的詞干是否滿足規(guī)則(動詞連用形名詞化)。[女性]是名詞這點是明確的。另外,從[受(力在后面被看作連接格助詞的搭配,并認(rèn)為在進(jìn)行通過動詞連用形的名詞化,由于可以認(rèn)為[女閨[受巾是通過動詞連用形的名詞化,所以也滿足該劍牛。ffliU^,作為新的詞干,選樹女性][受(力。同時,用于[女'圖[受汁]的判定的LZ值是5.33。(1-3)復(fù)合名詞對作為詞干選擇的[雪](Z值是66.96)向左側(cè)擴(kuò)展進(jìn)fri兌明。詞干擴(kuò)展z值閃[X+l][X+2]園則4.00園M[中]2.00[雪]阓4.00閨][溫ra2.00圍園4.00當(dāng)應(yīng)用上述劍科開究時,可知從[雪]向[雪溫]擴(kuò)展。這里省略詳細(xì)的說明。接著研究擴(kuò)展后的詞干是否滿足名詞化形成規(guī)則(復(fù)合名詞)。由于[雪]以及[溫]為名詞是明確的,所以也滿足該劍牛?!朗觯鳛樾碌脑~干,[雪溫]被選擇。同時,用于[雪溫]的判定的LZ20值是3.01。作為其他的復(fù)合名詞擴(kuò)展的例子,有以下的例子。把[米]作為詞干,[掛t][米]、[麵[米]、[細(xì)[米]、[剤[米]把[香]作為詞干,[H于刊[衝、[吟劇[香]、[熟劇[香]把[様]作為詞干,[77力、分][潮、[y:^、][潮、凍菊[様]25把[度]作為詞干,[7^乂酉劉[^、[了/1^-,][^1、[日本酒][圓(2)動詞化(2-l)"名詞+動詞化后綴詞"說明"名詞+卞3"這樣的動詞化模式的檢測。這里作為詞干選#"悪斷、"(z值是24.01)并向右側(cè)擴(kuò)展。30左側(cè)擴(kuò)展詞干Z值[X畫2][X-l〗閃、]附]4.00[力、y[悪斷、]附]2.oo5[使用]附]2.00當(dāng)應(yīng)用上述的條件研究時,能把'悪醉V、"向"悪酉科、卞《'擴(kuò)展作為新的詞干。這里省略詳細(xì)說明。接著研究被擴(kuò)展的詞干是否滿足動詞化規(guī)則("名詞+卞6")。在該例中,因為在名詞上結(jié)合"t3"或者'卞《'的活用形,所以滿足該斜牛。ioMiim,作為新的詞干,選掙'悪i科、卞3"。同時,用于[雪溫]的判定的LZ值是3.01。這里可以認(rèn)為"悪醉V、卞3"是普通使用的詞。和"討論葡萄酒的味覺的社群,比較,可知在'討論日本酒的味覺的社群'中帶有顯著的差異而出現(xiàn)。作為其他的動詞化擴(kuò)展的例子,有以下的例子。15把[醸遛作為詞干的[醸邀[卞3],把[調(diào)和]作為詞干的[調(diào)和][t3],把[登場]作為詞干的[登場][卞3],把[倍增]作為詞干的[倍增][卞3]C2-2)動詞的一i^活用形說明在動詞根據(jù)語法而活用的場合,"詞干+擴(kuò)展部'形成一個新的動詞的例子。20例如,從日本酒社群中f頓的模式,可以得到[老][糾(讀作t>^)、[老]一(讀作t>fe/i)、[老][h][隊全(格助詞)](讀作:"Ofe力、tM3^)等的維詞干右側(cè)擴(kuò)展Z值[老][打3](讀作1>^6)2.0525[老](讀作r>^lt)2.05根據(jù)上述算法,老ta3(讀作I>fe3)(動詞一段活用形)作為候補被選擇。這里,[老](讀作招V、)作為一般名詞錄入在詞典中,作為動詞,[老V《](讀作招V、3)這樣的上一段動詞被錄入。從數(shù)據(jù)和動詞活用規(guī)則,判斷發(fā)生作為[老fe3](讀作1>打3)這樣的下一段動詞的擴(kuò)展。另外,從[老][fe]+[格30助詞]等的,可知發(fā)生了動詞連用形[老fe](讀作I>ta)被作為名詞使用的名詞化。從這里,可以推測老fe3(讀作t>fe3)在該社群中作為新的表現(xiàn)作為共同的語言被使用。權(quán)利要求1.一種裝置,其特征在于,從規(guī)定的社群中使用的文本集合,檢索所述規(guī)定的社群中的特有表現(xiàn),具有以下從(a)到(d)的單元,(a)抽出所述規(guī)定的社群中特有使用的n元語法搭配的單元,(b)選擇有可能成為所述特有表現(xiàn)的核的第一詞干的單元,(c)根據(jù)使用所述第一詞干的顯著性以及取入了所述第一詞干的前或后的要素的第二詞干的顯著性計算出來的值,選擇擴(kuò)展詞干的單元,(d)從所述擴(kuò)展詞干中,根據(jù)該語言的語言形成規(guī)則,選擇所述規(guī)定的社群中特有表現(xiàn)的單元。2.根據(jù)權(quán)利要求1所述的裝置,其特征在于,進(jìn)一步包含M把規(guī)定的術(shù)語列表中包含的術(shù)語作為關(guān)鍵詞進(jìn)行數(shù)據(jù)檢索,將所述文15本集合進(jìn)行收集的單元。3.根據(jù)權(quán)禾腰求1或2所述的裝置,其特征在于,抽出所述n元語法搭配的單元包含禾擁多個社群中4頓的文本,并根據(jù)所述規(guī)定的社群中使用的n元語法搭配的顯著性與其他社群中使用的n元語法搭配的顯著性的比較,抽出所述n元語法搭配的單元。204.根據(jù)權(quán)利要求1或2所述的裝置,其特征在于,選擇所述擴(kuò)展詞干的單^E^含根據(jù)使用所述第二詞干的數(shù)量以及作為在所述第二詞干中取入的要素是區(qū)分要素的數(shù)量算出的值,選擇所述擴(kuò)展詞干的單元。5.根據(jù)權(quán)利要求1或2所述的裝置,其特征在于,25根據(jù)所述語言形成規(guī)則選擇的單元包含名詞化規(guī)則、動詞化規(guī)則、形容詞化規(guī)則以及形容詞動詞化規(guī)則中的至少一個語言形成規(guī)則。6.—種方法,其特征在于,從規(guī)定的社群中使用的文本集合,檢索所述規(guī)定的社群中的特有表現(xiàn),具有以下從問至ij(d)的步驟,30(a)抽出所述規(guī)定的社群中特有使用的n元語法搭配的步驟,(b)選擇有可能成為所述特有表現(xiàn)的核的第一詞干的步驟,(c)根據(jù)使用所述第一詞干的顯著性以及取入了所述第一詞干的前或后的要素的第二詞干的顯著性計算出來的值,選擇擴(kuò)展詞干的步驟,(d)從所述擴(kuò)展詞干中,根據(jù)該語言的語言形成規(guī)則,選擇所述規(guī)定的社5群中特有表現(xiàn)的步驟。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,還包含fflil把規(guī)定的術(shù)語列表中包含的術(shù)語作為關(guān)鍵詞進(jìn)行數(shù)據(jù)檢索,將所述文本集合進(jìn)行收集的步驟。io8.根據(jù)權(quán)利要求6或7所述的方法,其特征在于,抽出所述n元語法搭配的步驟包含禾,多個社群中《頓的文本,并根據(jù)所述規(guī)定的社群中使用的n元語法搭配的顯著性與其他社群中使用的n元語法搭配的顯著性的比較,抽出所述n元語法搭配的步驟。9.一種禾游,其特征在于,15從規(guī)定的社群中使用的文本集合,檢索所述社群中的特有表現(xiàn),并控制計^m使以下從(a)至lJ(d)的單^iS行工作,(a)抽出所述社群中特有使用的n元語法搭配的單元,(b)選擇有可能成為所述特有表現(xiàn)的核的第一詞干的單元,(c)根據(jù)使用所述第一詞干的顯著性以及取入了所述第一詞干的前或后的20要素的第二詞干的顯著性計算出來的值,選擇擴(kuò)展詞干的單元,(d)從所述擴(kuò)展詞干中,根據(jù)該語言的語言形成規(guī)則,選擇所述規(guī)定的社群中特有表現(xiàn)的單元。10.根據(jù)權(quán)利要求9所述的禾將,其特征在于,還包含25ffiil把規(guī)定的術(shù)語列表中包含的術(shù)語作為關(guān)鍵詞進(jìn)行數(shù)據(jù)檢索,將所述文本集合進(jìn)行收集的單元。11.根據(jù)權(quán)利要求9或10所述的程序,其特征在于,抽出所述n元語法搭配的單元包含利用多個社群中使用的文本,并根據(jù)所述規(guī)定的社群中使用的n元語法搭配的顯著性與其他社群中使用的n元語法30搭配的顯著性的比較,抽出所述n元語法搭配的單元。全文摘要在涉及社群固有表現(xiàn)的收集的現(xiàn)有技術(shù)中,有關(guān)于專業(yè)領(lǐng)域中的名詞·復(fù)合名詞組成的專業(yè)術(shù)語的收集的技術(shù),但是在名詞以外的新表現(xiàn)中應(yīng)用困難。另外,即使在未知詞匯·新詞的收集的領(lǐng)域中,對象也大體限于名詞,未提出有規(guī)則地收集新表現(xiàn)的方法。從規(guī)定的社群中使用的文本集合中,通過(a)抽出社群中固有的n元語法搭配的單元、(b)選擇有可能成為固有表現(xiàn)的核的詞干的單元、(c)將所述選擇的詞干在其前后擴(kuò)展的單元、(d)根據(jù)語法選擇所述已擴(kuò)展的詞干的單元,來解決上述問題。文檔編號G06F17/21GK101223521SQ20068002580公開日2008年7月16日申請日期2006年7月13日優(yōu)先權(quán)日2005年7月15日發(fā)明者小田弘美申請人:惠普開發(fā)有限公司