本發(fā)明涉及信息技術(shù)領(lǐng)域,尤其涉及一種信息處理裝置和信息處理方法。
背景技術(shù):
目前,通過(guò)網(wǎng)絡(luò)發(fā)放或人工發(fā)放問(wèn)卷以進(jìn)行問(wèn)卷調(diào)查的一般流程包括:設(shè)計(jì)問(wèn)卷(電子或紙版),發(fā)放問(wèn)卷,收回問(wèn)卷和分析問(wèn)卷等步驟。
應(yīng)該注意,上面對(duì)技術(shù)背景的介紹只是為了方便對(duì)本申請(qǐng)的技術(shù)方案進(jìn)行清楚、完整的說(shuō)明,并方便本領(lǐng)域技術(shù)人員的理解而闡述的。不能僅僅因?yàn)檫@些方案在本申請(qǐng)的背景技術(shù)部分進(jìn)行了闡述而認(rèn)為上述技術(shù)方案為本領(lǐng)域技術(shù)人員所公知。
技術(shù)實(shí)現(xiàn)要素:
本申請(qǐng)的發(fā)明人發(fā)現(xiàn),現(xiàn)有的進(jìn)行問(wèn)卷調(diào)查的方式存在如下問(wèn)題:周期相對(duì)較長(zhǎng),發(fā)放和回收問(wèn)卷困難,問(wèn)卷信息的整合分析比較困難等。
同時(shí),隨著論壇、博客和微博的技術(shù)發(fā)展,越來(lái)越多的人在社交媒體上發(fā)表信息,如何利用這些公開的信息是企業(yè)和研究機(jī)構(gòu)的關(guān)注熱點(diǎn)。
本申請(qǐng)的實(shí)施例提供一種信息處理裝置和信息處理方法,從公開的信息源獲取與調(diào)查問(wèn)卷相關(guān)的信息以及用戶的信息,并進(jìn)行分析,以方便地獲取調(diào)查問(wèn)卷的答案以及對(duì)答案的統(tǒng)計(jì)結(jié)果,從而實(shí)現(xiàn)高效的問(wèn)卷調(diào)查工作。
根據(jù)本發(fā)明實(shí)施例的第一方面,提供一種信息處理裝置,該信息處理裝置包括:
第一生成單元,其用于生成與調(diào)查問(wèn)卷相關(guān)的關(guān)鍵詞的集合;
第一獲取單元,其根據(jù)所述關(guān)鍵詞的集合查詢信息源中所公開的相關(guān)信息,并獲取公開所述相關(guān)信息的用戶的個(gè)人信息頁(yè)面;
第一處理單元,其用于對(duì)所述相關(guān)信息和所述個(gè)人信息頁(yè)面進(jìn)行處理,以提取該相關(guān)信息中與所述關(guān)鍵詞相關(guān)的文本信息、所述相關(guān)信息的屬性信息以及所述用戶的個(gè)人信息;
第一確定單元,其根據(jù)所述文本信息獲取用戶對(duì)于所述調(diào)查問(wèn)卷中的問(wèn)題的答案,并確定所述答案、所述相關(guān)信息的屬性信息、以及所述用戶的個(gè)人信息之間的對(duì)應(yīng)關(guān)系。
根據(jù)本發(fā)明實(shí)施例的第二方面,提供一種信息處理方法,該信息處理方法包括:
生成與調(diào)查問(wèn)卷相關(guān)的關(guān)鍵詞集合;
根據(jù)所述關(guān)鍵詞集合查詢信息源中所公開的相關(guān)信息,并獲取公開所述相關(guān)信息的用戶的個(gè)人信息頁(yè)面;
對(duì)所述相關(guān)信息和所述個(gè)人信息頁(yè)面進(jìn)行處理,以提取該相關(guān)信息中與所述關(guān)鍵詞相關(guān)的文本信息,所述相關(guān)信息的屬性信息以及所述用戶的個(gè)人信息;
根據(jù)所述文本信息獲取用戶對(duì)于所述調(diào)查問(wèn)卷中的問(wèn)題的答案,并確定所述答案、所述相關(guān)信息的屬性信息、以及所述用戶的個(gè)人信息之間的對(duì)應(yīng)關(guān)系。
本發(fā)明的有益效果在于:從公開的信息源獲取與調(diào)查問(wèn)卷相關(guān)的信息以及用戶的信息,并進(jìn)行分析,以方便地獲取調(diào)查問(wèn)卷的答案以及對(duì)答案的統(tǒng)計(jì)結(jié)果,從而實(shí)現(xiàn)高效的問(wèn)卷調(diào)查工作。
參照后文的說(shuō)明和附圖,詳細(xì)公開了本發(fā)明的特定實(shí)施方式,指明了本發(fā)明的原理可以被采用的方式。應(yīng)該理解,本發(fā)明的實(shí)施方式在范圍上并不因而受到限制。在所附權(quán)利要求的精神和條款的范圍內(nèi),本發(fā)明的實(shí)施方式包括許多改變、修改和等同。
針對(duì)一種實(shí)施方式描述和/或示出的特征可以以相同或類似的方式在一個(gè)或更多個(gè)其它實(shí)施方式中使用,與其它實(shí)施方式中的特征相組合,或替代其它實(shí)施方式中的特征。
應(yīng)該強(qiáng)調(diào),術(shù)語(yǔ)“包括/包含”在本文使用時(shí)指特征、整件、步驟或組件的存在,但并不排除一個(gè)或更多個(gè)其它特征、整件、步驟或組件的存在或附加。
附圖說(shuō)明
所包括的附圖用來(lái)提供對(duì)本發(fā)明實(shí)施例的進(jìn)一步的理解,其構(gòu)成了說(shuō)明書的一部分,用于例示本發(fā)明的實(shí)施方式,并與文字描述一起來(lái)闡釋本發(fā)明的原理。顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。在附圖中:
圖1是本申請(qǐng)實(shí)施例1的信息處理裝置的一個(gè)組成結(jié)構(gòu)示意圖;
圖2是本實(shí)施例1的第一生成單元的一個(gè)組成示意圖;
圖3是本實(shí)施例1的第一獲取單元的一個(gè)組成示意圖;
圖4是本實(shí)施例1的第一處理單元的一個(gè)組成示意圖;
圖5是本實(shí)施例1的第一確定單元的一個(gè)組成示意圖;
圖6是本實(shí)施例1的語(yǔ)法分析和關(guān)鍵詞匹配分析結(jié)果的一個(gè)示意圖;
圖7是本實(shí)施例1的結(jié)合句法分析、語(yǔ)法分析和關(guān)鍵詞匹配分析結(jié)果的一個(gè)示意圖;
圖8是本申請(qǐng)實(shí)施例2的信息處理方法的一個(gè)流程示意圖;
圖9是本申請(qǐng)實(shí)施例2的生成關(guān)鍵詞集合的方法的一個(gè)流程示意圖;
圖10是本申請(qǐng)實(shí)施例2的查詢相關(guān)信息并獲取個(gè)人信息頁(yè)面的方法的一個(gè)流程示意圖;
圖11是本申請(qǐng)實(shí)施例2的提取文本信息的方法的一個(gè)流程示意圖;
圖12是本申請(qǐng)實(shí)施例2的確定對(duì)應(yīng)關(guān)系的方法的一個(gè)流程示意圖。
具體實(shí)施方式
參照附圖,通過(guò)下面的說(shuō)明書,本發(fā)明的前述以及其它特征將變得明顯。在說(shuō)明書和附圖中,具體公開了本發(fā)明的特定實(shí)施方式,其表明了其中可以采用本發(fā)明的原則的部分實(shí)施方式,應(yīng)了解的是,本發(fā)明不限于所描述的實(shí)施方式,相反,本發(fā)明包括落入所附權(quán)利要求的范圍內(nèi)的全部修改、變型以及等同物。
實(shí)施例1
本申請(qǐng)實(shí)施例1提供一種信息處理裝置,用于從公開的信息源中獲取與調(diào)查問(wèn)卷相關(guān)的信息并進(jìn)行處理。圖1是本申請(qǐng)實(shí)施例1的信息處理裝置的一個(gè)組成結(jié)構(gòu)示意圖。如圖1所示,該信息處理裝置100包括:第一生成單元101、第一獲取單元102、第一處理單元103、以及第一確定單元104。
其中,第一生成單元101用于生成與調(diào)查問(wèn)卷相關(guān)的關(guān)鍵詞集合;第一獲取單元102根據(jù)所述關(guān)鍵詞集合查詢信息源中所公開的相關(guān)信息,并獲取公開所述相關(guān)信息的用戶的個(gè)人信息頁(yè)面;第一處理單元103用于對(duì)所述相關(guān)信息和所述個(gè)人信息頁(yè)面進(jìn)行處理,以提取該相關(guān)信息中與所述關(guān)鍵詞相關(guān)的文本信息、所述相關(guān)信息的屬性 信息以及所述用戶的個(gè)人信息;第一確定單元104根據(jù)所述文本信息獲取用戶對(duì)于所述調(diào)查問(wèn)卷中的問(wèn)題的答案,并確定所述答案、所述相關(guān)信息的屬性信息、以及所述用戶的個(gè)人信息之間的對(duì)應(yīng)關(guān)系。
在本實(shí)施例中,根據(jù)與調(diào)查問(wèn)卷相關(guān)的關(guān)鍵詞集合,從公開的信息源中獲取相關(guān)信息及發(fā)布該相關(guān)信息的用戶的信息,并進(jìn)行處理和分析,由此,與傳統(tǒng)的發(fā)放問(wèn)卷、回收問(wèn)卷、以及分析問(wèn)卷的方式相比,能夠方便地獲取調(diào)查問(wèn)卷的答案以及對(duì)答案進(jìn)行統(tǒng)計(jì),從而高效地實(shí)現(xiàn)問(wèn)卷調(diào)查工作。
在本實(shí)施例中,該信息源可以是論壇、博客和/或微博等。在本實(shí)施例的以下描述中,以微博為例進(jìn)行說(shuō)明,但本實(shí)施例并不限于此,還可以是其他的公開的信息源。
圖2是本實(shí)施例1的第一生成單元101的一個(gè)組成結(jié)構(gòu)示意圖。如圖2所示,該第一生成單元101包括第二處理單元201和第二獲取單元202。
其中,該第二處理單元201用于對(duì)預(yù)先設(shè)定的、或者通過(guò)對(duì)所述調(diào)查問(wèn)卷的問(wèn)題進(jìn)行句法分析所得到的第一關(guān)鍵詞進(jìn)行語(yǔ)義表示;第二獲取單元202根據(jù)所述第一關(guān)鍵詞,獲取第二關(guān)鍵詞,以由所述第一關(guān)鍵詞和所述第二關(guān)鍵詞構(gòu)成所述關(guān)鍵詞集合,其中,所述第二關(guān)鍵詞的語(yǔ)義表示與所述第一關(guān)鍵詞的語(yǔ)義表示的近似度滿足預(yù)設(shè)條件。
在本實(shí)施例中,第一關(guān)鍵詞可以是根據(jù)調(diào)查問(wèn)卷的問(wèn)題,預(yù)先設(shè)置的關(guān)鍵詞,例如,可以根據(jù)用戶的輸入來(lái)預(yù)先設(shè)定該第一關(guān)鍵詞。另外,也可以對(duì)調(diào)查問(wèn)卷的問(wèn)題進(jìn)行句法分析,從而生成第一關(guān)鍵詞,例如,可以利用句法分析器,對(duì)調(diào)查問(wèn)卷的問(wèn)題的句子結(jié)構(gòu)進(jìn)行分析,以抽取其中的動(dòng)賓、并列等關(guān)系,自動(dòng)構(gòu)建第一關(guān)鍵詞。
在本實(shí)施例中,根據(jù)該第一關(guān)鍵詞與調(diào)查問(wèn)卷的相關(guān)性,該第一關(guān)鍵詞可以具有不同的級(jí)別,例如,調(diào)查問(wèn)卷的問(wèn)題是“請(qǐng)問(wèn)您未來(lái)2年內(nèi)打算購(gòu)買新房還是二手房?”,與該問(wèn)題對(duì)應(yīng)的第一關(guān)鍵詞及其相應(yīng)的級(jí)別例如可以是:購(gòu)房(一級(jí)關(guān)鍵詞),未來(lái)2年(二級(jí)關(guān)鍵詞),新房(二級(jí)關(guān)鍵詞),二手房(二級(jí)關(guān)鍵詞)。在本實(shí)施例中,設(shè)定關(guān)鍵詞的級(jí)別的具體方法,可以參考現(xiàn)有技術(shù),例如,可以由人工進(jìn)行設(shè)定,或者,可以根據(jù)預(yù)設(shè)的規(guī)則來(lái)確定第一關(guān)鍵詞與該問(wèn)題的相關(guān)性,并根據(jù)該相關(guān)性為關(guān)鍵詞設(shè)定級(jí)別,具體實(shí)現(xiàn)方式可以參考現(xiàn)有技術(shù),本實(shí)施例不再贅述。
在本實(shí)施例中,第二處理單元201可以對(duì)第一關(guān)鍵詞進(jìn)行語(yǔ)義表示,由此,能夠更為準(zhǔn)確地判斷詞語(yǔ)之間的相似度,例如,該第二處理單元201可以基于詞向量(word embedding)對(duì)第一關(guān)鍵詞進(jìn)行語(yǔ)義表示,例如,可以應(yīng)用50或100維的浮點(diǎn)數(shù)向量來(lái)表示一個(gè)詞,由此,通過(guò)計(jì)算兩個(gè)詞向量之間的距離,可以判斷兩個(gè)詞的相似度。在本實(shí)施例中,基于詞向量(word embedding)對(duì)第一關(guān)鍵詞進(jìn)行語(yǔ)義表示的具體實(shí)現(xiàn)方式可以參考現(xiàn)有技術(shù),本實(shí)施例不再贅述,例如,谷歌(Google)的word2vec是一款基于深度學(xué)習(xí)(deep learning)的學(xué)習(xí)工具,利用該工具,可以構(gòu)建詞向量。
在本實(shí)施例中,第二獲取單元202可以獲取與第一關(guān)鍵詞具有相似的語(yǔ)義表示的第二關(guān)鍵詞,例如,第一關(guān)鍵詞是“購(gòu)房”,第二關(guān)鍵詞可以是“買房”等,由于具有相似的語(yǔ)義表示的詞語(yǔ)的含義相似,因此,該第二獲取單元能夠?qū)Φ谝魂P(guān)鍵詞進(jìn)行擴(kuò)展。例如,該第二獲取單元202可以計(jì)算詞庫(kù)中詞語(yǔ)的語(yǔ)義表示結(jié)果與該第一關(guān)鍵詞的語(yǔ)義表示結(jié)果之間的相似度,當(dāng)該相似度大于預(yù)設(shè)的閾值時(shí),將詞庫(kù)中的該詞語(yǔ)確定為第二關(guān)鍵詞,由此,第一關(guān)鍵詞和第二關(guān)鍵詞共同組成關(guān)鍵詞集合,其中,可以采用余弦相似度(Cosine Similarity)計(jì)算方法來(lái)計(jì)算上述相似度,但本實(shí)施例不限于此,還可以采用其他方法計(jì)算該相似度。
在本實(shí)施例中,可以進(jìn)一步對(duì)第二獲取單元所獲取的第二關(guān)鍵詞進(jìn)行校對(duì)和/或篩選等,從而使第二關(guān)鍵詞更為準(zhǔn)確,例如,可以根據(jù)用戶輸入的刪除或修改等指示信息對(duì)該第二關(guān)鍵詞進(jìn)行校對(duì)和/或篩選等。
圖3是本實(shí)施例的第一獲取單元102的一個(gè)組成示意圖,如圖3所示,該第一獲取單元102包括第一查詢單元301、第一提取單元302和第三獲取單元303。
其中,該第一查詢單元301根據(jù)關(guān)鍵詞集合中的一個(gè)關(guān)鍵詞或兩個(gè)以上關(guān)鍵詞的組合,對(duì)信息源中所公開的信息進(jìn)行查詢,以獲取與所述一個(gè)關(guān)鍵詞或所述兩個(gè)以上關(guān)鍵詞的組合相關(guān)的所述相關(guān)信息;第一提取單元302從所述相關(guān)信息中抽取公開所述相關(guān)信息的用戶的身份標(biāo)識(shí)信息;第三獲取單元303根據(jù)所述身份標(biāo)識(shí)信息,獲取所述用戶的個(gè)人信息頁(yè)面。
在本實(shí)施例中,第一查詢單元301根據(jù)上述關(guān)鍵詞集合中的關(guān)鍵詞,在信息源所公開的信息中查詢相關(guān)信息。其中,該第一查詢單元301可以根據(jù)某一個(gè)關(guān)鍵詞進(jìn)行查詢,也可以根據(jù)兩個(gè)以上關(guān)鍵詞的組合進(jìn)行查詢,并且,可以進(jìn)行多次查詢,并對(duì)該多次查詢得到的相關(guān)信息取并集,并且,該相關(guān)信息例如可以是用戶發(fā)布的微博和/或微博留言等
在本實(shí)施例中,第一查詢單元301每次查詢所采用的關(guān)鍵詞都至少包含一級(jí)關(guān)鍵 詞,例如,當(dāng)采用一個(gè)關(guān)鍵詞時(shí),該一個(gè)關(guān)鍵詞是一級(jí)關(guān)鍵詞,當(dāng)采用兩個(gè)以上關(guān)鍵詞時(shí),其中一個(gè)關(guān)鍵詞是一級(jí)關(guān)鍵詞,其它的關(guān)鍵詞可以是二級(jí)關(guān)鍵詞。由此,能夠使查詢到的相關(guān)信息與調(diào)查問(wèn)卷之間的相關(guān)度較高。
在本實(shí)施例中,第一提取單元302可以對(duì)第一查詢單元301所查詢得到的相關(guān)信息進(jìn)行分析,抽取出公開該相關(guān)信息的用戶的身份標(biāo)識(shí)信息,其中,該身份標(biāo)識(shí)信息例如可以是該用戶的身份識(shí)別碼(ID)。
例如,第一查詢單元301查詢到的一條微博信息如下:
{"uid":"5366729423","mid":"3805816790971367","text":"【會(huì)員搶鮮】姜文巨制《一步之遙》登陸土豆姜文、葛優(yōu)、周韻、舒淇、文章合力上演離奇兇案。幕幕有伏筆,處處有隱喻,姜文依舊有話不好好說(shuō),站著把錢給掙了。友情提示:請(qǐng)?zhí)崆皭貉a(bǔ)影評(píng)或看完再看一遍!上大片!|一步之遙","repost":"0","comment":"0","thumbup":"0","time":"2015-02-0215:08","sentBy":"360安全瀏覽器"}
該第一提取單元302提取上述信息中由標(biāo)簽“uid”所引導(dǎo)的內(nèi)容"5366729423",作為用戶的身份識(shí)別碼。
在本實(shí)施例中,第三獲取單元303可以根據(jù)用戶的身份標(biāo)識(shí)信息,獲取該用戶的個(gè)人信息(profile)頁(yè)面,其中,獲取個(gè)人信息頁(yè)面的具體方法可以參考現(xiàn)有技術(shù),本實(shí)施例不再贅述。
圖4是本實(shí)施例的第一處理單元103的一個(gè)組成示意圖,如圖4所示,該第一處理單元103可以包括:第四獲取單元401,第三處理單元402,第二提取單元403和第四處理單元404。
其中,第四獲取單元401用于對(duì)所述相關(guān)信息進(jìn)行解析,以獲取該相關(guān)信息的正文,以及該相關(guān)信息的屬性信息;第三處理單元402用于對(duì)該相關(guān)信息的正文進(jìn)行預(yù)處理,以獲取該相關(guān)信息的詞匯信息;第二提取單元403基于該第三處理單元402的預(yù)處理的結(jié)果,提取該正文中該關(guān)鍵詞的上下文詞語(yǔ)信息,作為與該關(guān)鍵詞相關(guān)的文本信息;第四處理單元404用于對(duì)所述個(gè)人信息頁(yè)面進(jìn)行處理,以獲取所述用戶的個(gè)人信息。
在本實(shí)施例中,第四獲取單元401例如可以對(duì)微博信息的格式進(jìn)行解析,并根據(jù)對(duì)格式進(jìn)行解析的結(jié)果,抽取微博信息中的帶有標(biāo)簽的信息,從而獲取該微博信息的正文和屬性信息,例如,該微博信息的正文可以是上述例子中所示的由標(biāo)簽"text"所 引導(dǎo)的信息,該微博信息的屬性信息可以包括微博身份識(shí)別碼(mid),轉(zhuǎn)發(fā)信息(repost)數(shù),評(píng)論(comment)數(shù)量,贊(thumbup)的數(shù)量,發(fā)布時(shí)間(time)和/或發(fā)布方式(sent by)等信息。
在本實(shí)施例中,第三處理單元402可以對(duì)該相關(guān)信息的正文進(jìn)行預(yù)處理,以獲得詞匯信息,例如,該第三處理單元402可以對(duì)微博信息的正文進(jìn)行分詞、詞性標(biāo)注、和/或命名實(shí)體識(shí)別(Named Entity Recognition,NER)等預(yù)處理,以獲得該正文中的詞語(yǔ)數(shù)量、詞性、和/或命名實(shí)體的類別和數(shù)量等詞匯信息。關(guān)于第三處理單元402進(jìn)行預(yù)處理的具體實(shí)施方式,可以參考現(xiàn)有技術(shù),本實(shí)施例不再贅述。
在本實(shí)施例中,第二提取單元403可以利用滑動(dòng)窗口提取該正文中關(guān)鍵詞的上下文詞語(yǔ)信息,作為與該關(guān)鍵詞相關(guān)的文本信息。
在本實(shí)施例中,該第二提取單元403例如可以使滑動(dòng)窗口中包含該第一查詢單元301在查詢時(shí)所使用的關(guān)鍵詞,以及該關(guān)鍵詞的上下文詞語(yǔ),并提取該滑動(dòng)窗口內(nèi)的上下文詞語(yǔ)信息,該上下文詞語(yǔ)信息例如可以包括該滑動(dòng)窗口內(nèi)的名詞,動(dòng)詞,形容詞,連詞,否定詞和轉(zhuǎn)折詞的信息,其中,可以結(jié)合查詢?cè)~典的方法,來(lái)提取該否定次和轉(zhuǎn)折詞的信息。在本實(shí)施例中,該第二提取單元403所提取的與該關(guān)鍵詞相關(guān)的文本信息例如可以被表示為如下的格式{關(guān)鍵詞:微博ID,用戶ID,T1,T2…},其中,T1、T2等可以用來(lái)表示該關(guān)鍵詞的上下文詞語(yǔ)及其詞性等信息。
例如,該滑動(dòng)窗口中所包含的詞語(yǔ)可以被表示為<…,Tn-3,Tn-2,Tn-1,Tn,Tn+1,Tn+2,Tn+3,…>,其中,該滑動(dòng)窗口中包含有該關(guān)鍵詞,該滑動(dòng)窗口所包含的詞語(yǔ)的最大數(shù)量可以是k,k為正整數(shù),并且,該滑動(dòng)窗口可前后滑動(dòng),并且,該滑動(dòng)窗口在遇到標(biāo)點(diǎn)時(shí)可以不再擴(kuò)展,由此,該關(guān)鍵詞可以位于該滑動(dòng)窗口的中心詞Tn的位置,也可以位于該滑動(dòng)窗口內(nèi)的其它位置。在本實(shí)施例中,通過(guò)滑動(dòng)窗口的前后滑動(dòng),能夠最大程度地提取該關(guān)鍵詞的上下文詞語(yǔ)信息。
在本實(shí)施例中,對(duì)于不同的相關(guān)信息,該滑動(dòng)窗口所包含的詞語(yǔ)的最大數(shù)量k可以不同。在本實(shí)施例中,k可以是預(yù)先設(shè)定的值,并且,可以根據(jù)正文中相鄰兩個(gè)標(biāo)點(diǎn)之間的關(guān)鍵詞的數(shù)量,來(lái)調(diào)整上述k,例如,當(dāng)關(guān)鍵詞個(gè)數(shù)為I時(shí),將k調(diào)整為k+m(I-1)→k,其中,I為自然數(shù),由此,在關(guān)鍵詞越多的情況下,可以使k值越大,便于提取多個(gè)關(guān)鍵詞的上下文詞語(yǔ)信息,以方便理解該文本的語(yǔ)義。
以上對(duì)于該第二提取單元403的說(shuō)明只是舉例,本實(shí)施例并不限于此,還可以采 用其它的方法來(lái)提取與該關(guān)鍵詞相關(guān)的文本信息。
在本實(shí)施例中,該第四處理單元404用于對(duì)第三獲取單元303所獲取的個(gè)人信息頁(yè)面進(jìn)行處理,以獲取該用戶的個(gè)人信息,其中,該個(gè)人信息例如可以包括用戶的昵稱、生日、性別和/或所在地等信息。
圖5是本實(shí)施例的第一確定單元104的一個(gè)組成示意圖,如圖5所示,該第一確定單元104可以包括第五獲取單元501,第一分類單元502和第二確定單元503。
其中,第五獲取單元501根據(jù)上述的文本信息,對(duì)該相關(guān)信息進(jìn)行分析,以獲取調(diào)查問(wèn)卷中問(wèn)題的答案;第一分類單元502用于對(duì)該答案進(jìn)行分類,以確定該答案的類別;第二確定單元503用于對(duì)各類別的答案所涉及的相關(guān)信息的屬性信息、以及用戶的個(gè)人信息進(jìn)行統(tǒng)計(jì)分析,以確定該答案、該相關(guān)信息的屬性信息以及用戶的個(gè)人信息之間的對(duì)應(yīng)關(guān)系。
在本實(shí)施例中,第五獲取單元501可以采用多種方式來(lái)分析該相關(guān)信息的語(yǔ)義,從而獲取答案。
在本實(shí)施例中,該第五獲取單元501可以對(duì)該相關(guān)信息進(jìn)行語(yǔ)法分析和關(guān)鍵詞匹配分析,以獲取答案,比如,根據(jù)“兩年內(nèi)”、“買”、“二手房”等關(guān)鍵詞查詢到的微博信息為“兩年內(nèi)怎么也得買個(gè)二手房”,可以結(jié)合第一處理單元103從該微博信息中提取出的文本信息,對(duì)該微博信息進(jìn)行語(yǔ)法分析和關(guān)鍵詞匹配分析,得到圖6所示的分析結(jié)果,第五獲取單元501根據(jù)該分析結(jié)果獲取的答案為<兩年內(nèi),購(gòu)買,二手房>。
在本實(shí)施例中,該第五獲取單元501在語(yǔ)法分析和關(guān)鍵詞匹配分析的基礎(chǔ)上,還可以進(jìn)一步結(jié)合句子的句法結(jié)構(gòu)來(lái)分析該相關(guān)信息,由此,能夠準(zhǔn)確地分析含有轉(zhuǎn)折和/或否定詞語(yǔ)的句子的語(yǔ)義。例如,查詢到的微博信息可以是“兩年內(nèi)買個(gè)二手房,那都是不可能的”,該第五獲取單元501可以結(jié)合第一處理單元103從該微博信息中提取出的文本信息,對(duì)該微博信息進(jìn)行語(yǔ)法分析、關(guān)鍵詞匹配分析以及句法分析,得到圖7所示的分析結(jié)果,由于采用了句法分析,能準(zhǔn)確地判斷出否定部分“不可能”用于修飾“是”,因而該第五獲取單元501根據(jù)該分析結(jié)果獲取的答案為<兩年內(nèi),買,二手房,是,不可能的>,而如果不結(jié)合句法分析,則可能難以對(duì)句中否定詞語(yǔ)和轉(zhuǎn)折詞語(yǔ)的語(yǔ)義進(jìn)行識(shí)別,從而得到相反的答案。
在本實(shí)施例中,該第五獲取單元501也可以提取該相關(guān)信息中權(quán)值較高的詞匯, 根據(jù)該權(quán)值較高的詞匯來(lái)確定答案。例如,該第五獲取單元501可以對(duì)該相關(guān)信息中的詞語(yǔ)進(jìn)行加權(quán)計(jì)算,并提取出權(quán)值較高的詞匯等,其中,該加權(quán)計(jì)算的方法例如可以是對(duì)數(shù)似然比(Log-Likelihood Ratio,LLR)算法,詞頻-逆文檔頻率(term frequency–inverse document frequency,TF-IDF)算法等。
在本實(shí)施例中,該第五獲取單元501所采用的上述語(yǔ)法分析、關(guān)鍵詞匹配分析、句法分析以及提取高權(quán)值詞匯的具體實(shí)現(xiàn)方式,可以參考現(xiàn)有技術(shù),本申請(qǐng)實(shí)施例不再贅述。
在本實(shí)施例中,該第一分類單元502可以對(duì)第五獲取單元501所獲取的答案進(jìn)行分類,以確定該答案的類別,其中,對(duì)于調(diào)查問(wèn)卷中不同類型的問(wèn)題,可以采用不同的方式對(duì)其相應(yīng)的答案進(jìn)行分類。
在本實(shí)施例中,該第一分類單元502對(duì)于調(diào)查問(wèn)卷中的判斷題、單項(xiàng)選擇題、或多項(xiàng)選擇題所對(duì)應(yīng)的答案,可以基于預(yù)設(shè)的條件或相似度聚類,對(duì)該答案進(jìn)行分類,其中,單項(xiàng)選擇題或判斷題的答案類別可以包括與各候選答案對(duì)應(yīng)的類別和第一其他類別,多項(xiàng)選擇題的答案類別包括與各候選答案的排列組合對(duì)應(yīng)的類別和第二其他類別。在本實(shí)施例中,基于預(yù)設(shè)的條件或相似度聚類對(duì)答案進(jìn)行分類的具體實(shí)現(xiàn)方式可以參考現(xiàn)有技術(shù),本實(shí)施例不再贅述。
例如,對(duì)于單項(xiàng)選擇的問(wèn)題“請(qǐng)問(wèn)您未來(lái)2年內(nèi)打算購(gòu)買新房還是二手房?”,其候選答案可以包括:“A”<未來(lái)2年內(nèi),購(gòu)買,新房>、“B”<未來(lái)2年內(nèi),購(gòu)買,二手房>、和“C”<未來(lái)2年內(nèi),不購(gòu)買>等三項(xiàng),相應(yīng)的答案類別例如可以是四類,分別對(duì)應(yīng)上述三項(xiàng)候選答案“A”-“C”以及第一其它類別相對(duì)應(yīng)。在本實(shí)施例中,第五獲取單元501所獲取的答案例如可以是<兩年內(nèi),購(gòu)買,二手房>,由此,該第一分類單元502可以分別計(jì)算該答案與上述三項(xiàng)候選答案“A”-“C”的相似度,當(dāng)相似度高于預(yù)設(shè)閾值,將該答案分類到與該候選答案對(duì)應(yīng)的類別,例如,上述答案可以被劃分到與候選答案“B”對(duì)應(yīng)的類別。在其他的實(shí)例中,如果該答案與上述候選答案的相似度都低于預(yù)設(shè)閾值,可以將該答案劃分到該第一其他類別或第二其他類別。
在本實(shí)施例中,該第一分類單元502對(duì)于開放性問(wèn)題、該第一其它類別和/或第二其它類別所對(duì)應(yīng)的答案,可以提取相關(guān)信息中的高權(quán)值詞語(yǔ),并根據(jù)該高權(quán)值詞語(yǔ)確定該答案的類別,例如,可以將該高權(quán)值詞語(yǔ)作為該開放性問(wèn)題的代表性回答,或 者作為該類別的代表性詞語(yǔ)。
在本實(shí)施例中,該第二確定單元503可以用于對(duì)各類別的答案所對(duì)應(yīng)的相關(guān)信息的屬性信息、以及用戶的個(gè)人信息進(jìn)行統(tǒng)計(jì)分析,以確定該答案、該相關(guān)信息的屬性信息以及該用戶的個(gè)人信息之間的對(duì)應(yīng)關(guān)系,例如,可以分析確定出各類別的答案所對(duì)應(yīng)的用戶數(shù)量、用戶性別、年齡段、用戶所處地點(diǎn)、和/或信息發(fā)布時(shí)間等。關(guān)于該第二確定單元所采取的具體的統(tǒng)計(jì)分析方法,可以參考現(xiàn)有技術(shù),本實(shí)施例不再贅述。
在本實(shí)施例中,如圖5所示,該第一確定單元104還可以具有第一分析單元505,該第一分析單元505用于對(duì)該用戶所公開的信息以及該公開的信息的屬性信息進(jìn)行統(tǒng)計(jì)分析,以對(duì)用戶進(jìn)行篩選或分析該用戶的權(quán)威性,和/或?qū)λ鲇脩羲_的信息進(jìn)行統(tǒng)計(jì)分析,以對(duì)所述用戶的個(gè)人信息進(jìn)行補(bǔ)充。
在本實(shí)施例中,該第一分析單元505例如可以通過(guò)統(tǒng)計(jì)分析獲得該用戶發(fā)布微博的數(shù)量、被轉(zhuǎn)發(fā)的數(shù)量、被評(píng)論的數(shù)量、被關(guān)注的數(shù)量和/或粉絲數(shù)量等特征,根據(jù)上述特征與預(yù)設(shè)閾值的關(guān)系來(lái)過(guò)濾用戶,或者通過(guò)上述特征中的部分或全部特征,通過(guò)一定的標(biāo)注預(yù)料,預(yù)先訓(xùn)練出分類器,使用分類器對(duì)用戶進(jìn)行分類和過(guò)濾,例如,第一分析單元505可以用來(lái)過(guò)濾掉廣告用戶,該廣告用戶的特點(diǎn)可以是發(fā)微博多,但被轉(zhuǎn)發(fā),被評(píng)論的少,被關(guān)注的少和粉絲數(shù)量少。
在本實(shí)施例中,該第一分析單元505例如也可以通過(guò)統(tǒng)計(jì)分析該用戶發(fā)微博數(shù),被轉(zhuǎn)發(fā)數(shù),粉絲數(shù)和/或關(guān)注數(shù)等特征來(lái)衡量用戶的權(quán)威性,比如,可以將上述幾個(gè)特征的線性加權(quán)值作為用戶的權(quán)威性的量度。其中,該用戶的權(quán)威性可以反映該用戶的答案的可信度,例如,對(duì)于權(quán)威性較高的用戶,可以為其答案賦予較高的權(quán)值以表明該答案具有較高的可信度,由此,在第二確定單元503對(duì)答案進(jìn)行統(tǒng)計(jì)分析時(shí),能夠提高統(tǒng)計(jì)分析結(jié)果的可信度。
此外,在本實(shí)施例中,如圖1所示,該信息處理裝置100還可以具有顯示單元105,該顯示單元105用于對(duì)該第一確定單元所確定的該對(duì)應(yīng)關(guān)系進(jìn)行顯示。
在本實(shí)施例中,該顯示單元105可以顯示統(tǒng)計(jì)結(jié)果的整體情況,例如,顯示所有答案對(duì)應(yīng)的用戶的個(gè)人信息和/或相關(guān)信息的屬性信息的統(tǒng)計(jì)結(jié)果,比如,針對(duì)所有答案,顯示用戶的性別分布,地域分布,以及發(fā)布微博的時(shí)間分布等統(tǒng)計(jì)結(jié)果。
在本實(shí)施例中,該顯示單元105也可以顯示該統(tǒng)計(jì)結(jié)果的細(xì)節(jié),例如,顯示與各 類別的答案對(duì)應(yīng)的用戶的個(gè)人信息、及相關(guān)信息的屬性信息的統(tǒng)計(jì)結(jié)果,比如,對(duì)于調(diào)查問(wèn)卷中的某一特定問(wèn)題的某一特定的答案類別,可以展示與答案類別對(duì)應(yīng)的微博數(shù)量、發(fā)布微博的時(shí)間分布、這些微博所對(duì)應(yīng)的用戶的權(quán)威性分布、用戶的性別分布、和/或地域分布等,并可根據(jù)需要對(duì)上述內(nèi)容進(jìn)行選擇性展示。
在本實(shí)施例中,該顯示單元105還可以顯示與各類別的答案對(duì)應(yīng)的預(yù)定數(shù)量的該相關(guān)信息,比如,可以顯示出每一類別的答案所對(duì)應(yīng)的有代表性的m條微博信息,例如,可以根據(jù)從該微博信息中獲取的答案與該類別的相似度,來(lái)確定該m條微博信息,其中,m為正整數(shù)。
在本實(shí)施例中,根據(jù)與調(diào)查問(wèn)卷相關(guān)的關(guān)鍵詞集合,從公開的信息源中獲取相關(guān)信息及發(fā)布該相關(guān)信息的用戶的信息,并進(jìn)行處理和分析,以獲取用戶對(duì)于調(diào)查問(wèn)卷中問(wèn)題的答案、所述相關(guān)信息的屬性信息、以及用戶的個(gè)人信息之間的對(duì)應(yīng)關(guān)系,由此,與傳統(tǒng)的發(fā)放問(wèn)卷、回收問(wèn)卷、以及分析問(wèn)卷的方式相比,能夠方便地獲取調(diào)查問(wèn)卷的答案以及對(duì)答案進(jìn)行統(tǒng)計(jì),從而高效地實(shí)現(xiàn)問(wèn)卷調(diào)查工作。
實(shí)施例2
本申請(qǐng)實(shí)施例2提供一種信息處理方法,用于從公開的信息源中獲取與調(diào)查問(wèn)卷相關(guān)的信息并進(jìn)行處理,與實(shí)施例1的信息處理裝置對(duì)應(yīng)。
圖8是本申請(qǐng)實(shí)施例2的信息處理方法的一個(gè)流程示意圖。如圖8所示,該信息處理方法包括:
S801、生成與調(diào)查問(wèn)卷相關(guān)的關(guān)鍵詞集合;
S802、根據(jù)所述關(guān)鍵詞集合查詢信息源中所公開的相關(guān)信息,并獲取公開所述相關(guān)信息的用戶的個(gè)人信息頁(yè)面;
S803、對(duì)所述相關(guān)信息和所述個(gè)人信息頁(yè)面進(jìn)行處理,以提取該相關(guān)信息中與所述關(guān)鍵詞相關(guān)的文本信息,所述相關(guān)信息的屬性信息以及所述用戶的個(gè)人信息;
S804、根據(jù)所述文本信息獲取用戶對(duì)于所述調(diào)查問(wèn)卷中的問(wèn)題的答案,并確定所述答案、所述相關(guān)信息的屬性信息、以及所述用戶的個(gè)人信息之間的對(duì)應(yīng)關(guān)系。
如圖8所示,該信息處理方法還可以包括:S805,對(duì)所述對(duì)應(yīng)關(guān)系進(jìn)行顯示。
圖9是本申請(qǐng)實(shí)施例2的生成關(guān)鍵詞集合的方法的一個(gè)流程示意圖,如圖9所述,該生成關(guān)鍵詞集合的方法包括:
S901、對(duì)預(yù)先設(shè)定的,或者通過(guò)對(duì)所述調(diào)查問(wèn)卷的問(wèn)題進(jìn)行句法分析所得到的第一關(guān)鍵詞進(jìn)行語(yǔ)義表示;
S902、根據(jù)所述第一關(guān)鍵詞,獲取第二關(guān)鍵詞,以由所述第一關(guān)鍵詞和所述第二關(guān)鍵詞構(gòu)成所述關(guān)鍵詞集合,其中,所述第二關(guān)鍵詞的語(yǔ)義表示與所述第一關(guān)鍵詞的語(yǔ)義表示的相似度滿足預(yù)設(shè)條件。
圖10是本申請(qǐng)實(shí)施例2的查詢相關(guān)信息并獲取個(gè)人信息頁(yè)面的方法的一個(gè)流程示意圖,如圖10所述,該方法包括:
S1001、根據(jù)所述關(guān)鍵詞集合中的一個(gè)關(guān)鍵詞或兩個(gè)以上關(guān)鍵詞的組合,對(duì)信息源中所公開的信息進(jìn)行查詢,以獲取與所述一個(gè)關(guān)鍵詞或所述兩個(gè)以上關(guān)鍵詞的組合相關(guān)的所述相關(guān)信息;
S1002、從所述相關(guān)信息中抽取公開所述相關(guān)信息的用戶的身份標(biāo)識(shí)信息;
S1003、根據(jù)所述身份標(biāo)識(shí)信息,獲取所述用戶的個(gè)人信息頁(yè)面。
圖11是本申請(qǐng)實(shí)施例2的提取文本信息的方法的一個(gè)流程示意圖,如圖11所述,該方法包括:
S1101、對(duì)所述相關(guān)信息進(jìn)行解析,以獲取所述相關(guān)信息的正文,以及所述屬性信息;
S1102、對(duì)所述相關(guān)信息的正文進(jìn)行預(yù)處理,以獲取所述相關(guān)信息的詞匯信息;
S1103、基于所述預(yù)處理的結(jié)果,提取該正文中所述關(guān)鍵詞的上下文詞語(yǔ)信息,作為與所述關(guān)鍵詞相關(guān)的所述文本信息。
圖12是本申請(qǐng)實(shí)施例2的確定對(duì)應(yīng)關(guān)系的方法的一個(gè)流程示意圖,如圖12所述,該方法包括:
S1201、根據(jù)所述文本信息,對(duì)所述相關(guān)信息進(jìn)行語(yǔ)法分析和關(guān)鍵詞匹配分析,或進(jìn)行句法分析、語(yǔ)法分析和關(guān)鍵詞匹配分析,或提取所述相關(guān)信息中的高權(quán)值詞語(yǔ),以獲取所述答案;
S1202、對(duì)所述答案進(jìn)行分類,以確定所述答案的類別;
S1203、對(duì)各類別的答案所對(duì)應(yīng)的相關(guān)信息的屬性信息、以及用戶的個(gè)人信息進(jìn)行統(tǒng)計(jì)分析,以確定所述答案、所述相關(guān)信息的屬性信息以及所述用戶的個(gè)人信息之間的對(duì)應(yīng)關(guān)系。
本實(shí)施例中,對(duì)于上述各步驟的說(shuō)明可以參考實(shí)施例1中對(duì)相應(yīng)單元的說(shuō)明,本 實(shí)施例不再重復(fù)說(shuō)明。
在本實(shí)施例的信息處理方法中,根據(jù)與調(diào)查問(wèn)卷相關(guān)的關(guān)鍵詞集合,從公開的信息源中獲取相關(guān)信息及發(fā)布該相關(guān)信息的用戶的信息,并進(jìn)行處理和分析,以獲取用戶對(duì)于調(diào)查問(wèn)卷中問(wèn)題的答案、所述相關(guān)信息的屬性信息、以及用戶的個(gè)人信息之間的對(duì)應(yīng)關(guān)系,由此,與傳統(tǒng)的發(fā)放問(wèn)卷、回收問(wèn)卷、以及分析問(wèn)卷的方式相比,能夠方便地獲取調(diào)查問(wèn)卷的答案以及對(duì)答案進(jìn)行統(tǒng)計(jì),從而高效地實(shí)現(xiàn)問(wèn)卷調(diào)查工作。
本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)可讀程序,其中當(dāng)在信息處理裝置或用戶設(shè)備中執(zhí)行所述程序時(shí),所述程序使得計(jì)算機(jī)在所述信息處理裝置或用戶設(shè)備中執(zhí)行實(shí)施例1所述的信息處理方法。
本申請(qǐng)實(shí)施例還提供一種存儲(chǔ)有計(jì)算機(jī)可讀程序的存儲(chǔ)介質(zhì),其中所述計(jì)算機(jī)可讀程序使得計(jì)算機(jī)在信息處理裝置或用戶設(shè)備中執(zhí)行實(shí)施例1所述的信息處理方法。
本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)可讀程序,其中當(dāng)在信息處理裝置或基站中執(zhí)行所述程序時(shí),所述程序使得計(jì)算機(jī)在所述信息處理裝置或基站中執(zhí)行實(shí)施例1所述的信息處理方法。
本申請(qǐng)實(shí)施例還提供一種存儲(chǔ)有計(jì)算機(jī)可讀程序的存儲(chǔ)介質(zhì),其中所述計(jì)算機(jī)可讀程序使得計(jì)算機(jī)在信息處理裝置或基站中執(zhí)行實(shí)施例1所述的信息處理方法。
本申請(qǐng)以上的裝置和方法可以由硬件實(shí)現(xiàn),也可以由硬件結(jié)合軟件實(shí)現(xiàn)。本申請(qǐng)涉及這樣的計(jì)算機(jī)可讀程序,當(dāng)該程序被邏輯部件所執(zhí)行時(shí),能夠使該邏輯部件實(shí)現(xiàn)上文所述的裝置或構(gòu)成部件,或使該邏輯部件實(shí)現(xiàn)上文所述的各種方法或步驟。本申請(qǐng)還涉及用于存儲(chǔ)以上程序的存儲(chǔ)介質(zhì),如硬盤、磁盤、光盤、DVD、flash存儲(chǔ)器等。
以上結(jié)合具體的實(shí)施方式對(duì)本申請(qǐng)進(jìn)行了描述,但本領(lǐng)域技術(shù)人員應(yīng)該清楚,這些描述都是示例性的,并不是對(duì)本申請(qǐng)保護(hù)范圍的限制。本領(lǐng)域技術(shù)人員可以根據(jù)本申請(qǐng)的精神和原理對(duì)本申請(qǐng)做出各種變型和修改,這些變型和修改也在本申請(qǐng)的范圍內(nèi)。
關(guān)于包括以上實(shí)施例的實(shí)施方式,還公開下述的附記:
附記1、一種信息處理裝置,其特征在于,該信息處理裝置包括:
第一生成單元,其用于生成與調(diào)查問(wèn)卷相關(guān)的關(guān)鍵詞的集合;
第一獲取單元,其根據(jù)所述關(guān)鍵詞的集合查詢信息源中所公開的相關(guān)信息,并獲取公開所述相關(guān)信息的用戶的個(gè)人信息頁(yè)面;
第一處理單元,其用于對(duì)所述相關(guān)信息和所述個(gè)人信息頁(yè)面進(jìn)行處理,以提取該相關(guān)信息中與所述關(guān)鍵詞相關(guān)的文本信息、所述相關(guān)信息的屬性信息以及所述用戶的個(gè)人信息;
第一確定單元,其根據(jù)所述文本信息獲取用戶對(duì)于所述調(diào)查問(wèn)卷中的問(wèn)題的答案,并確定所述答案、所述相關(guān)信息的屬性信息、以及所述用戶的個(gè)人信息之間的對(duì)應(yīng)關(guān)系。
附記2、如附記1所述的信息處理裝置,其中,所述第一生成單元包括:
第二處理單元,其用于對(duì)預(yù)先設(shè)定的、或者通過(guò)對(duì)所述調(diào)查問(wèn)卷的問(wèn)題進(jìn)行句法分析所得到的第一關(guān)鍵詞進(jìn)行語(yǔ)義表示;
第二獲取單元,其根據(jù)所述第一關(guān)鍵詞,獲取第二關(guān)鍵詞,以由所述第一關(guān)鍵詞和所述第二關(guān)鍵詞構(gòu)成所述關(guān)鍵詞的集合,其中,所述第二關(guān)鍵詞的語(yǔ)義表示與所述第一關(guān)鍵詞的語(yǔ)義表示的相似度滿足預(yù)設(shè)條件。
附記3、如附記1所述的信息處理裝置,其中,所述第一獲取單元包括:
第一查詢單元,其根據(jù)所述關(guān)鍵詞的集合中的一個(gè)關(guān)鍵詞或兩個(gè)以上關(guān)鍵詞的組合,對(duì)信息源中所公開的信息進(jìn)行查詢,以獲取與所述一個(gè)關(guān)鍵詞或所述兩個(gè)以上關(guān)鍵詞的組合相關(guān)的所述相關(guān)信息;
第一提取單元,其從所述相關(guān)信息中抽取公開所述相關(guān)信息的用戶的身份標(biāo)識(shí)信息;
第三獲取單元,其根據(jù)所述身份標(biāo)識(shí)信息,獲取所述用戶的個(gè)人信息頁(yè)面。
附記4、如附記1所述的信息處理裝置,其中,所述第一處理單元包括:
第四獲取單元,其用于對(duì)所述相關(guān)信息進(jìn)行解析,以獲取所述相關(guān)信息的正文,以及所述屬性信息;
第三處理單元,其用于對(duì)所述相關(guān)信息的正文進(jìn)行預(yù)處理,以獲取所述相關(guān)信息的詞匯信息;
第二提取單元,其基于所述預(yù)處理的結(jié)果,提取該正文中所述關(guān)鍵詞的上下文詞語(yǔ)信息,作為與所述關(guān)鍵詞相關(guān)的所述文本信息;
第四處理單元,其用于對(duì)所述個(gè)人信息頁(yè)面進(jìn)行處理,以獲取所述用戶的個(gè)人信 息。
附記5、如附記1所述的信息處理裝置,其中,第一確定單元包括:
第五獲取單元,其根據(jù)所述文本信息,對(duì)所述相關(guān)信息進(jìn)行語(yǔ)法分析和關(guān)鍵詞匹配分析,或進(jìn)行句法分析、語(yǔ)法分析和關(guān)鍵詞匹配分析,或提取所述相關(guān)信息中的高權(quán)值詞語(yǔ),以獲取所述答案;
第一分類單元,其用于對(duì)所述答案進(jìn)行分類,以確定所述答案的類別;
第二確定單元,其用于對(duì)各類別的答案所對(duì)應(yīng)的相關(guān)信息的屬性信息、以及用戶的個(gè)人信息進(jìn)行統(tǒng)計(jì)分析,以確定所述答案、所述相關(guān)信息的屬性信息以及所述用戶的個(gè)人信息之間的對(duì)應(yīng)關(guān)系。
附記6、如附記5所述的信息處理裝置,其中,
所述第一分類單元對(duì)于所述調(diào)查問(wèn)卷中的判斷題、單項(xiàng)選擇題、或多項(xiàng)選擇題所對(duì)應(yīng)的答案,基于預(yù)設(shè)的條件或相似度聚類,對(duì)所述答案進(jìn)行分類,
其中,單項(xiàng)選擇題或判斷題的答案類別包括與各候選答案對(duì)應(yīng)的類別和第一其他類別,多項(xiàng)選擇題的答案類別包括與各候選答案的排列組合對(duì)應(yīng)的類別和第二其他類別。
附記7、如附記6所述的信息處理裝置,其中,
所述第一分類單元對(duì)于開放性問(wèn)題、第一其它類別和/或第二其它類別所對(duì)應(yīng)的答案,根據(jù)所述高權(quán)值詞語(yǔ)確定所述答案的類別。
附記8、如附記5所述的信息處理裝置,其中,所述第一確定單元還包括:
第一分析單元,其用于對(duì)所述用戶所公開的信息及其屬性信息進(jìn)行統(tǒng)計(jì)分析,以對(duì)所述用戶進(jìn)行篩選或分析所述用戶的權(quán)威性;和/或
對(duì)所述用戶所公開的信息進(jìn)行統(tǒng)計(jì)分析,以對(duì)所述用戶的個(gè)人信息進(jìn)行補(bǔ)充。
附記9、如附記1所述的信息處理裝置,其中,所述信息處理裝置還包括:
顯示單元,其用于對(duì)所述對(duì)應(yīng)關(guān)系進(jìn)行顯示。
附記10、如附記9所述的信息處理裝置,其中,所述顯示單元對(duì)所述對(duì)應(yīng)關(guān)系進(jìn)行顯示包括:
顯示與各類別的答案對(duì)應(yīng)的用戶的個(gè)人信息、及相關(guān)信息的屬性信息的統(tǒng)計(jì)結(jié)果;
顯示與各類別的答案對(duì)應(yīng)的預(yù)定數(shù)量的所述相關(guān)信息;和/或
顯示所有答案對(duì)應(yīng)的用戶的個(gè)人信息和/或相關(guān)信息的屬性信息的統(tǒng)計(jì)結(jié)果。
附記11、一種信息處理方法,其特征在于,該信息處理方法包括:
生成與調(diào)查問(wèn)卷相關(guān)的關(guān)鍵詞的集合;
根據(jù)所述關(guān)鍵詞的集合查詢信息源中所公開的相關(guān)信息,并獲取公開所述相關(guān)信息的用戶的個(gè)人信息頁(yè)面;
對(duì)所述相關(guān)信息和所述個(gè)人信息頁(yè)面進(jìn)行處理,以提取該相關(guān)信息中與所述關(guān)鍵詞相關(guān)的文本信息,所述相關(guān)信息的屬性信息以及所述用戶的個(gè)人信息;
根據(jù)所述文本信息獲取用戶對(duì)于所述調(diào)查問(wèn)卷中的問(wèn)題的答案,并確定所述答案、所述相關(guān)信息的屬性信息、以及所述用戶的個(gè)人信息之間的對(duì)應(yīng)關(guān)系。
附記12、如附記11所述的信息處理方法,其中,生成所述關(guān)鍵詞集合包括:
對(duì)預(yù)先設(shè)定的,或者通過(guò)對(duì)所述調(diào)查問(wèn)卷的問(wèn)題進(jìn)行句法分析所得到的第一關(guān)鍵詞進(jìn)行語(yǔ)義表示;
根據(jù)所述第一關(guān)鍵詞,獲取第二關(guān)鍵詞,以由所述第一關(guān)鍵詞和所述第二關(guān)鍵詞構(gòu)成所述關(guān)鍵詞的集合,其中,所述第二關(guān)鍵詞的語(yǔ)義表示與所述第一關(guān)鍵詞的語(yǔ)義表示的相似度滿足預(yù)設(shè)條件。
附記13、如附記11所述的信息處理方法,其中,查詢信息源中所公開的相關(guān)信息,并獲取公開所述相關(guān)信息的用戶的個(gè)人信息頁(yè)面包括:
根據(jù)所述關(guān)鍵詞的集合中的一個(gè)關(guān)鍵詞或兩個(gè)以上關(guān)鍵詞的組合,對(duì)信息源中所公開的信息進(jìn)行查詢,以獲取與所述一個(gè)關(guān)鍵詞或所述兩個(gè)以上關(guān)鍵詞的組合相關(guān)的所述相關(guān)信息;
從所述相關(guān)信息中抽取公開所述相關(guān)信息的用戶的身份標(biāo)識(shí)信息;
根據(jù)所述身份標(biāo)識(shí)信息,獲取所述用戶的個(gè)人信息頁(yè)面。
附記14、如附記11所述的信息處理方法,其中,對(duì)所述相關(guān)信息進(jìn)行處理,以提取該相關(guān)信息中與所述關(guān)鍵詞相關(guān)的文本信息包括:
對(duì)所述相關(guān)信息進(jìn)行解析,以獲取所述相關(guān)信息的正文,以及所述屬性信息;
對(duì)所述相關(guān)信息的正文進(jìn)行預(yù)處理,以獲取所述相關(guān)信息的詞匯信息;
基于所述預(yù)處理的結(jié)果,提取該正文中所述關(guān)鍵詞的上下文詞語(yǔ)信息,作為與所述關(guān)鍵詞相關(guān)的所述文本信息。
附記15、如附記11所述的信息處理方法,其中,獲取用戶對(duì)于所述調(diào)查問(wèn)卷中 的問(wèn)題的答案,并確定所述答案、所述相關(guān)信息的屬性信息、以及所述用戶的個(gè)人信息之間的對(duì)應(yīng)關(guān)系包括:
根據(jù)所述文本信息,對(duì)所述相關(guān)信息進(jìn)行語(yǔ)法分析和關(guān)鍵詞匹配分析,或進(jìn)行句法分析、語(yǔ)法分析和關(guān)鍵詞匹配分析,或提取所述相關(guān)信息中的高權(quán)值詞語(yǔ),以獲取所述答案;
對(duì)所述答案進(jìn)行分類,以確定所述答案的類別;
對(duì)各類別的答案所對(duì)應(yīng)的相關(guān)信息的屬性信息、以及用戶的個(gè)人信息進(jìn)行統(tǒng)計(jì)分析,以確定所述答案、所述相關(guān)信息的屬性信息以及所述用戶的個(gè)人信息之間的對(duì)應(yīng)關(guān)系。
附記16、如附記15所述的信息處理方法,其中,對(duì)所述答案進(jìn)行分類包括:
對(duì)于所述調(diào)查問(wèn)卷中的判斷題、單項(xiàng)選擇題、或多項(xiàng)選擇題所對(duì)應(yīng)的答案,基于預(yù)設(shè)的條件或相似度聚類,對(duì)所述答案進(jìn)行分類,
其中,單項(xiàng)選擇題或判斷題的答案類別包括與各候選答案對(duì)應(yīng)的類別和第一其他類別,多項(xiàng)選擇題的答案類別包括與各候選答案的排列組合對(duì)應(yīng)的類別和第二其他類別。
附記17、如附記16所述的信息處理方法,其中,對(duì)所述答案進(jìn)行分類包括:
對(duì)于開放性問(wèn)題、第一其它類別和/或第二其它類別所對(duì)應(yīng)的答案,根據(jù)所述高權(quán)值詞語(yǔ)確定所述答案的類別。
附記18、如附記15所述的信息處理方法,其中,確定所述答案、所述相關(guān)信息的屬性信息、以及所述用戶的個(gè)人信息之間的對(duì)應(yīng)關(guān)系還包括:
對(duì)所述用戶所公開的信息及其屬性信息進(jìn)行統(tǒng)計(jì)分析,以對(duì)所述用戶進(jìn)行篩選或分析所述用戶的權(quán)威性;和/或
對(duì)所述用戶所公開的信息進(jìn)行統(tǒng)計(jì)分析,以對(duì)所述用戶的個(gè)人信息進(jìn)行補(bǔ)充。
附記19、如附記11所述的信息處理方法,其中,所述信息處理方法還包括:
對(duì)所述對(duì)應(yīng)關(guān)系進(jìn)行顯示。
附記20、如附記19所述的信息處理方法,其中,對(duì)所述對(duì)應(yīng)關(guān)系進(jìn)行顯示包括:
顯示與各類別的答案對(duì)應(yīng)的用戶的個(gè)人信息、及相關(guān)信息的屬性信息的統(tǒng)計(jì)結(jié)果;
顯示與各類別的各答案對(duì)應(yīng)的預(yù)定數(shù)量的所述相關(guān)信息;和/或
顯示所有答案對(duì)應(yīng)的用戶的個(gè)人信息和/或相關(guān)信息的屬性信息的統(tǒng)計(jì)結(jié)果。