亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于管理列表的系統(tǒng)和方法

文檔序號(hào):6567411閱讀:619來源:國(guó)知局
專利名稱:用于管理列表的系統(tǒng)和方法
技術(shù)領(lǐng)域
本公開涉及計(jì)算機(jī)軟件以及更具體地涉及一種用于管理數(shù)據(jù)列表的軟件系統(tǒng)和方法。

背景技術(shù)
需要管理數(shù)據(jù)列表以及向客戶例如房地產(chǎn)經(jīng)紀(jì)人、雇用招聘者和旅行社呈現(xiàn)數(shù)據(jù)列表的公司共有的一個(gè)挑戰(zhàn)是以簡(jiǎn)潔和智能的方式傳輸它們具有的信息,以致于這些數(shù)據(jù)的用戶得到他們以最優(yōu)的、有效率的和有效的方式在最短的搜索時(shí)間內(nèi)搜索的特定信息。另一個(gè)挑戰(zhàn)是需要跟蹤在使用列表數(shù)據(jù)的多個(gè)營(yíng)業(yè)單位和管理機(jī)構(gòu)之間的數(shù)據(jù)流和信息傳送。
一個(gè)說明性例子涉及雇用招聘的領(lǐng)域。對(duì)于搜索以吸引有才能的雇員的公司來說挑戰(zhàn)是為空缺職位找到最好的候選人組。對(duì)于求職者來說挑戰(zhàn)是找到適合的工作。在人力資源部門中的一個(gè)標(biāo)準(zhǔn)實(shí)踐是為每個(gè)開放職位創(chuàng)建職位描述,然后將該職位連同描述一起廣告宣傳。招聘者和求職者然后需要查看和分析這些描述,從而確定在求職者和特定工作之間的匹配。
在因特網(wǎng)上搜索的人員可以使用很多搜索工具來基于他或她的技能來尋找適當(dāng)?shù)墓ぷ?。?dāng)前可用的典型的搜索工具要求求職者以關(guān)鍵詞例如期望位置、工作類型、期望薪酬水平等形式來選擇多個(gè)標(biāo)準(zhǔn)。相似地,招聘者除了工作描述之外,還提供特定工作需要考慮的技術(shù)水平、教育背景、經(jīng)驗(yàn)?zāi)晗薜?。然后,搜索工具在工作描述的?shù)據(jù)庫(kù)中查找搜索者的關(guān)鍵詞,并返回或顯示包含求職者的關(guān)鍵詞的那些工作描述。然而,可用的搜索工具依然經(jīng)常需要每個(gè)招聘者和求職者仔細(xì)查看大量的所謂搜索結(jié)果,或者如果提供的標(biāo)準(zhǔn)太特別或太窄時(shí),該搜索工具可能返回?zé)o搜索結(jié)果。
通常,在因特網(wǎng)上搜索以列表形式編譯的任何數(shù)據(jù)例如在特定區(qū)域中的新住宅的人員可以使用許多搜索工具。當(dāng)前可用的典型的房地產(chǎn)搜索工具需要購(gòu)房者或購(gòu)房者的經(jīng)紀(jì)人以關(guān)鍵詞例如期望位置、住宅類型、占地面積、學(xué)校系統(tǒng)、街道位置選擇、價(jià)格范圍等的形式來選擇多個(gè)標(biāo)準(zhǔn)。列表房地產(chǎn)經(jīng)紀(jì)人除了住宅描述之外,還典型地在多重列表服務(wù)中提供圖片和其他數(shù)據(jù)例如占地的平方英尺數(shù)、房屋的平方英尺數(shù)、臥室和浴室的數(shù)量。然后,搜索工具在住宅的數(shù)據(jù)庫(kù)中查找用戶的關(guān)鍵詞,并返回或顯示包含用戶的關(guān)鍵詞的那些住宅。然而,可用的搜索工具依然或者經(jīng)常要求用戶或者要求房地產(chǎn)經(jīng)紀(jì)人或潛在購(gòu)房者或其他用戶每個(gè)都仔細(xì)查看在多個(gè)站點(diǎn)上的大量所謂搜索結(jié)果。然后,需要提供搜索管理系統(tǒng),該搜索管理系統(tǒng)更有效地收集列表數(shù)據(jù),對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化,以及管理在列表數(shù)據(jù)的用戶和提供者之間的接口。


發(fā)明內(nèi)容
在這里描述的系統(tǒng)包括用于高級(jí)列表管理軟件系統(tǒng)的平臺(tái),該高級(jí)列表管理軟件系統(tǒng)用于管理用于任何類型的列表數(shù)據(jù)例如職位告示、簡(jiǎn)歷列表、房地產(chǎn)列表、產(chǎn)品列表等的搜索工具。該系統(tǒng)可以完全分布在多個(gè)機(jī)器之中并且是可擴(kuò)展的。在軟件系統(tǒng)中的以下描述的每個(gè)模塊是可擴(kuò)展的,并且可以包括由要在其中操作和處理的數(shù)據(jù)量所指定的多個(gè)實(shí)例。
在這里所述的系統(tǒng)的實(shí)施例是計(jì)算機(jī)軟件系統(tǒng),用于管理通過數(shù)據(jù)網(wǎng)絡(luò)從多個(gè)源捕捉的列表信息數(shù)據(jù)的捕捉和處理,從而將數(shù)據(jù)編譯為可搜索數(shù)據(jù)結(jié)構(gòu)。該系統(tǒng)包括通過網(wǎng)絡(luò)接口提供系統(tǒng)管理和操作控制的管理入口模塊;以及一個(gè)或多個(gè)列表管理器模塊,響應(yīng)于經(jīng)由管理入口模塊提供的指令,可操作以控制對(duì)于源的訪問、控制對(duì)于列表信息數(shù)據(jù)的檢索以及處理從那些源接收到的列表信息數(shù)據(jù)。每個(gè)列表管理器模塊控制任務(wù)管理器以對(duì)列表信息數(shù)據(jù)分類、檢查分類的列表信息數(shù)據(jù)的部分是否符合預(yù)定的質(zhì)量標(biāo)準(zhǔn),以及存儲(chǔ)分類的列表信息數(shù)據(jù)用于在搜索區(qū)中使用。
每個(gè)列表管理器模塊包括一個(gè)或多個(gè)任務(wù)管理器,每個(gè)任務(wù)管理器包括抓取管理模塊,該抓取管理模塊協(xié)調(diào)一個(gè)或多個(gè)抓取引擎的操作和這些引擎之間的通信,以從由管理入口模塊中的站點(diǎn)管理模塊識(shí)別的站點(diǎn)獲得抓取數(shù)據(jù)集,以將抓取數(shù)據(jù)集存儲(chǔ)在數(shù)據(jù)庫(kù)中。列表管理器模塊還優(yōu)選地包括質(zhì)量管理模塊,該質(zhì)量管理模塊被連接到抓取管理模塊,分析在數(shù)據(jù)庫(kù)中存儲(chǔ)的每個(gè)抓取數(shù)據(jù)集是否符合預(yù)定質(zhì)量規(guī)定;以及列表數(shù)據(jù)分類模塊,可操作以檢查數(shù)據(jù)庫(kù)中存儲(chǔ)的每個(gè)數(shù)據(jù)集并將其分類到一個(gè)或多個(gè)種類的預(yù)定集中并將分類的數(shù)據(jù)集返回到數(shù)據(jù)庫(kù);以及搜索區(qū)同步器,與數(shù)據(jù)庫(kù)通信,用于將來自數(shù)據(jù)庫(kù)的分類的數(shù)據(jù)集編譯和傳輸?shù)剿阉鲄^(qū)。
示例性系統(tǒng)的實(shí)施例通過使用訪問列表信息的任何可用方法來操作。這樣的方法可以包括直接提要(direct feeds)、基于網(wǎng)絡(luò)的提要(webbased feeds)、XML提要(XML feeds)以及使用抓取技術(shù)以搜索網(wǎng)頁(yè)并從在因特網(wǎng)以及具體在萬維網(wǎng)上可以訪問的站點(diǎn)獲得列表信息,然而,因?yàn)榱斜硇畔⒖梢员环植荚诂F(xiàn)在已知或?qū)⒆兊靡阎钠渌W(wǎng)絡(luò)上,所以在這里描述的系統(tǒng)和功能適用于任何分布式的信息環(huán)境,由該分布式的信息環(huán)境可以利用手動(dòng)系統(tǒng)或自動(dòng)系統(tǒng)來獲得信息。
作為示例性的實(shí)現(xiàn),在這里描述了求職者和職位描述以及職位告示。然而,管理系統(tǒng)具有比簡(jiǎn)單的職位搜索更廣泛的應(yīng)用。其可以利用任何類型的數(shù)據(jù)管理系統(tǒng)來實(shí)現(xiàn),在該數(shù)據(jù)管理系統(tǒng)中要管理數(shù)據(jù)的列表或數(shù)據(jù)記錄的其他編譯。在這里描述的系統(tǒng)是模塊化的以及可擴(kuò)展的,并且可以被實(shí)現(xiàn)為在單個(gè)計(jì)算機(jī)上的獨(dú)立系統(tǒng),或者該系統(tǒng)的模塊化功能可以被分布在通過適當(dāng)?shù)木W(wǎng)絡(luò)接口通信的異構(gòu)計(jì)算機(jī)、服務(wù)器等之中。
當(dāng)搜索關(guān)于職位的信息的求職者使用在這里描述的系統(tǒng)的實(shí)施例時(shí),該求職者將需要查看較大范圍的職位描述。特別地,系統(tǒng)使用抓取技術(shù)來建立以職位描述構(gòu)成的數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)還可以包括來自其他源的職位描述,該其他源例如由搜索申請(qǐng)者的公司提供和/或由除了通過抓取以外的方法提供的職位描述。系統(tǒng)接收職位描述,以及然后使用內(nèi)部分類和質(zhì)量管理方法,使得在每個(gè)獨(dú)立職位描述中包含的信息的質(zhì)量最佳,以最大化對(duì)于用戶的用途以及改進(jìn)用戶在使用這里描述的系統(tǒng)時(shí)的總體職位搜索體驗(yàn)。
根據(jù)本公開的獲得、處理和編譯列表數(shù)據(jù)集的方法包括從可以通過因特網(wǎng)訪問的一個(gè)或多個(gè)站點(diǎn)上的一個(gè)或多個(gè)列表獲得列表信息數(shù)據(jù)集;將對(duì)應(yīng)于每個(gè)抓取列表的數(shù)據(jù)集存儲(chǔ)在數(shù)據(jù)庫(kù)中;分析在數(shù)據(jù)庫(kù)中存儲(chǔ)的每個(gè)數(shù)據(jù)集是否符合預(yù)定質(zhì)量標(biāo)準(zhǔn);以及將數(shù)據(jù)庫(kù)中存儲(chǔ)的每個(gè)數(shù)據(jù)集分類到一個(gè)或多個(gè)預(yù)定類別中;以及將分類的數(shù)據(jù)集返回到數(shù)據(jù)庫(kù)。該方法進(jìn)一步可以包括通過XML提要、RSS提要以及從多個(gè)源的直接輸入從一個(gè)或多個(gè)客戶站點(diǎn)獲得列表信息數(shù)據(jù)集。分類操作優(yōu)選地包括對(duì)于在預(yù)定類別的每個(gè)中的每個(gè)數(shù)據(jù)集確定和分配置信值。該確定優(yōu)選地以及更具體地包括比較每個(gè)獲得數(shù)據(jù)集的文本和在分類數(shù)據(jù)庫(kù)中的之前分類的數(shù)據(jù)集的文本,以及確定用于每個(gè)獲得的數(shù)據(jù)集的每個(gè)預(yù)定類別中的置信值。
本公開的方法的優(yōu)選實(shí)施例包括這些操作訪問和/或抓取來自一個(gè)或多個(gè)公司職業(yè)網(wǎng)站或職位版上的一個(gè)或多個(gè)職位列表的職位信息;將對(duì)應(yīng)于每個(gè)抓取的數(shù)據(jù)列表的抓取的職位描述數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中;分析存儲(chǔ)在數(shù)據(jù)庫(kù)中的每個(gè)抓取的職位描述數(shù)據(jù)是否符合預(yù)定質(zhì)量標(biāo)準(zhǔn);將存儲(chǔ)在數(shù)據(jù)庫(kù)中的每個(gè)職位描述分類到一個(gè)或多個(gè)預(yù)定職位類別中并將分類的職位描述返回到數(shù)據(jù)庫(kù);以及將分類的職位描述數(shù)據(jù)從數(shù)據(jù)庫(kù)傳送到搜索區(qū)。
分類操作優(yōu)選地包括這些操作比較每個(gè)抓取職位描述的文本和分類數(shù)據(jù)庫(kù)中的之前分類的職位描述文本;以及確定在用于每個(gè)抓取職位描述的每個(gè)預(yù)定類別中的置信值。更優(yōu)選地,該方法包括對(duì)具有低于預(yù)定值的置信值的每個(gè)分類的抓取職位描述進(jìn)行標(biāo)記用于手動(dòng)查看,以及提供手動(dòng)查看接口,以允許查看者驗(yàn)證任何標(biāo)記的分類。



結(jié)合附圖并參考以下的描述,本公開的上述特征和目的將變得更加明顯,在附圖中相同的附圖標(biāo)記表示相同的單元,其中 圖1A是根據(jù)本公開的實(shí)施例的列表管理平臺(tái)系統(tǒng)的總體方塊圖。
圖1B是在圖1A的管理平臺(tái)系統(tǒng)中的示例性列表管理模塊的總體功能方塊圖。
圖1C是在圖1B的列表管理模塊中的每個(gè)任務(wù)管理器的總體功能方塊圖。
圖2是使用圖1A-1C所示的管理平臺(tái)系統(tǒng)的實(shí)施例的職位搜索系統(tǒng)的總體方塊圖。
圖3是用在圖2所示的示例性系統(tǒng)的實(shí)施例中的示例性用戶(求職者)搜索輸入查詢接口。
圖4是用在圖2所示的示例性系統(tǒng)的實(shí)施例中的示例性用戶(求職者)搜索結(jié)果接口。
圖5是通過圖2所示的系統(tǒng)的簡(jiǎn)化數(shù)據(jù)處理流程。
圖6是在圖1所示的系統(tǒng)的實(shí)施例中的職位分類控制模塊的框圖。
圖7是根據(jù)圖1B所示的系統(tǒng)的實(shí)施例的職位分類過程的操作流程圖。
圖8是用于職位分類過程的示例性文檔分類平臺(tái)服務(wù)用戶接口的屏幕截圖。
圖9是用于職位分類手動(dòng)查看接口模塊的處理流程圖。
圖10是用于職位分類手動(dòng)查看接口模塊的示例性用戶接口的屏幕截圖。
圖11是正被手動(dòng)查看的職位描述的示例性用戶接口的屏幕截圖。
圖12是在圖1所示的系統(tǒng)中的去重復(fù)模塊中的數(shù)據(jù)去重復(fù)過程的流程圖。
圖13是圖1B和1C所示的質(zhì)量引擎過程的流程圖。
圖14是示出質(zhì)量管理員報(bào)告的用戶接口的示例性屏幕截圖。
圖15是根據(jù)本公開的實(shí)施例的抓取的工作原理圖。
圖16是圖1所示的系統(tǒng)的報(bào)告模塊中產(chǎn)生的產(chǎn)業(yè)報(bào)告的屏幕截圖。
圖17是在圖1A的用戶管理模塊中使用的用戶接口的屏幕截圖。
圖18是在圖2所示的系統(tǒng)的兩個(gè)任務(wù)管理器之間共享數(shù)據(jù)的任務(wù)管理器的框圖。

具體實(shí)施例方式 在圖1A中示出了根據(jù)本公開的實(shí)施例的使用用于高級(jí)列表管理(PALM)系統(tǒng)100的平臺(tái)的示例性系統(tǒng)10的高層次方塊圖。系統(tǒng)10是分布式軟件系統(tǒng),該分布式軟件系統(tǒng)被設(shè)計(jì)為經(jīng)由因特網(wǎng)112或其他網(wǎng)絡(luò)接入來從多個(gè)站點(diǎn)110獲得列表信息數(shù)據(jù)集;在PALM系統(tǒng)100中處理該數(shù)據(jù)集;將處理后的數(shù)據(jù)集存儲(chǔ)在一個(gè)或多個(gè)數(shù)據(jù)庫(kù)12中;以及然后填充一個(gè)或多個(gè)搜索區(qū)109,用于由用戶120通過網(wǎng)絡(luò)服務(wù)器集群進(jìn)行訪問。
圖1A以宏觀視圖顯示了示例性系統(tǒng)10。圖1B是一個(gè)列表管理器模塊104的詳細(xì)方塊圖。圖1C是描述在每個(gè)列表管理器模塊104中示出分布式功能的PALM任務(wù)管理器131的功能性的方塊圖。
PALM平臺(tái)100是列表生命周期管理平臺(tái)系統(tǒng),該系統(tǒng)有助于用于內(nèi)容采集、分類、質(zhì)量、性能和顯示的商業(yè)處理的自動(dòng)化和定制。在參考圖2的以下的更詳細(xì)描述的示例性應(yīng)用實(shí)施例中,在雇用/職位搜索和工作安排環(huán)境中使用PALM系統(tǒng)100。然而,要知道,可以使用包括PALM系統(tǒng)100的系統(tǒng)10來管理包括大量的數(shù)據(jù)集的任何復(fù)雜列表模式。
返回參考圖1A,系統(tǒng)10通常將列表管理系統(tǒng)的所有潛在管理功能性包括在系統(tǒng)100中的模塊化形式中。由此,系統(tǒng)100基本上具有入口部分102、一系列列表管理器104以及優(yōu)選地具有外部處理集成模塊160。此外,系統(tǒng)100包括平臺(tái)應(yīng)用編程接口(API)106、客戶自服務(wù)入口107和管理接口入口API 108。基本上,系統(tǒng)100例如經(jīng)由因特網(wǎng)112與外部輸入站點(diǎn)110和其他源接口連接。管理操作人員114具有通過內(nèi)聯(lián)網(wǎng)116經(jīng)由管理入口108對(duì)于PALM入口102的接入。如果一些付費(fèi)客戶117被給予了對(duì)于PALM系統(tǒng)100的管理接入,則這些付費(fèi)客戶117還可以通過自服務(wù)端口107通過因特網(wǎng)112接口連接到PALM入口102中。
在PALM系統(tǒng)100中,處理從外部站點(diǎn)和源110檢索到的列表數(shù)據(jù)。然后PALM系統(tǒng)100填充一個(gè)或多個(gè)搜索區(qū)109。然后在用戶120提出查詢之后,由網(wǎng)絡(luò)服務(wù)器集群118訪問搜索區(qū)109中的信息用于經(jīng)由因特網(wǎng)112顯示。
PALM系統(tǒng)100允許管理操作員114加速數(shù)據(jù)列表的采集、處理以及顯示的可用性。PALM系統(tǒng)100優(yōu)選地包括一個(gè)或多個(gè)PALM處理機(jī)器或列表管理器模塊104。系統(tǒng)還通過適當(dāng)?shù)腜ALM應(yīng)用編程接口(API)進(jìn)行交互,用于外部通信,例如用于管理訪問、控制、檢查和報(bào)告功能以及會(huì)計(jì)、財(cái)務(wù)、銷售和客戶信息功能。
PALM入口102包括許多功能模塊,可以使用這些功能模塊來訪問、控制和詢問由在PALM系統(tǒng)100中的PALM列表管理器104執(zhí)行的處理。
用戶管理單點(diǎn)登錄模塊122提供對(duì)于所有授權(quán)的管理員的基于角色的訪問控制,以及支持用于管理用戶訪問、許可和角色的創(chuàng)建、查看、更新和刪除(CRUD)用例,支持獨(dú)立授權(quán)或通過集中式企業(yè)認(rèn)證(也被稱為單點(diǎn)登錄)行為,以及提供批準(zhǔn)以及管理員工作流程。該模塊122還允許管理員執(zhí)行單點(diǎn)登錄行為從而在PALM入口102中訪問他被授權(quán)的任何功能性。
在圖17中示出用于用戶管理模塊的用戶管理用戶接口的示例性屏幕截圖。在圖17中,用戶管理屏幕1700被示出為列出示例性被許可的用戶名1702以及他們的訪問許可1704,該訪問許可1704示出他們被管理地授權(quán)以在PALM系統(tǒng)100中執(zhí)行或編輯子例程。用于讓自服務(wù)客戶117通過自服務(wù)入口107進(jìn)入的用戶接口屏幕將被限制更多,因?yàn)檫@樣的客戶將優(yōu)選在系統(tǒng)100中具有僅僅受限的功能訪問。
代理/站點(diǎn)管理模塊124控制在下面參考特定實(shí)施例更詳細(xì)地討論的抓取引擎的操作,該特定實(shí)施例包括對(duì)于利用抓取獲得的職位信息的管理。
該模塊124支持用于管理站點(diǎn)和站點(diǎn)屬性例如代理自動(dòng)訪問遠(yuǎn)程站點(diǎn)所需要的用戶名和口令的CRUD用例。該模塊還啟用、禁用、批準(zhǔn)以及拒絕對(duì)于代理/站點(diǎn)的請(qǐng)求。這些站點(diǎn)屬性包括 Seed URL(s) Throttle speed Frequency Preferred Day/Time of scraping Display/Non-display schedules Agent instructions for staying within a given list of“hosts” Blacklist sites(those that are not to be scraped) Stay within a given SLD e.g.<anything>.ibm.com Crawling up to one host away (e.g.www.ibm.com has a link towww.ibm.peopleclick.com.Then get all listings from peopleclick.com) 質(zhì)量查看模塊126提供允許操作員來查看列表質(zhì)量、查看內(nèi)容的問題和錯(cuò)誤、以及確認(rèn)或無效列表的手動(dòng)工具。例如,確認(rèn)操作可以包括對(duì)于測(cè)試、無用數(shù)據(jù)以及損壞的內(nèi)容列表的無效。最終,質(zhì)量查看模塊126提供用于參考圖13如下描述的自動(dòng)質(zhì)量查看任務(wù)的詳細(xì)手動(dòng)查看機(jī)制。其實(shí),質(zhì)量查看模塊允許操作員從數(shù)據(jù)庫(kù)中檢索已經(jīng)被標(biāo)記為沒有滿足預(yù)定質(zhì)量標(biāo)準(zhǔn)的數(shù)據(jù)集。
列表生命周期模塊128允許在列表數(shù)據(jù)輸入和輸出的操作控制中對(duì)于PALM系統(tǒng)的吞吐量選項(xiàng)和性能進(jìn)行精細(xì)調(diào)節(jié)和調(diào)整。例如,該模塊可以利用國(guó)家、人口統(tǒng)計(jì)(DMA)、Verticals、質(zhì)量或其他參數(shù)來回填列表。例如,在具有很少的付費(fèi)列出農(nóng)業(yè)職位的國(guó)家的區(qū)域中,顯示給用戶120的結(jié)果被補(bǔ)充有也就是回填有來自這樣的區(qū)域的抓取列表,或者可以被其本來將基于質(zhì)量級(jí)確定被排除的列表來填充。因此,可以使用該模塊來調(diào)整在抓取顯示信息和付費(fèi)顯示信息之間的混合調(diào)節(jié)器、利用參數(shù)例如國(guó)家、DMA或Verticals來改變抓取列表和付費(fèi)列表的百分比。其包括用于比較付費(fèi)、抓取和溢價(jià)列表(premiumlisting)的統(tǒng)計(jì)和性能的功能性。其提供用于管理列表類型和屬性的CRUD用例,以及管理內(nèi)容/列表顯示和到期的時(shí)間表。
報(bào)告模塊130在其他標(biāo)準(zhǔn)之中利用產(chǎn)業(yè)和人口統(tǒng)計(jì)來支持許多報(bào)告任務(wù)。例如,該模塊130允許比較付費(fèi)和抓取列表的歷史表現(xiàn)、便利跟蹤列表點(diǎn)進(jìn)和對(duì)于付費(fèi)和抓取列表感興趣的表達(dá)、以及跟蹤通信重定向。該報(bào)告模塊130還跟蹤新列表的數(shù)量、付費(fèi)和抓取信息數(shù)據(jù)集的數(shù)量。最終,銷售和市場(chǎng)組可以使用這種工具來基于相似的這樣的列表的之前歷史來出售溢價(jià)列表。在圖16中示出了產(chǎn)業(yè)報(bào)告1600的示例性屏幕截圖。在圖14中示出了示例性質(zhì)量管理器報(bào)告1400。
類別查看模塊132提供這樣的機(jī)制,在該機(jī)制中,可以對(duì)不能被自動(dòng)分類或歸類到適當(dāng)類別中的列表信息進(jìn)行手動(dòng)地查看以及或者適當(dāng)?shù)胤诸惢騽h除。以下,在職位搜索和列表信息管理的領(lǐng)域中,參考PALM系統(tǒng)100的特定實(shí)現(xiàn)的實(shí)施例,更詳細(xì)地解釋了類別查看模塊132。然而,以下描述的類別查看原理適用于其中根據(jù)預(yù)定和動(dòng)態(tài)確定的標(biāo)準(zhǔn)來系統(tǒng)地獲得、查看和分類數(shù)據(jù)列表的任何系統(tǒng)。在2004年8月17日提交的名為“Automatic Product Categorization”的美國(guó)專利申請(qǐng)序列號(hào)10/920,588中描述了開發(fā)的并且轉(zhuǎn)讓給本公開的專利權(quán)受讓人的示例性自動(dòng)分類技術(shù)。
搜索區(qū)同步器模塊154從數(shù)據(jù)庫(kù)12取得凈化的以及分類的數(shù)據(jù)集、對(duì)這些數(shù)據(jù)集進(jìn)行適當(dāng)?shù)母袷交约叭缓髮⒏北咎畛涞竭m當(dāng)?shù)囊粋€(gè)搜索區(qū)109中。相似地,付費(fèi)搜索區(qū)同步器156取得源自付費(fèi)列表客戶的凈化和分類的數(shù)據(jù)集、為了搜索對(duì)這些數(shù)據(jù)集進(jìn)行適當(dāng)?shù)母袷交?、以及利用副本填充搜索區(qū)109以用于搜索。當(dāng)數(shù)據(jù)集滿足用戶的搜索標(biāo)準(zhǔn)時(shí),這樣的付費(fèi)列表優(yōu)選被給予對(duì)于用戶120的較高級(jí)別的可見度,并由此顯示給終端用戶120。
配置生成器模塊158分析正在由系統(tǒng)100處理的數(shù)據(jù)容量,并且生成用于每個(gè)可用PALM列表管理器模塊104的配置參數(shù),以及確定要分配給每個(gè)PALM列表管理器模塊104的PALM任務(wù)管理器/調(diào)度程序的數(shù)量和大小?;诹斜砉芾砥髂K的可用性、正被發(fā)送到系統(tǒng)100中的數(shù)據(jù)容量、抓取操作的結(jié)果,如下進(jìn)一步描述,以及管理輸入,管理操作員告知配置管理器模塊158優(yōu)化和平準(zhǔn)系統(tǒng)100中數(shù)據(jù)吞吐量所需要的信息。
PALM系統(tǒng)100包括如由硬件可用性以及配置管理器模塊158確定的從1到n個(gè)的PALM列表管理器模塊104。一個(gè)示例性的PALM列表管理器模塊在圖1B中示出。PALM列表管理器模塊104具有對(duì)于在整個(gè)PALM系統(tǒng)100的數(shù)據(jù)庫(kù)12中的數(shù)據(jù)的訪問以及使用,該數(shù)據(jù)庫(kù)12包括PALM元數(shù)據(jù)存儲(chǔ)器162、 暫存數(shù)據(jù)庫(kù)(staging database)164和已加工數(shù)據(jù)庫(kù)166連同于輸入到PALM系統(tǒng)100中的每個(gè)輸入相關(guān)聯(lián)的局部數(shù)據(jù)庫(kù)。通常,將管理信息提交到元數(shù)據(jù)存儲(chǔ)器162。暫存數(shù)據(jù)庫(kù)164是在初始數(shù)據(jù)處理期間使用的臨時(shí)數(shù)據(jù)庫(kù)。一旦已經(jīng)完成了初始處理,將處理后的數(shù)據(jù)存儲(chǔ)在已加工數(shù)據(jù)庫(kù)166中。
每個(gè)列表管理器模塊104優(yōu)選地包括主任務(wù)調(diào)度程序131,該主任務(wù)調(diào)度程序131管理和調(diào)度一系列任務(wù),在從外部源例如站點(diǎn)110和客戶自服務(wù)塊117進(jìn)入到系統(tǒng)100中的每個(gè)數(shù)據(jù)集上必須執(zhí)行這些任務(wù)。由主任務(wù)調(diào)度程序131控制的任務(wù)包括但是不限制于抓取管理器模塊134、數(shù)據(jù)源適配器任務(wù)136、數(shù)據(jù)拆分器任務(wù)133、數(shù)據(jù)凈化器任務(wù)138、數(shù)據(jù)去重復(fù)任務(wù)139、自動(dòng)分類引擎任務(wù)140、基于規(guī)則的質(zhì)量引擎任務(wù)142和業(yè)務(wù)規(guī)則任務(wù)144。
抓取管理器模塊134具有對(duì)于抓取或獲得來自外部站點(diǎn)110的列表信息的工具的全局控制和管理。使用兩種大體類型的抓取工具站點(diǎn)專用抓取工具,例如最初由Kelkoo公司開發(fā)的Kelkoo,該Kelkoo公司現(xiàn)在是Yahoo公司的子公司;以及URL爬取引擎例如也由Yahoo公司開發(fā)的Café/Kelsa抓取引擎。該爬取引擎以種子URL開始,以及搜索它所遇到的每個(gè)和每一個(gè)鏈接,由此通向遠(yuǎn)離原始地址的位置和信息。抓取管理器模塊134通過主任務(wù)調(diào)度程序131,將這些抓取工具的操作與代理/站點(diǎn)管理模塊124進(jìn)行協(xié)調(diào),以確保被抓取和爬取的站點(diǎn)不被行為所壓倒,而是被頻繁地訪問,從而確保處理當(dāng)前的列表信息。
數(shù)據(jù)源適配器任務(wù)模塊136從不同數(shù)據(jù)源取得數(shù)據(jù),像從系統(tǒng)100的多個(gè)輸入接收到的數(shù)據(jù)集一樣,將數(shù)據(jù)存儲(chǔ)在局部數(shù)據(jù)庫(kù)中,并將這些不同類型的數(shù)據(jù)集都轉(zhuǎn)換為一種標(biāo)準(zhǔn)化類型的標(biāo)準(zhǔn)化數(shù)據(jù)集。例如,可以將數(shù)據(jù)集作為文本文件、XML、HTML或RSS數(shù)據(jù)提要饋給到系統(tǒng)100中。這些不同類型的數(shù)據(jù)集可以在進(jìn)一步處理之前被進(jìn)行標(biāo)準(zhǔn)化。數(shù)據(jù)源適配器任務(wù)模塊136確保所有數(shù)據(jù)集為通用的標(biāo)準(zhǔn)化類型。
現(xiàn)在參考圖1C,每個(gè)PALM主任務(wù)調(diào)度程序131調(diào)度和控制一系列任務(wù),這些任務(wù)的一些管理多任務(wù)線程。主任務(wù)調(diào)度程序131調(diào)度數(shù)據(jù)凈化器任務(wù)管理器138、數(shù)據(jù)去重復(fù)任務(wù)管理器139、分類任務(wù)管理器140、質(zhì)量引擎任務(wù)管理器142以及業(yè)務(wù)規(guī)則任務(wù)管理器144,其中每個(gè)管理器管理n個(gè)任務(wù)線程。
數(shù)據(jù)拆分器任務(wù)133將數(shù)據(jù)集的塊劃分為不同的具有大概相似特性的分組,以致于將利用相同的任務(wù)序列線程來處理具有相似屬性的數(shù)據(jù)集。該任務(wù)133確定數(shù)據(jù)集到不同線程的分配。數(shù)據(jù)拆分任務(wù)首先檢測(cè)在可用PALM主任務(wù)調(diào)度程序131的數(shù)量上是否具有配置變化。如果有變化,那么將來自抓取場(chǎng)和其他源的暫存數(shù)據(jù)再散列為新的分組。如果沒有配置變化,則僅僅評(píng)估新近添加的數(shù)據(jù)集。在職位列表的情況中,數(shù)據(jù)拆分任務(wù)133基于預(yù)定字段例如職位名稱、公司和職位狀態(tài)的ASCII的散列,拆分列表數(shù)據(jù)。該散列特定地為((ascii(職位名稱)+ascii(職位公司)+ascii(職位狀態(tài)1))%NUM_CK_RUNNERS),其中,NUM_CK_RUNNERS是如由配置管理器158確定的PALM主任務(wù)調(diào)度程序131可用的線程數(shù)。數(shù)據(jù)拆分任務(wù)的子例程是使用均勻散列函數(shù),該均勻散列函數(shù)總是將相同的數(shù)據(jù)集拆分到相同的“散列表元”中,以致于相同的數(shù)據(jù)記錄優(yōu)選地利用相同線程進(jìn)行處理。
數(shù)據(jù)凈化器任務(wù)管理器138控制在線程161中的每個(gè)數(shù)據(jù)集或記錄的檢查以及格式化的移除,以致于在每個(gè)抓取列表中的列表信息具有相同的格式和內(nèi)容結(jié)構(gòu)。特別地,該任務(wù)138控制從數(shù)據(jù)字段剝除所有HTML標(biāo)記、驗(yàn)證名稱并在地址和位置數(shù)據(jù)中放入適當(dāng)?shù)拇a,例如用于US國(guó)內(nèi)列表的2字母的州代碼。對(duì)于國(guó)際列表,其放入到適當(dāng)?shù)膰?guó)際位置縮寫(省/地區(qū))中。在該任務(wù)模塊138中的每個(gè)線程161還執(zhí)行在數(shù)據(jù)列表中的字段例如每個(gè)URL的操作檢查,從而確保其始于“http:”或“https:”,以及剝除褻瀆詞、驗(yàn)證數(shù)據(jù)字段、檢查在每個(gè)字段中的無效字符例如在城市字段中的所有數(shù)字。最終,每個(gè)線程161優(yōu)選地提供正確基本標(biāo)點(diǎn)操作,例如確保在句子中的第一個(gè)字母是大寫的,并且開始每個(gè)新句子之前空兩個(gè)格。
數(shù)據(jù)去重復(fù)任務(wù)管理器139管理和調(diào)度多線程任務(wù)163,該任務(wù)為從數(shù)據(jù)凈化器管理器模塊138取得數(shù)據(jù)記錄或列表數(shù)據(jù)集;以及將數(shù)據(jù)集與在現(xiàn)有數(shù)據(jù)庫(kù)164和166中的記錄進(jìn)行比較,以確保PALM系統(tǒng)100沒有重復(fù)已經(jīng)接收、檢查和存儲(chǔ)的數(shù)據(jù)。當(dāng)與現(xiàn)有數(shù)據(jù)庫(kù)內(nèi)容相比被標(biāo)記為復(fù)制的任何數(shù)據(jù)集被從數(shù)據(jù)庫(kù)12中移除。由此術(shù)語(yǔ)“去復(fù)制”或“去重復(fù)”。
分類任務(wù)管理器模塊140管理線程165,該線程165自動(dòng)地執(zhí)行操作以確定特定列表數(shù)據(jù)集可能屬于的類別。例如,在Mobile Alabama中的住宅出售列表可以被根據(jù)其位置、大小、形式、單棟或聯(lián)式等來分類。可以利用領(lǐng)域、工作時(shí)間、教育、位置等來對(duì)職位數(shù)據(jù)集進(jìn)行分類。因此,分類引擎任務(wù)管理器140控制和管理根據(jù)預(yù)定類別自動(dòng)地對(duì)主題列表數(shù)據(jù)集進(jìn)行分類所需要的操作。該任務(wù)管理器140是多線程的并且同時(shí)地協(xié)調(diào)達(dá)到n個(gè)類別確定的實(shí)例165。該類別任務(wù)優(yōu)選地還包括對(duì)于確定分類的置信度的確定。在2004年8月17日提交的美國(guó)專利申請(qǐng)序列號(hào)No.10/920,588以及在這里描述的相關(guān)申請(qǐng)中公開了示例性分類技術(shù),這些申請(qǐng)全都轉(zhuǎn)讓給了Yahoo公司。
基于規(guī)則的質(zhì)量引擎任務(wù)管理器模塊142提供規(guī)則序列,根據(jù)這些規(guī)則來詳查每個(gè)列表數(shù)據(jù)集,從而確保數(shù)據(jù)集滿足特定標(biāo)準(zhǔn)并包含特定的最小級(jí)的詳細(xì)信息。該標(biāo)準(zhǔn)可以包括例如用于住宅房地產(chǎn)列表的街道地址、或用于職位列表的職位名稱或用于任一這樣實(shí)現(xiàn)的城市位置。在下面參考系統(tǒng)100的職位搜索實(shí)現(xiàn)來更詳細(xì)地解釋該模塊142的一個(gè)示例性實(shí)施例。質(zhì)量引擎任務(wù)管理器142調(diào)度兩個(gè)基本的線程序列URL鏈接檢查線程167,接著是數(shù)據(jù)驗(yàn)證線程169。這些檢查167和169驗(yàn)證URL實(shí)際上是當(dāng)前有效的URL,以及還執(zhí)行在數(shù)據(jù)庫(kù)記錄詞和從URL下載的網(wǎng)頁(yè)之間的詞匹配例程從而確保列表描述匹配。數(shù)據(jù)驗(yàn)證線程169從數(shù)據(jù)集隨機(jī)地選擇詞,以及將這些選擇的詞與下載的網(wǎng)頁(yè)匹配,并且優(yōu)選地選擇其中具有多于5個(gè)字符的詞。如果數(shù)據(jù)集與下載的網(wǎng)頁(yè)不匹配,則設(shè)置出錯(cuò)標(biāo)記。以下參考圖13,參考PALM系統(tǒng)100的職位搜索實(shí)現(xiàn),來解釋該任務(wù)的更詳細(xì)的例子。
業(yè)務(wù)規(guī)則任務(wù)模塊144向企業(yè)提供應(yīng)用區(qū)分規(guī)則來顯示或不顯示列表、過濾列表、基于產(chǎn)業(yè)位置來顯示部分的列表、或即使之前可能已經(jīng)爬取了數(shù)據(jù)也完全阻止用于顯示的站點(diǎn)數(shù)據(jù)的能力。例如,在職位搜索應(yīng)用程序中,對(duì)于Boston區(qū)域,一個(gè)人可以在預(yù)定的時(shí)期中選擇用于衛(wèi)生產(chǎn)業(yè)的抓取或爬取數(shù)據(jù)的僅僅10%的顯示。當(dāng)新鮮列表到達(dá)時(shí),業(yè)務(wù)規(guī)則引擎遍歷整個(gè)數(shù)據(jù)集,以及可以根據(jù)預(yù)定的規(guī)則清除或標(biāo)記所有列表。
根據(jù)PALM系統(tǒng)100的以上描述,應(yīng)該清楚系統(tǒng)是可擴(kuò)展的、多線程的以及分布式的,以致于可以在計(jì)算機(jī)器的不同組合上執(zhí)行模塊的功能性,例如多個(gè)模塊104,該計(jì)算機(jī)器適當(dāng)?shù)夭僮餍缘剡B接到一起,從而執(zhí)行描述的功能。
在圖2中示出了根據(jù)本公開的實(shí)施例的包括圖1A-1C所示的PALM系統(tǒng)100的一個(gè)實(shí)施例的職位搜索系統(tǒng)200的總體結(jié)構(gòu)圖??梢哉J(rèn)為系統(tǒng)200具有三個(gè)部分外部輸入部分201、數(shù)據(jù)處理部分203以及輸出處理部分205。基本上,數(shù)據(jù)處理部分從外部輸入部分201取得職位數(shù)據(jù)、處理該數(shù)據(jù)、組織和驗(yàn)證該數(shù)據(jù)的有效性、對(duì)職位數(shù)據(jù)進(jìn)行分類以及將該數(shù)據(jù)提供給輸出部分,該輸出部分可以經(jīng)由因特網(wǎng)112由求職者207最終訪問。
外部輸入部分201包括來自例如法人和公司職業(yè)站點(diǎn)和許多其他職位版202的職位告示,可以由數(shù)據(jù)處理部分來訪問該職位告示。這些法人職業(yè)站點(diǎn)和職位版202當(dāng)前由幾千個(gè)公司職業(yè)站點(diǎn)組成。雇主/招聘者204還可以通過因特網(wǎng)112直接地向雇主/招聘者接口應(yīng)用程序206提供職位列表信息。該招聘者接口應(yīng)用程序向雇主/招聘者提供用戶接口屏幕,以向數(shù)據(jù)處理部分203輸入職位信息和以適當(dāng)格式提交獨(dú)立的列表。
系統(tǒng)網(wǎng)關(guān)/提要208可以與客戶站點(diǎn)210通信,以及以預(yù)定格式拉入職位信息,客戶站點(diǎn)210為此目的之前已經(jīng)存儲(chǔ)了該預(yù)定格式。網(wǎng)關(guān)/提要208允許客戶站點(diǎn)來提交信息以及將系統(tǒng)提要提供到系統(tǒng)200的數(shù)據(jù)處理部分203中??蛇x擇地,客戶站點(diǎn)可以使得職位信息可以通過網(wǎng)絡(luò)服務(wù)212來得到。這里,系統(tǒng)200經(jīng)由簡(jiǎn)單對(duì)象訪問協(xié)議(SOAP)來訪問客戶站點(diǎn)210,從而獲得職位列表信息。另一種從客戶站點(diǎn)獲得職位信息的方法是通過RSS 214?!罢嬲?jiǎn)單的整合”的縮寫RSS是被設(shè)計(jì)用于共享新聞、博客、產(chǎn)品數(shù)據(jù)以及很多其他類型的網(wǎng)絡(luò)內(nèi)容的輕量級(jí)XML格式。RSS已經(jīng)發(fā)展為在包括BBC、Yahoo、CNET、CNN、Disney、Forbes、Motley Fool、Red Herring以及很多其他的站點(diǎn)之間共享內(nèi)容的流行方法。還可以經(jīng)由因特網(wǎng)112通過直接XML提要216從客戶站點(diǎn)210獲得職位信息。
還向數(shù)據(jù)處理部分203提供輸入的是抓取引擎場(chǎng)218。抓取引擎場(chǎng)218具有幾個(gè)抓取引擎220,抓取引擎220通常使用不同的抓取技術(shù)和方法,可以根據(jù)設(shè)計(jì)選擇而開發(fā)這些抓取技術(shù)和方法,但是在這里優(yōu)選地具體針對(duì)用于在全球電子網(wǎng)絡(luò)例如因特網(wǎng)112上進(jìn)行搜索的優(yōu)選實(shí)施例,并且每個(gè)引擎220被針對(duì)特定類型的抓取任務(wù)或特定類型或法人站點(diǎn)集來優(yōu)化。例如,將由現(xiàn)在是Yahoo公司的子公司的歐洲的Kellkoo公司開發(fā)的Kellkoo抓取引擎進(jìn)行優(yōu)化以詳盡地搜索預(yù)定的已知法人站點(diǎn)或列表站點(diǎn)。Kellkoo抓取引擎被優(yōu)化以跟隨在站點(diǎn)內(nèi)的內(nèi)部鏈接到達(dá)特定的內(nèi)部位置以提取職位信息數(shù)據(jù)集。然而,Kellkoo抓取引擎不跟隨外部鏈接。由Yahoo公司開發(fā)并且在2005年2月22日提交的名為“Techniques for Crawling Dynamic Web Content”的美國(guó)專利申請(qǐng)序列號(hào)No.11/064,278中描述的Café/Kelsa抓取引擎場(chǎng)被優(yōu)化,以系統(tǒng)地檢查種子URL以及跟隨站點(diǎn)內(nèi)的每個(gè)鏈接,以及在該URL上提供的每個(gè)內(nèi)部和外部鏈接以及其在“爬取”上找到的鏈接。
輸入部分201將來自這些多個(gè)源的數(shù)據(jù)經(jīng)由總線224饋給到暫存數(shù)據(jù)庫(kù)222,該暫存數(shù)據(jù)庫(kù)222是整個(gè)數(shù)據(jù)庫(kù)12的一部分。然后,利用用于高級(jí)列表管理(PALM)系統(tǒng)100的平臺(tái),在數(shù)據(jù)處理部分203中訪問暫存數(shù)據(jù)庫(kù)222。PALM系統(tǒng)100還具有提供輸入到管理系統(tǒng)100中的幾個(gè)模塊。例如,客戶關(guān)系管理器(CRM)模塊226和其他外部應(yīng)用模塊228可以提供信息以及提取報(bào)告和在PALM系統(tǒng)100中唯一可獲得的其他信息。項(xiàng)目管理、操作、銷售和市場(chǎng)職員230還可以經(jīng)由企業(yè)內(nèi)部網(wǎng)232向PALM系統(tǒng)100提供輸入以及對(duì)于PALM系統(tǒng)100的控制,如下將更詳細(xì)地描述。
數(shù)據(jù)輸出部分205包括職位搜索網(wǎng)絡(luò)服務(wù)器/客戶機(jī)集群248以及到該集群248的許多數(shù)據(jù)源模塊。抓取搜索區(qū)246是這些數(shù)據(jù)源模塊之一。利用職位搜索網(wǎng)絡(luò)服務(wù)器/客戶機(jī)集群248對(duì)廣告系統(tǒng)溢價(jià)列表模塊250、付費(fèi)搜索區(qū)252、序曲系統(tǒng)內(nèi)容匹配模塊254以及鏈接構(gòu)造器模塊256進(jìn)行詢問。
廣告系統(tǒng)溢價(jià)列表模塊250利用系統(tǒng)200的主機(jī),組織以及向集群248提供來自特定雇主或招聘者的廣告,這些特定的雇主或招聘者具有付費(fèi)的溢價(jià)帳號(hào)??梢皂憫?yīng)特定的搜索請(qǐng)求,將這些溢價(jià)廣告以在特定框中、大標(biāo)題、突出顯示或以另外與其他可能呈現(xiàn)給求職者207的列表區(qū)分開的方式顯示給求職者207。
付費(fèi)搜索區(qū)模塊252是特定的搜索區(qū),雇主會(huì)員260可以在向系統(tǒng)200的主機(jī)付費(fèi)之后訪問該付費(fèi)搜索區(qū)模塊252。該付費(fèi)搜索區(qū)模塊252識(shí)別、存儲(chǔ)以及跟蹤來自那些付費(fèi)以確保他們的公告職位列表在呈現(xiàn)給求職者207的用戶接口上得到較高或強(qiáng)調(diào)放置的職位招聘者雇主或公司的職位列表。由此,經(jīng)由會(huì)員桌上型電腦262或網(wǎng)關(guān)264由會(huì)員公司直接地將付費(fèi)公告提供到搜索區(qū)252中。付費(fèi)搜索區(qū)252包含由這樣的職位列表實(shí)體提供的信息,這些職位列表實(shí)體已經(jīng)向這里描述的系統(tǒng)200的運(yùn)營(yíng)商付出額外費(fèi)用以推動(dòng)與用戶提供的特定需要搜索類別有關(guān)的列表,以致于利用溢價(jià)支付來?yè)Q取經(jīng)由用戶接口406將這些搜索結(jié)果在突出位置中提供給用戶。
序曲系統(tǒng)內(nèi)容匹配模塊254詢問其數(shù)據(jù)庫(kù)中是否有匹配職位搜索者的搜索標(biāo)準(zhǔn)的任何廣告。這些廣告被預(yù)先存儲(chǔ)在付費(fèi)數(shù)據(jù)庫(kù)中或鏈接到付費(fèi)數(shù)據(jù)庫(kù)以供系統(tǒng)200的主機(jī)使用。這些廣告的例子在圖4所示的搜索結(jié)果用戶接口屏幕截圖中示出。
鏈接構(gòu)造器模塊256提供鏈接cookie和地址以鏈接到匹配由求職者207提供的搜索項(xiàng)的其他職位源。在一些例子中,為了查看職位描述,必須將求職者轉(zhuǎn)到特定網(wǎng)站以見到列表。在這樣的環(huán)境中,站點(diǎn)可能在可以查看職位信息之前需要特定的安全元件例如cookie等。因此,在站點(diǎn)需要特定cookie或其他標(biāo)識(shí)符的情況中,鏈接構(gòu)造器模塊256提供必需的接口特性。鏈接構(gòu)造器模塊256管理過程以構(gòu)造URL,該URL包括站點(diǎn)要訪問職位列表所需要的必需信息,例如會(huì)話cookie。除了根據(jù)求職者的搜索請(qǐng)求所感興趣的特定職位之外,還可以將鏈接構(gòu)造器模塊256的結(jié)果提供給求職者207。
接著參考圖4,網(wǎng)絡(luò)服務(wù)器集群248作為到求職者207的網(wǎng)關(guān)接口,該求職者207搜索以使用這里描述的系統(tǒng)200。為了在系統(tǒng)200上起動(dòng)搜索請(qǐng)求,優(yōu)選地向求職者207呈現(xiàn)與圖3所示相似的用戶接口。然后集群248搜索以從系統(tǒng)搜索區(qū)252、254、246和250獲得信息,并且以容易使用和有效率的方式將這些信息呈現(xiàn)給發(fā)出詢問的求職者207,例如就在圖4所示的示例性結(jié)果接口中那樣。
在圖3所示的用戶接口300中輸入搜索請(qǐng)求302的求職者207與服務(wù)器集群248接口連接,該服務(wù)器集群248如圖4所示將總結(jié)果依次呈現(xiàn)給求職者207。由此,如下所述,通過提供由廣告系統(tǒng)溢價(jià)列表模塊250、職位搜索存儲(chǔ)體252、搜索區(qū)254、250、246識(shí)別的列表,用戶將看到溢價(jià)列表,以及用戶將看到來自搜索區(qū)256的爬取職位。
現(xiàn)在轉(zhuǎn)到圖4,示出用戶詢問結(jié)果接口400的示例性屏幕截圖。該用戶接口400給予求職者查看所有匹配其詢問的職位信息的機(jī)會(huì)。此外,該用戶接口400允許求職者提交不同的或更精確的詢問。顯示部分402給予用戶查看所有將匹配特定搜索標(biāo)準(zhǔn)的職位信息的機(jī)會(huì),例如在圖4中,該特定搜索標(biāo)準(zhǔn)為在Illinois的軟件開發(fā)員職位。求職者可以查看針對(duì)軟件開發(fā)員職位的搜索結(jié)果的所有可用職位信息,或可以僅僅查看在過去的24個(gè)小時(shí)、7天或其他預(yù)選時(shí)期中更新過的那些描述。并且,求職者還可以利用經(jīng)驗(yàn)級(jí)、位置或在職位描述中的其他特性或子類來構(gòu)建他或她的搜索。
接口400還顯示由多個(gè)優(yōu)選結(jié)果分組分開的結(jié)果部分。由此,系統(tǒng)200可以呈現(xiàn)用于從廣告系統(tǒng)溢價(jià)列表模塊250獲得的溢價(jià)列表404的部分,其允許系統(tǒng)200的主機(jī)來通過給企業(yè)搜索雇主提供機(jī)會(huì)來使用系統(tǒng)200作為收益增強(qiáng)工具,該機(jī)會(huì)是讓企業(yè)搜索雇主來付出額外費(fèi)用來使得他們的職位列表獲得在呈現(xiàn)給求職者207的用戶接口400的結(jié)果部分中的更突出位置。
用戶接口400還優(yōu)選地包括第二子部分406,該第二子部分406呈現(xiàn)來自付費(fèi)職位搜索區(qū)252的搜索結(jié)果。第三子部分408呈現(xiàn)非溢價(jià)算法的搜索結(jié)果,該非溢價(jià)算法的搜索結(jié)果是對(duì)抓取搜索區(qū)246進(jìn)行搜索的直接結(jié)果。第四部分410提供來自序曲系統(tǒng)內(nèi)容匹配模塊254的更通常的付費(fèi)鏈接。最終,可以根據(jù)對(duì)于廣告系統(tǒng)溢價(jià)列表模塊250的搜索,來顯示若干廣告409。
抓取包括圖15所示的以下部分Kelkoo Sniffer 220;搜索網(wǎng)站202以尋找職位的一系列代理1502,優(yōu)選地為MySQL數(shù)據(jù)庫(kù),例如暫存數(shù)據(jù)庫(kù)222,以存儲(chǔ)抓取的職位和代理日志;以及Runner腳本1504,由PALM系統(tǒng)100中的代理/站點(diǎn)管理模塊124來管理該Runner腳本1504以運(yùn)行代理1502。
下面是數(shù)據(jù)流如何優(yōu)選地通過系統(tǒng)200中的抓取場(chǎng)220的概述。在抓取周期開始時(shí),在整個(gè)數(shù)據(jù)庫(kù)12的另一部分也就是已加工數(shù)據(jù)庫(kù)236中的“job_current”表626被截取,并且將該表626的內(nèi)容復(fù)制到存檔表(未示出)。優(yōu)選地僅僅將抓取職位的存檔存儲(chǔ)有限的時(shí)間(例如7天)。
在抓取引擎220中的Kelkoo“Sniffer”是Java程序,該程序被用于運(yùn)行適配器(也叫做代理1502)。抓取引擎220經(jīng)由代理1502對(duì)職位版202進(jìn)行抓取。每個(gè)代理1502優(yōu)選地由三個(gè)文本文件組成agent.info、agent.props以及agent.sql。使用單個(gè)代理來抓取單個(gè)網(wǎng)站。將代理文件存儲(chǔ)在代理專用目錄中。然后,代理1502將抓取得到的職位轉(zhuǎn)儲(chǔ)到“職位”表(注意可以有幾個(gè)職位表)1506中,圖15中示出了兩個(gè)職位表。Runner 1504將來自“職位”表1506的職位記錄復(fù)制到“job_current”表626中。Runner 1504下游的部件例如質(zhì)量管理器模塊142和分類器模塊132和140接收職位記錄的副本并在job_current表626中的記錄上執(zhí)行質(zhì)量管理和分類操作,job_current表626優(yōu)選為已加工數(shù)據(jù)庫(kù)236的一部分。然后將結(jié)果傳遞到圖2所示的已加工數(shù)據(jù)庫(kù)236。
Kelkoo Sniffer搜索引擎220將代理1502考慮為虛擬SQL表格。在代理的sql文件中限定了虛擬表格的模式。Info文件是Sniffer搜索引擎220相對(duì)于虛擬表格運(yùn)行的SELECT聲明。Props文件包含用來填充虛擬表格的抓取邏輯。抓取邏輯是由不同的過濾器執(zhí)行的步驟序列。過濾器是構(gòu)成適配器開發(fā)包(ADK)的Java類。順序地執(zhí)行過濾器,并且過濾器可以讀取變量以及將變量寫入到通用上下文中。具有過濾器以在html頁(yè)中尋找字符串或模式并保存該字符串或模式;操縱上下文的變量;在重復(fù)出現(xiàn)的模式上循環(huán)并且執(zhí)行循環(huán)中的其他過濾器;轉(zhuǎn)到由URL識(shí)別的頁(yè)面以及檢索其內(nèi)容等。
代理1502的輸出是包含對(duì)于每個(gè)抓取的職位的SQL INSERT聲明的文本文件。Sniffer搜索引擎220使用該數(shù)據(jù)文件來將抓取的職位記錄加載到稱為“職位”(實(shí)際的表格名為配置參數(shù))的MySQL表格1506中。經(jīng)由多個(gè)命令行參數(shù)和在命令行上載入的任何數(shù)量的屬性文件來配置Sniffer 220。Sniffer搜索引擎220的最重要的配置參數(shù)為MySQL數(shù)據(jù)庫(kù)的名稱、數(shù)據(jù)庫(kù)用戶名和口令、將抓取的記錄轉(zhuǎn)儲(chǔ)在里面的表格的名稱、以及通往代理請(qǐng)求文件的路徑、以及包含代理1502的目錄。
Sniffer搜索引擎220優(yōu)選是單線程的其每次加載和運(yùn)行一個(gè)代理1502。在運(yùn)行代理1502之后,Sniffer搜索引擎220利用關(guān)于以下的信息向“報(bào)告”表格1508插入記錄運(yùn)行時(shí)間、代理1502的名稱和路徑、抓取記錄(職位)的數(shù)量以及可能的錯(cuò)誤。
將代理文件存儲(chǔ)在CVS儲(chǔ)存庫(kù)中。利用特定的CVS標(biāo)記來標(biāo)記已經(jīng)通過QA的代理1502的版本。這種機(jī)制允許代理開發(fā)者、測(cè)試者和生產(chǎn)系統(tǒng)來在相同的子目錄上工作,從而避免在生產(chǎn)中運(yùn)行未被測(cè)試過的代理。
代理運(yùn)行器1504是為系統(tǒng)200開發(fā)的Per1腳本。運(yùn)行器1504要求可以在本地文件系統(tǒng)上使用代理文件。在起動(dòng)運(yùn)行器1504之前,將本地CVS子目錄與生產(chǎn)標(biāo)記同步,從而下載要運(yùn)行的所有代理文件。運(yùn)行器1504執(zhí)行以下的步驟 1.其讀取其配置文件。這包含要運(yùn)行的代理1502的列表。每個(gè)運(yùn)行器具有作為配置的一部分被載入的id。
2.其基于其自身的配置生成用于Sniffer 220的配置文件。
3.其從job_current表格626刪除屬于要運(yùn)行的代理1502的所有記錄(因?yàn)閮?yōu)選每天要截取job_current表格626,所以在多數(shù)情況下是非必需的)。
4.其激活運(yùn)行代理1502的Sniffer搜索引擎220。
5.其優(yōu)選地處理在職位表格中的每個(gè)記錄,以從html標(biāo)記剝除職位描述。每個(gè)運(yùn)行器具有其“自身的”職位表格1506,使用運(yùn)行器的id(例如“job1”)來生成該職位表格1506的名稱。
6.其將來自職位表格1506的所有記錄轉(zhuǎn)儲(chǔ)到j(luò)ob_current表格626。職位記錄包含運(yùn)行器的id,該id幫助下游部件來容易地識(shí)別來自特定運(yùn)行器1504的記錄。
7.其將運(yùn)行代理的匯總寫入到其日志文件。分別地經(jīng)由對(duì)于職位表格1506、job_current表格626和報(bào)告表格1508的詢問來檢索該信息。
8.最終,其經(jīng)由ssh調(diào)用質(zhì)量管理器管理模塊124,從而其可以在獨(dú)立的機(jī)器上執(zhí)行。將運(yùn)行器1504的id傳遞到數(shù)據(jù)凈化器任務(wù)138、數(shù)據(jù)去重復(fù)任務(wù)139、質(zhì)量管理器任務(wù)142、分類任務(wù)140的每一個(gè),以致于當(dāng)主任務(wù)調(diào)度程序131要求這些任務(wù)來處理記錄時(shí),每個(gè)任務(wù)都知道要處理來自job_current表格626的哪個(gè)記錄。
PALM系統(tǒng)100控制和管理從輸入部分201到輸出部分205的吞吐量。優(yōu)選地一天一次或者以一些其他預(yù)定的時(shí)間間隔,指示一個(gè)或多個(gè)PALM列表管理器104來訪問暫存數(shù)據(jù)庫(kù)222中的數(shù)據(jù)、處理該數(shù)據(jù)并且在輸出部分205中更新搜索區(qū)246和252。因?yàn)榭赡芤幚順O大量的數(shù)據(jù),所以PALM系統(tǒng)100典型地包括許多PALM列表管理器104,每個(gè)PALM列表管理器104相對(duì)獨(dú)立地在來自暫存數(shù)據(jù)庫(kù)222的數(shù)據(jù)上進(jìn)行操作。
系統(tǒng)100可以包括許多PALM列表管理器模塊104,所有PALM列表管理器模塊104基本上獨(dú)立地以及并行地操作,每個(gè)PALM列表管理器模塊104在數(shù)據(jù)拆分任務(wù)中首先指定給該特定管理器的運(yùn)行器號(hào)的數(shù)據(jù)上進(jìn)行工作。PALM列表管理器104接收來自配置生成器158的配置信息。配置生成器158將運(yùn)行器號(hào)指定給系統(tǒng)200中可用的PALM列表管理器104。
每個(gè)PALM列表管理器104接收來自PALM元數(shù)據(jù)數(shù)據(jù)庫(kù)238的元數(shù)據(jù),以及將元數(shù)據(jù)存儲(chǔ)到PALM元數(shù)據(jù)數(shù)據(jù)庫(kù)238,該P(yáng)ALM元數(shù)據(jù)數(shù)據(jù)庫(kù)238優(yōu)選地是整個(gè)分布式數(shù)據(jù)庫(kù)12的一部分。優(yōu)選地如圖18所示共享該數(shù)據(jù)庫(kù)12。例如,機(jī)器1的PALM列表管理器104取得來自例如暫存數(shù)據(jù)庫(kù)222的輸入1802,執(zhí)行任務(wù)A,并生成任務(wù)輸出1804。例如,然后將該任務(wù)A的輸出1804輸入到任務(wù)B。同時(shí),可以將該任務(wù)A的輸出1804臨時(shí)地存儲(chǔ)在暫存數(shù)據(jù)庫(kù)222中。并且,將任務(wù)B的輸出1808適當(dāng)?shù)嘏R時(shí)存儲(chǔ)在暫存數(shù)據(jù)庫(kù)222或元數(shù)據(jù)數(shù)據(jù)庫(kù)238中,從而由在該例子機(jī)器2中的其他PALM列表管理器104的一個(gè)使用。機(jī)器2按照需要,將機(jī)器2所需要的如果在暫存數(shù)據(jù)庫(kù)222中不可得到的輸入1808從元數(shù)據(jù)數(shù)據(jù)庫(kù)238拉入,以執(zhí)行任務(wù)C。可以相似地將任務(wù)C的輸出1812回存在數(shù)據(jù)庫(kù)222或238中,用于另一列表管理器的任務(wù)的使用。通過使用該機(jī)制來臨時(shí)地鏡像數(shù)據(jù),多個(gè)操作PALM列表管理器104不一定需要排隊(duì)等待其他列表管理器104來完成它們的任務(wù)。以這種方式,可以增加整個(gè)處理的吞吐量。
在系統(tǒng)200中的PALM系統(tǒng)100中的每個(gè)PALM列表管理器104具有主任務(wù)調(diào)度程序131,該主任務(wù)調(diào)度程序131控制任務(wù)堆棧以在通過因特網(wǎng)112訪問的多個(gè)站點(diǎn)抓取的數(shù)據(jù)以及通過RSS提要214、XML提要216、網(wǎng)絡(luò)服務(wù)SOAP 212和/或雇主/招聘者應(yīng)用程序206從客戶站點(diǎn)210和其他源獲得的職位信息數(shù)據(jù)集上進(jìn)行操作。在圖2所示的實(shí)施例中,關(guān)于雇用列表和職位搜索應(yīng)用程序,這些列表數(shù)據(jù)集的每個(gè),不管從哪里獲得,最初都被存儲(chǔ)在暫存數(shù)據(jù)庫(kù)222中。PALM系統(tǒng)100在暫存數(shù)據(jù)庫(kù)222中的數(shù)據(jù)上操作,并使用中間PALM元數(shù)據(jù)存儲(chǔ)器238,將該數(shù)據(jù)傳遞到已加工的、被凈化以及分類的數(shù)據(jù)庫(kù)236。一旦職位列表數(shù)據(jù)集被加工,則將該數(shù)據(jù)集傳遞到輸出部分205,尤其是填充搜索區(qū)246和252。
在圖5中示出每個(gè)由PALM主任務(wù)調(diào)度程序131控制的n個(gè)PALM列表管理器104的每個(gè)中的基本處理流程操作。操作流程始于初始化操作502,在該操作502處,PALM系統(tǒng)100根據(jù)預(yù)定的進(jìn)度表來開始其處理周期。首先,PALM系統(tǒng)100確定哪個(gè)列表管理器104將處理什么任務(wù)。
一旦由配置管理器158指定特定PALM列表管理器104來處理一塊或一批數(shù)據(jù)集,則PALM主任務(wù)調(diào)度程序131控制操作504到510。然后,如下面參考操作512到528所述的那樣,每個(gè)相應(yīng)的單獨(dú)任務(wù)管理器138、139、140、142和144將以并行線程處理暫存數(shù)據(jù)庫(kù)222中的數(shù)據(jù)集。
控制轉(zhuǎn)到操作504,以開始將暫存數(shù)據(jù)庫(kù)222中的數(shù)據(jù)集分配到可用的PALM任務(wù)線程。這是在數(shù)據(jù)拆分器任務(wù)模塊133中管理和執(zhí)行的數(shù)據(jù)拆分任務(wù)。在操作508中,將數(shù)據(jù)拆分任務(wù)133的輸出數(shù)據(jù)連同數(shù)據(jù)被分配到的對(duì)應(yīng)PALM任務(wù)線程的運(yùn)行器號(hào)返回到暫存數(shù)據(jù)庫(kù)。
數(shù)據(jù)拆分任務(wù)133首先檢測(cè)如由配置生成器158確定的可用PALM任務(wù)線程數(shù)量1-n是否有配置變化。如果有變化,則將來自抓取場(chǎng)和其他源的暫存數(shù)據(jù)再散列到新分組中。如果沒有變化,則僅僅評(píng)估最新添加的數(shù)據(jù)集。數(shù)據(jù)拆分任務(wù)基于職位名稱、公司和職位狀態(tài)字段的ASCII的散列,來對(duì)列表數(shù)據(jù)集進(jìn)行拆分。該散列特別地是((ascii(jobtitle)+ascii(jobcompany)+ascii(jobstatel))%NUM_CK_RUNNERS)))))),其中,NUM_CK_RUNNERS是如有配置生成器158確定的可用的PALM線程的數(shù)量。數(shù)據(jù)拆分任務(wù)的子例程是使用均勻散列函數(shù),該均勻散列函數(shù)總是將相同的職位拆分到相同的“散列表元”中,以致于由相同的線程來處理相同的數(shù)據(jù)記錄例如職位列表。
然后控制轉(zhuǎn)到詢問操作510。在詢問操作510中,做出在暫存數(shù)據(jù)庫(kù)222中是否有沒有被分配PALM任務(wù)線程的另一條目的詢問。如果答案為是,控制轉(zhuǎn)回到操作504,這里從暫存數(shù)據(jù)庫(kù)檢索下一個(gè)列表數(shù)據(jù)集并對(duì)其進(jìn)行檢查。如果答案為否,則不再有要拆分的數(shù)據(jù)集,并且將控制轉(zhuǎn)到操作512。
在具有對(duì)應(yīng)于在特定PALM任務(wù)管理器104中將數(shù)據(jù)集分配給其的線程的運(yùn)行器ID的每個(gè)數(shù)據(jù)集上,優(yōu)選地并行地由PALM任務(wù)管理器的每個(gè)來優(yōu)選地執(zhí)行操作512到528。
在操作512中,主任務(wù)調(diào)度程序131利用其運(yùn)行器ID號(hào)來拉出第一暫存數(shù)據(jù)庫(kù)條目,以及執(zhí)行由數(shù)據(jù)凈化器任務(wù)管理器138管理的數(shù)據(jù)凈化任務(wù)。數(shù)據(jù)凈化任務(wù)管理器138線程從暫存數(shù)據(jù)庫(kù)222拉出完整的數(shù)據(jù)記錄,以及去除所有的格式化,以致于每個(gè)職位列表數(shù)據(jù)集采用相同的格式以及內(nèi)容結(jié)構(gòu)。特別地,任務(wù)從數(shù)據(jù)字段剝除所有HTML標(biāo)記,驗(yàn)證美國(guó)州名并放入2字母州代碼。對(duì)于國(guó)際列表,其放入適當(dāng)?shù)膰?guó)際位置縮寫(省/地區(qū))。凈化任務(wù)線程檢查URL以確保其始于“http:”或“https:”。接著,該任務(wù)剝除所有褻瀆詞、驗(yàn)證數(shù)據(jù)字段、檢查在每個(gè)字段中的無效字符例如在城市字段中的所有數(shù)字。該任務(wù)還檢查在字段中的詞的最大數(shù)量。例如,城市名中不能有15個(gè)詞。該任務(wù)還將國(guó)家名放入3字母國(guó)家代碼格式中,校正在例如職位標(biāo)題、描述的字段中的拼寫。最終,該任務(wù)提供正確的基本標(biāo)點(diǎn)例如大寫句子中的首字母以及兩個(gè)空格從而開始每個(gè)新的句子。
一旦在線程中已經(jīng)在職位列表數(shù)據(jù)集上執(zhí)行了數(shù)據(jù)凈化任務(wù)線程,則在操作514中將列表返回到暫存數(shù)據(jù)庫(kù)222。控制然后轉(zhuǎn)到詢問操作516。在詢問操作516中,詢問是否有另外的具有該P(yáng)ALM主任務(wù)調(diào)度程序131的運(yùn)行器ID的數(shù)據(jù)集。如果有,則控制傳送回到操作512并且檢索和凈化下一個(gè)數(shù)據(jù)集。如果沒有,則控制轉(zhuǎn)到操作518。
在操作518中,從暫存數(shù)據(jù)庫(kù)222檢索數(shù)據(jù)集并將該數(shù)據(jù)集發(fā)送到去重復(fù)模塊139中的列表級(jí)去重復(fù)任務(wù)1200。在圖12中示出了列表級(jí)去重復(fù)任務(wù)。在以下的暫存表格、已加工數(shù)據(jù)表格和去重復(fù)表格中示出了表格條目的示例性集。
暫存表格1 已加工表格2 已加工表格3 首先,去重復(fù)任務(wù)1200在已加工數(shù)據(jù)表格2中尋找暫存表格1中的行1。行1在那里。因此忽略行1。然后將暫存表格中的行2與已加工數(shù)據(jù)庫(kù)進(jìn)行比較,以看看行2是否在該已加工數(shù)據(jù)庫(kù)里。行2不在該已加工數(shù)據(jù)庫(kù)里。因此,將已加工數(shù)據(jù)表格2的行2添加到去重復(fù)的已加工數(shù)據(jù)表格3中。接著,對(duì)于在暫存數(shù)據(jù)庫(kù)中的每個(gè)和每一個(gè)條目重復(fù)相同的過程。當(dāng)該忽略或添加的過程已經(jīng)完成之后,將與運(yùn)行器號(hào)2相關(guān)聯(lián)的已加工數(shù)據(jù)表格2的行與暫存表格1進(jìn)行比較,以確定在暫存數(shù)據(jù)庫(kù)中是否有不在已加工數(shù)據(jù)庫(kù)表格2中的任何運(yùn)行器2行。在該例子中,在已加工表格2中的第三條目不在暫存表格1中。因此刪除該條目也就是總經(jīng)理行。結(jié)果是每天一次或者每由系統(tǒng)管理者限定的時(shí)期一次地,再生和驗(yàn)證去重復(fù)已加工數(shù)據(jù)庫(kù)。
在圖12中示出去重復(fù)任務(wù)過程的更大體的圖。當(dāng)已經(jīng)在具有存儲(chǔ)在暫存數(shù)據(jù)庫(kù)中的線程運(yùn)行器ID的數(shù)據(jù)集上完成了數(shù)據(jù)拆分任務(wù)和凈化任務(wù)時(shí),調(diào)用過程1200??刂剖加诓僮?202,這里,完成去重復(fù)模塊139的初始化。然后,控制轉(zhuǎn)到操作1204,這里,檢索暫存數(shù)據(jù)庫(kù)222中的第一行并相對(duì)于在已加工數(shù)據(jù)庫(kù)236中的行條目來檢查該第一行??刂妻D(zhuǎn)到詢問操作1206。
在詢問操作1206中,做出這樣的詢問在已加工數(shù)據(jù)庫(kù)中是否有相同的行。如果有,則控制轉(zhuǎn)到操作1208,刪除被檢查的暫存行。然后,控制轉(zhuǎn)回到操作1204,這里,檢索和檢查在暫存數(shù)據(jù)庫(kù)中的下一行。然而,如果在詢問操作1206中的答案為否,則在已加工數(shù)據(jù)庫(kù)236中沒有相同的行,然后在操作1210中將該行添加到已加工數(shù)據(jù)庫(kù)中。然后,控制轉(zhuǎn)到詢問操作1212,做出這樣的詢問是否還有暫存數(shù)據(jù)庫(kù)行。如果是,則控制轉(zhuǎn)回到操作1204,這里,檢索下一個(gè)暫存數(shù)據(jù)庫(kù)行,并且重復(fù)該過程。如果否,那么已經(jīng)檢查了最后一個(gè)暫存數(shù)據(jù)庫(kù)行,然后控制轉(zhuǎn)到詢問操作1214。
在詢問操作1214中,將具有相同運(yùn)行器ID的在已加工數(shù)據(jù)庫(kù)236中的行與暫存數(shù)據(jù)庫(kù)中的條目進(jìn)行比較。如果在已加工數(shù)據(jù)庫(kù)中具有在暫存數(shù)據(jù)庫(kù)中沒有的任何相同運(yùn)行器ID行,則從已加工數(shù)據(jù)庫(kù)中刪除這些行。這樣做的理由是,如果暫存數(shù)據(jù)庫(kù)不具有該職位列表,則該列表一定已經(jīng)由雇主拉出或者填充,并因此被從電子公告板或職業(yè)列表去除,并因此不再是對(duì)于求職者的有效職位機(jī)會(huì),并因此在該就業(yè)機(jī)會(huì)系統(tǒng)中沒有用處。另一方面,如果在已加工數(shù)據(jù)庫(kù)236中的所有相同運(yùn)行器ID行都在暫存數(shù)據(jù)庫(kù)222中,那么全部都是最新的,并且控制轉(zhuǎn)到返回操作1218。
既然PALM主任務(wù)調(diào)度程序131已經(jīng)通過拆分任務(wù)、凈化任務(wù)和去重復(fù)任務(wù)訪問了數(shù)據(jù)集,以及現(xiàn)在針對(duì)特定的數(shù)據(jù)集對(duì)于已加工數(shù)據(jù)庫(kù)236進(jìn)行去重復(fù),所以將輸入到已加工數(shù)據(jù)庫(kù)236的內(nèi)容中的每個(gè)新條目提交給分類任務(wù)522和質(zhì)量管理器任務(wù)524。下面參考圖6和7來描述分類任務(wù)。參考圖13來描述質(zhì)量管理器任務(wù)。
通過抓取引擎218獲得的抓取職位不具有類別分配,例如會(huì)計(jì)、銀行業(yè)、工程、醫(yī)學(xué)、牙科等。為了讓我們支持求職者最熟悉的“按類別瀏覽”特征,很多人類分類員需要花費(fèi)大量時(shí)間來手動(dòng)地對(duì)抓取到的職位進(jìn)行分類。然而,這具有很多缺點(diǎn)。這是很耗時(shí)的過程。到手動(dòng)分類了職位的時(shí)候,職位可能已經(jīng)過期了。這樣的過程需要很多人力資源。此外,不同分類員可能不以相同的一致的方式進(jìn)行分類。為此,PALM系統(tǒng)200包括圖6所示的自動(dòng)職位分類系統(tǒng)600。該系統(tǒng)600能夠在幾分之一秒中對(duì)職位進(jìn)行分類。這充分快于人類分類員,并且系統(tǒng)600的分類是一致的。
該職位分類系統(tǒng)600包含幾個(gè)模塊。職位分類(職位分類)服務(wù)模塊602執(zhí)行實(shí)際的分類例程。利用圖1描述的職位分類引擎模塊140管理在已加工數(shù)據(jù)庫(kù)236中的Job_current表格626、手動(dòng)類別數(shù)據(jù)庫(kù)628以及職位類別(類別)服務(wù)模塊602之間的通信。使用由類別查看模塊132執(zhí)行的分類訓(xùn)練過程606來提高和/或維持職位分類服務(wù)602的精確度級(jí)。該分類訓(xùn)練過程606包括使用職位分類手動(dòng)查看接口模塊132和分類專家,這些分類專家具有經(jīng)由圖1A所示的企業(yè)內(nèi)部網(wǎng)116的接入。
如上所述,一旦已經(jīng)對(duì)抓取的職位進(jìn)行了凈化和去重復(fù),則將這些抓取的職位添加到已加工數(shù)據(jù)庫(kù)236中的MySQL job_current表格626中,然后,職位分類過程600將從job_current表格626取得每個(gè)職位,并通過職位分類控制過程模塊622將該職位發(fā)送到職位分類服務(wù)模塊602,以得到類別和置信度分配。然后,將抓取的職位發(fā)送回分類控制過程模塊622并將抓取的職位返回到j(luò)ob_current表格626。然而,如果職位落到預(yù)定置信度閾值以下,則該職位被標(biāo)記也就是標(biāo)記集,以及當(dāng)該職位通過分類控制過程模塊622時(shí),還將副本發(fā)送到手動(dòng)分類數(shù)據(jù)庫(kù)628,用于經(jīng)由手動(dòng)查看接口模塊132進(jìn)行手動(dòng)查看。然后,由分類訓(xùn)練過程606使用在查看模塊132中執(zhí)行的手動(dòng)查看過程的結(jié)果,以調(diào)整新的職位分類服務(wù)值來代替舊的值。將分類的結(jié)果寫回到j(luò)ob_current表格626,有時(shí)候?qū)懟氐绞謩?dòng)分類表格628。手動(dòng)查看模塊132提供UI以查看在job_current和手動(dòng)分類表格中的職位。
圖7是職位分類過程600的實(shí)現(xiàn)的操作流程圖。當(dāng)已經(jīng)執(zhí)行了職位抓取序列時(shí),該過程始于操作702??刂妻D(zhuǎn)到操作704。在操作704中,從job_current表格626檢索下一個(gè)職位的職位屬性,并且適當(dāng)?shù)馗袷交毼幻枋觥H缓髮⒃撀毼粚傩詡魉偷铰毼环诸惙?wù)602,以找到適當(dāng)?shù)念悇e。然后控制轉(zhuǎn)到操作706,這里,將職位類別和該分類的置信度與職位進(jìn)行配對(duì)。然后,控制轉(zhuǎn)到詢問操作708。
詢問操作708詢問在手動(dòng)分類表格中是否存在針對(duì)最近的特定職位描述的匹配URL。如果存在,則控制轉(zhuǎn)到操作710。如果不存在,則該職位是新的職位,并且控制轉(zhuǎn)到操作716。
在操作710中,在具有相同URL的最后職位上執(zhí)行字符串比較例程。然后控制轉(zhuǎn)到詢問操作712。詢問操作712詢問在手動(dòng)分類表格628中的列表是否和正在被檢查的當(dāng)前職位相同。如果職位字符串比較是相同的,則答案為是,因?yàn)樵撀毼豢雌饋硎窍嗤穆毼?,所以控制轉(zhuǎn)到操作714。另一方面,如果答案為否,則職位是新的,并且控制再次轉(zhuǎn)到操作716。
詢問操作714詢問dcp_cat是否與具有相同URL的最近職位的man_cat匹配。如果答案為是,則將man_cat和dcp_cat設(shè)置為相等,并且將dcp_cat置信度設(shè)置為等于1。職位參數(shù)返回給job_current表格626,并且控制轉(zhuǎn)到詢問操作718。詢問操作718詢問在job_current表格中是否還有要分類的抓取職位。如果否,則控制轉(zhuǎn)到返回操作720。如果還有要分類的抓取職位,則控制轉(zhuǎn)回到操作704,并且檢索和格式化下一個(gè)職位的職位參數(shù)。
回到詢問操作708,如果在手動(dòng)分類表格中不存在該URL,則控制轉(zhuǎn)到操作716。在操作716中,設(shè)置Dcp_cat和dcp_confidence,并且相對(duì)于已經(jīng)預(yù)定的閾值來檢查置信值,如果閾值大于置信值,則將review_flag設(shè)置為等于1。然后,將職位參數(shù)傳送到j(luò)ob_current表格626,并且再次,控制轉(zhuǎn)到詢問操作718。
回到詢問操作714,如果當(dāng)前職位具有在手動(dòng)分類表格628中的URL,該職位與具有相同URL的最近的職位相同,但是最近職位的dcp_cat和an_cat不匹配,則可能發(fā)生了錯(cuò)誤或故障,并且將職位參數(shù)傳給操作724和726。操作724設(shè)置dcp_cat、dcp_confidence的值,將expert_review flag設(shè)置為等于1,并且將該數(shù)據(jù)饋給到j(luò)ob_current表格626。操作726將expert_review flag設(shè)置為等于1,并且將該職位的參數(shù)的副本發(fā)送到手動(dòng)分類數(shù)據(jù)庫(kù)628,以致于將執(zhí)行手動(dòng)查看。并行地,如前所述,控制再次轉(zhuǎn)到詢問操作718。
因此,對(duì)于每個(gè)職位,職位分類控制過程從job_current表格取得職位屬性,對(duì)它們進(jìn)行格式化,并將它們發(fā)送到職位分類服務(wù)(由被稱為Apache的公知公共域例程管理,method=POST),取回類別和置信度得分,通過決策問題的鏈,并且將結(jié)果寫回到表格中。
職位分類服務(wù)602還提供網(wǎng)絡(luò)UI,該網(wǎng)絡(luò)UI允許管理員和系統(tǒng)操作員來輸入職位(至少職位描述)并且將該職位提交給職位分類服務(wù),用于與系統(tǒng)100的正常操作分開地進(jìn)行分類。在圖8中示出了這樣的示例性用戶接口800。
職位分類服務(wù)模塊602依賴公知的網(wǎng)絡(luò)服務(wù)器Apache來進(jìn)行圖6所示的分類訓(xùn)練過程606。職位分類服務(wù)602包含作為PHP擴(kuò)展的共享庫(kù)并且還包括分類庫(kù)的二進(jìn)制軟件包。構(gòu)建職位分類服務(wù)602首先需要職位類別和相關(guān)聯(lián)的獨(dú)特ID號(hào)的一組基本定義也就是分類法608。在以下的表1中示出了示例性定義組。
表1 訓(xùn)練職位描述也就是訓(xùn)練數(shù)據(jù)610的示例性表格與表1中的每個(gè)類別相關(guān)聯(lián)。使用該組描述加上手動(dòng)分類數(shù)據(jù)庫(kù)628的內(nèi)容來指導(dǎo)服務(wù)從預(yù)分類提供的職位描述參數(shù)識(shí)別分類。該表格的例子在以下的表2中示出。
表2 對(duì)于新的訓(xùn)練會(huì)話,優(yōu)選使用來自該表格中的職位以及在手動(dòng)分類表格中的那些職位。隨著越來越多的手動(dòng)查看的職位變得可用,優(yōu)選最后刪除來自只讀數(shù)據(jù)庫(kù)的原始訓(xùn)練集。
在優(yōu)選的實(shí)施例中,該表2的列與手動(dòng)分類表格不同,并且該不同將維持,以及創(chuàng)建訓(xùn)練文件的腳本將進(jìn)行所有需要的映射。訓(xùn)練過程606由幾個(gè)PEARL腳本組成?!癱reate-training-file.pl”腳本從手動(dòng)分類表格628和訓(xùn)練數(shù)據(jù)表格610取得職位,并且以DCP可接受格式來寫出包含所有職位的文件,以生成合并的訓(xùn)練數(shù)據(jù)612。使用“train-hj-dcp.pl”腳本來調(diào)整一些對(duì)于分類最有用的參數(shù)。指定的每個(gè)配置將留下包含構(gòu)建職位分類服務(wù)數(shù)據(jù)分組所需要的所有參數(shù)以及日志文件的輸出目錄。“parse-training-log.pl”腳本讀取由train-hj-dcp.pl生成的每個(gè)日志文件并生成關(guān)于每個(gè)配置的精確度的報(bào)告。使用“archive-training-results.pl”腳本來在使用配置用于調(diào)度之后對(duì)該配置的訓(xùn)練結(jié)果進(jìn)行存檔。
訓(xùn)練過程614基本上是手動(dòng)過程,其從訓(xùn)練數(shù)據(jù)612提取分類法608以及規(guī)則和模式集616。還可以使用多種詞典和調(diào)整參數(shù)620。結(jié)果包括利用被提供到圖6所示的職位分類服務(wù)602中的結(jié)果來對(duì)新分類器參數(shù)620進(jìn)行優(yōu)化。因?yàn)橛?xùn)練過程614主要是手動(dòng)的,所以優(yōu)選在幾個(gè)參數(shù)上進(jìn)行訓(xùn)練,手動(dòng)地檢查結(jié)果例如分類的詳細(xì)頁(yè)面、特征項(xiàng)權(quán)重等,以及手動(dòng)地改變一些規(guī)則和詞典,并且以不同配置重復(fù)該過程,從而找到用于調(diào)度的最佳設(shè)置。當(dāng)獲得這樣的最佳配置時(shí),將新分類器參數(shù)620傳送到職位分類服務(wù)602。一旦建立和運(yùn)行該職位分類服務(wù)602,則可以如上所述處理抓取的職位。
以下的討論提供了使用示例性職位分類過程的本公開的列表分類過程的詳細(xì)解釋。
在示例性詞法分析中,處理三個(gè)文本字段(1)名稱,(2)職位描述以及(3)公司類別。Lexer(詞法分析模塊)可以執(zhí)行以下的處理步驟 1.將通用的HTML字符實(shí)體參引用它們對(duì)應(yīng)的ASCII字符來替代。
2.然后,通過將任何非字母數(shù)字字符作為分隔符處理(單引號(hào)被作為字母數(shù)字字符處理),來將文本字段拆分為字符串。
3.對(duì)所有字符串進(jìn)行職位名稱測(cè)試。將職位名稱限定為滿足regex
*[A-Z]+[A-Z0-9]*的任何字符串。將所有字符串還原到小寫字體。
4.使用Porter詞干提取器(stemmer)來對(duì)所有字符串提取詞干(M.F.Porter.“An algorithm for suffix stripping”,Program,14(3)130-137,1980.Reprinted in Sparck Jones,Karen,and PeterWillet,1997,Readings in Information Retrieval,San FranciscoMorganKaufmann,ISBN 1-55860-454-4,這里表示為“Porter”) 5.使用停止詞的預(yù)定列表來從文本字段中過濾掉非常常見的特征。完全由數(shù)字組成的字符串也被去除。
停止詞的例子為 job descriptionbe able right candidate qualified applicants job id your resume qualified candidate interested candidate job title seeking equal opportunity interested candidates job summarybe considered eoe interested applicants such ascan enjoy qualified candidatesduties currently seeking ideal candidate contact information focused on are seekingideal candidates remain emphasis on click here successful candidate find outdepending on selected candidate further information come join are met highly desired should forwardplease note follow through strongly desired without regardplease sent work closely strongly preferred subject line please indicate board range strong online below please submit wide range preferred listed below please visitwide variety are encouraged when applying primary responsibility conjunction with button below when submitting word attachment make sure be contacted contact us 一些二元語(yǔ)法(兩詞短語(yǔ))被檢測(cè)為單個(gè)標(biāo)記。在分類中還使用更高階的n-元語(yǔ)法。
以下的為例子 human resources at least self startertuition reimbursement equal opportunity power point accounts payablecustomer service pay rateclick here seque appli positively impacting problem solving ajilonfinance comfunct subfu human resource dv boehringer ingelheim registered trademarkSan Francisco more than immediatelos angeles award winning united states considerationfull time decision making cover letternew york spiritedmetropolitan area ideal candidate track record entrepreneurial credit union long term stock purchase bames noble benefits package job description loss prevention ad hoc wide range job title ag 2002 wild kingdommulti task job summary ajilon finance voice messaging sarbanes oxley duties fortune 500 affirmative action p sou air force fastest growing iras cancer valid driver kaiser permanente general ledger tuition assistance deutsche telekomreal estate test plans journal entries 從這些步驟得到的每個(gè)獨(dú)特的字符串構(gòu)成獨(dú)特的標(biāo)記。對(duì)某些標(biāo)記添加額外權(quán)重并且在weight.dict文件中跟蹤這些標(biāo)記。這里是文件的職位特定樣本 general ledger 2per week 3technical sales 3development inpatient 2 nurse 3 planning analyst 2 lifecycles 2 outpatient 2registered nurse 3budget planning 3operating systems 2 claims adjusting 3 human resource 3 financial planning 3 programming estimate damage 3 college degree 3 financial statements 3 languages 3 ASIC design 3 hs degree 3 financial reports 3business skills 2 logic design 3 systems administrator corporate tax 3communication residential purchase3 worker compensationdisorders 2 3 accounts receivable 3 3 speech language 2 refinance products 3accounts payable 3 business speech therapy 2 mortgage products 3 fixed assets 3 development 3 speech pathology 2 mortgage loan 4 medical terminology 3 market development speech therapist 2 mortgage brokers 3 legal terminology 3 3 speech pathologist 2 mortgage lender 3 public relations 3 trade shows 4 switchboard 2 call center 3 product marketing 3 forklift operator 2telephone skills 2 customer service 3 clinical research 3 forklift certified 2 blood drives 2 answers telephone 3 clinical trials 3 food service 3 blood centers 2 inventory control 3 clinical data 3 real estate 3 plasmapheresis quality assurance 3 direct sales 3 social services 4 process 2 object oriented 4 internet publishing2 hlebotomist 2 對(duì)應(yīng)于每個(gè)文本標(biāo)記的“特征”可以僅僅是在文檔中標(biāo)記的每文檔出現(xiàn)次數(shù)??梢詫?duì)每個(gè)標(biāo)記實(shí)例分配權(quán)重,該權(quán)重取決于該標(biāo)記實(shí)例從其提取的字段以及可取決于在字段中的該特征的位置。特別地,人們可以在將來自名稱和公司類別的標(biāo)記數(shù)添加到總數(shù)之前,將該標(biāo)記數(shù)乘以2??梢圆蛔兊氐玫矫枋鲰?xiàng)數(shù)。人們可以實(shí)現(xiàn)的職位相關(guān)的規(guī)則為嘗試加重名稱的最后詞的權(quán)重,從而找到在名詞短語(yǔ)(也就是名稱)中的主要名詞,其可以導(dǎo)致精確度的稍微增加。
人們還可以使用標(biāo)記特征聚類(例如分布式聚類),其中幾個(gè)標(biāo)記(單個(gè)集群的成員)被作為相同的標(biāo)記進(jìn)行處理。
如上所述,職位記錄可以包含不是自由文本的字段。它們可以包括 (1)公司id以及(2)薪酬以及其他。其中使用這些特征的實(shí)施例在標(biāo)題為類別細(xì)分中進(jìn)行描述。
可以利用類別變量通過各個(gè)特征的交互信息I(C,X)來對(duì)該各個(gè)特征X進(jìn)行排序,從而執(zhí)行特征選擇 其中,x求和是在x=0和x=1上,以及c求和是在所有類別(類)上。通過簡(jiǎn)單的計(jì)算獲得對(duì)于p(c,x)的概率估計(jì),并且二進(jìn)制變量x指示相關(guān)項(xiàng)的存在(x=1)或不存在(x=0)。根據(jù)術(shù)語(yǔ),嚴(yán)格說來,這是與在用于實(shí)際分類的分類器(例如

Bayes)中使用的相關(guān)項(xiàng)數(shù)不同的特征。這對(duì)于數(shù)值理由來說是有利的。備選方案為在從0到無窮大的所有可能項(xiàng)數(shù)上求和,其可能導(dǎo)致由相關(guān)概率估計(jì)的勢(shì)函數(shù)稀疏(potential sparseness)所導(dǎo)致的問題。
為了減少交互信息而對(duì)排序的列表進(jìn)行處理。對(duì)于每m數(shù)量的特征,使用來自列表的開始m個(gè),來訓(xùn)練分類器,并且使用交叉驗(yàn)證來測(cè)量該分類器的精確度。添加特征直到以這種方式測(cè)量的精確度開始下降。
還可以通過設(shè)置頻率閾限,來控制特征的數(shù)量??梢匀コ漕l率小于閾限的特征。如由交叉驗(yàn)證所報(bào)告的,可以有產(chǎn)生最好精度數(shù)據(jù)的閾值和特征數(shù)的兩個(gè)或三個(gè)組合。
根據(jù)本公開的一個(gè)方面,提供了用于以多次遍歷對(duì)職位機(jī)會(huì)進(jìn)行分類的方法。第一個(gè)步驟是執(zhí)行第一分類,以將職位與第一類別相關(guān)聯(lián)。如果第一職位類別在聯(lián)合可細(xì)分的職位類別的集中,則在聯(lián)合可細(xì)分的職位類別中執(zhí)行第二分類,從而將職位機(jī)會(huì)與第二職位類別相關(guān)聯(lián)。進(jìn)一步地,第二職位在聯(lián)合可細(xì)分的職位類別的集中,第一職位在職位的第一集中,以及該聯(lián)合可細(xì)分的職位類別的集是職位的第一集的真子集。聯(lián)合可細(xì)分的職位類別的集被定義為如下的職位類別的集利用任何方法已經(jīng)被確定為具有被混淆(相互)的相對(duì)較高的可能性;或者在該集中具有被選來代替該集中的另一職位類別的一個(gè)職位類別。
選擇用在第二遍中的那些類別、聯(lián)合可細(xì)分的職位類別是基于你查看的類別來選擇的。例如,可以基于將其他類別混淆為特定類別的可能性來確定聯(lián)合可細(xì)分的職位類別。確定兩個(gè)類別是否經(jīng)常被混淆的一種方法是執(zhí)行職位集的手動(dòng)分類。手動(dòng)分類將被認(rèn)為是正確的一黃金標(biāo)準(zhǔn)。然后,執(zhí)行對(duì)于相同的職位集的自動(dòng)分類。在矩陣中繪制出結(jié)果,其中,一個(gè)軸表示由黃金標(biāo)準(zhǔn)(在該情況下為手動(dòng))分配器選擇的類別,而另一軸表示由自動(dòng)分類器選擇的類別。去除矩陣中手動(dòng)和自動(dòng)分類選擇了相同的類別處的所有元素(可能沿著對(duì)角,取決于實(shí)現(xiàn)),具有最高概率的元素表示最可能被混淆的類別。然后,聯(lián)合可細(xì)分的產(chǎn)品類別的集可以基于最可能被混淆的元素,以及實(shí)際上可以包含多個(gè)不同的聯(lián)合可細(xì)分的產(chǎn)品類別的集,并且這些集每個(gè)可以包含與其他集不同的類別數(shù)量。
這里提供了類別細(xì)分的一個(gè)例子。這里描述的技術(shù)不受限于該實(shí)施例??紤]基于

Bayes分類器構(gòu)建的自動(dòng)分類器。在以下的文檔中描述了示例性的

Bayes分類器David D.Lewis的“

(Bayes)at fortyThe independence assumption in information retrieval”;ClaireN’edellec和C’eline Rouveirol等的1998的Chemnitz,DE的第10屆機(jī)器學(xué)習(xí)歐洲會(huì)議(European Conference on Machine Learning)的Proceedings ofECML-98的number 1398第4-15頁(yè),這里被稱為“Lewis”。該分類器可以具有兩個(gè)或多個(gè)分類級(jí)。在頂(根)級(jí)處,可以執(zhí)行單層分類,這里,如在名為

Bayes的部分中描述的,利用單個(gè)多項(xiàng)分布來描述每個(gè)類別??梢允褂枚囗?xiàng)的混合來為一些類別的特征項(xiàng)概率分布進(jìn)行建模。嚴(yán)格說來,這違反了

Bayes條件獨(dú)立假設(shè),但是可以簡(jiǎn)單地設(shè)想可以將一些類別進(jìn)一步分解為遵循該條件獨(dú)立假設(shè)的其他類別,但是先驗(yàn)未知這些其他類別是什么。
然后,在聯(lián)合可細(xì)分的類別的集中的一些類別上執(zhí)行第二分類。該類別可以是在以下列表中的那些,該列表已經(jīng)被劃分為三個(gè)“混淆分組”。在每個(gè)分組中的頂級(jí)結(jié)點(diǎn)具有執(zhí)行恰好到混淆分組中的類別中的第二分類的分類器。
對(duì)于公司id,可以使用最簡(jiǎn)單的可能模型-貝努利多項(xiàng)式(multi-Bernoulli)。也就是說,可以具有對(duì)于每個(gè)對(duì)(類別,公司)的不同的概率值估計(jì)。也就是說,可以具有對(duì)于值的集{p(c|m)}的估計(jì),其中m表示公司id。這些值由{ψc,m}表示。
利用對(duì)數(shù)正態(tài)分布來描述薪酬統(tǒng)計(jì)薪酬可以根據(jù)對(duì)數(shù)正態(tài)分布來近似地分布,其僅僅意味著對(duì)數(shù)-價(jià)格是根據(jù)簡(jiǎn)單正態(tài)/高斯分布來分布的。使得z=log(價(jià)格)。得到以下結(jié)果,其中μc和σc是正態(tài)分布的均值和標(biāo)準(zhǔn)方差 用于文本的

Bayes分類器 在機(jī)器學(xué)習(xí)和模式分類中,要分類(或“歸類”)的對(duì)象是由稱為“特征矢量”的x表示的,x包含用來確定文檔屬于的最可能類別的信息。通常所說的用于文檔的“

Bayes”分類器采用被稱為“詞袋”模型的某事物(見Lewis)。這意味著忽略詞的特定順序而僅僅使用它們的計(jì)數(shù)。當(dāng)短語(yǔ)被檢測(cè)為標(biāo)記以及就像它們是獨(dú)立的特征項(xiàng)進(jìn)行處理時(shí),在某種程度上規(guī)避該限制。在(

Bayes)情況下,特征矢量可以采取這樣的形式 x=(k1,k2,...,km) 其中,ki表示第i個(gè)特征項(xiàng)(在要分類的文檔中)的出現(xiàn)次數(shù),以及m是在lexicon中的特征項(xiàng)的總數(shù),其在該情況下是表示在停止詞去除等之后被用于進(jìn)行分類的特征項(xiàng)集。
Bayes分類器可以下面的方式來使用概率模型給出特征矢量x,計(jì)算假設(shè)文檔的特征矢量是x時(shí)文檔屬于類別c的條件概率。為了執(zhí)行分類,為c選擇使得p(c|x)最大的值c’(也就是將文檔分配到類別)。在數(shù)學(xué)上這可以表示為 c’=arg maxcp(c|x) 該條件概率p(c|x)可以被如下分解 p(c|x)=(p(x|c)p(c))/p(x) 因?yàn)榭梢钥赡軆H僅對(duì)c’的值感興趣而對(duì)p(c’|x)的特定值不感興趣,所以可以忽略其僅僅取決于x而不是c的邊緣概率p(x) c’=arg maxc[p(x|c)p(c)](5) 在該等式中的概率為聯(lián)合概率p(x,c) p(x,c)=p(x|c)p(c) 為了執(zhí)行實(shí)際的分類過程,需要用于p(c)和p(x|c)的特定公式。

Bayes/詞袋模型可以對(duì)此使用多項(xiàng)分布。也就是 該公式包括以下的稱為“多項(xiàng)式系數(shù)”的事物的簡(jiǎn)寫表示 這里n!表示“n的階乘”并且表示這樣的乘積 n!≡n(n-1)(n-2)(n-3)...3×2 因?yàn)樵摱囗?xiàng)式系數(shù)僅僅是文檔而不是類的函數(shù),所以可以在分類過程中忽略。參數(shù){θi}經(jīng)常被稱為“貝努利”參數(shù),并且可以根據(jù)訓(xùn)練數(shù)據(jù)來估計(jì)。該(“{....}”)是簡(jiǎn)寫集符號(hào)。例如,{θi}實(shí)際上表示{θi|i=1,2,...,m},也就是這些參數(shù)值的全集。
對(duì)于每個(gè)類別,可以具有p(x|c)和p(c)的值,以及這些值的每個(gè)可以具有它們自身的估計(jì)參數(shù)值。類別c中的用于特征項(xiàng)i的貝努利參數(shù)如下來表示和估計(jì) 其中ni,c是在類別-c訓(xùn)練文檔的全集中的特征項(xiàng)i的實(shí)例的總數(shù),nc是在類別-c訓(xùn)練文檔的全集中的所有特征項(xiàng)(在分類lexicon中的特征項(xiàng),不是停止詞等)的實(shí)例的總數(shù),以及m是在lexicon中的特征項(xiàng)的總數(shù)。公式(8)被稱為“拉普拉斯定律”或者“拉普拉斯連續(xù)定律”。
為了利用(5)所描述的來執(zhí)行分類,需要對(duì)于邊緣類概率{p(c)}的估計(jì)??梢岳忙誧′以及還對(duì)它們使用拉普拉斯定律來表示這些估計(jì) 其中,vc是在訓(xùn)練集中的類別-c文檔的總數(shù),N是在訓(xùn)練集中的文檔(所有類別)的總數(shù),以及|C|是類別的總數(shù)。如果這些數(shù)量({vc}和N)不表示最終要分類的文檔的總體,則可以將正確的估計(jì)(利用任何方式獲得)用于{φc′}。
“判別函數(shù)”d(x,c)可以被定義為 據(jù)此,由(5)描述的分類的實(shí)現(xiàn)可以表示為如下 c’=arg maxcd(c,x)(11) 使用(10)的對(duì)數(shù)作為用于數(shù)值和計(jì)算理由的判別函數(shù)是有利的。由此可以具有 示例性用戶接口800的屏幕截圖使用網(wǎng)絡(luò)瀏覽器通過企業(yè)內(nèi)部網(wǎng)116呈現(xiàn)給管理員、操作員或分類專家。如所示,接口800經(jīng)由下拉菜單提供三個(gè)不同的模式802?!八蓄悇e”模式列出所有類別以及它們對(duì)應(yīng)的置信值,按置信度降序排列。“詳細(xì)統(tǒng)計(jì)”模式示出關(guān)于為何選擇特定類別的細(xì)節(jié)。這種模式對(duì)于調(diào)整系統(tǒng)200的操作員是有用的?!白罴杨悇e”模式只顯示職位及其置信度的最頂上的類別。這與“所有類別”模式中示出的第一個(gè)結(jié)果相同,除了在這里我們示出類別ID號(hào)而不是字符串。這種模式意圖用于對(duì)于數(shù)據(jù)庫(kù)中的職位的自動(dòng)分類,其中,相對(duì)于類別名稱更優(yōu)選地使用類別ID號(hào)。
圖9示出了在職位分類手動(dòng)查看模塊132中發(fā)生的職位分類手動(dòng)查看過程900的操作流程圖。當(dāng)在操作902中,管理操作員或分類專家經(jīng)由PALM管理入口102登錄時(shí),操作流程開始。當(dāng)管理員登錄時(shí),在操作904中向他或她呈現(xiàn)圖10所示的用戶接口1000。該用戶接口1000允許管理員或?qū)<也榭凑哌x擇職位類別1002、公司1004,以及選擇要執(zhí)行的查看類型1006。然后,控制轉(zhuǎn)到操作906。在操作906中,根據(jù)管理員在操作904中的預(yù)先選擇,從手動(dòng)分類數(shù)據(jù)庫(kù)628或已加工數(shù)據(jù)庫(kù)236中的job-current文件626檢索第一/下個(gè)職位描述。向管理員呈現(xiàn)例如圖11所示的示例性接口1100的用戶接口。
該用戶接口1100顯示第一/下個(gè)職位描述1102連同針對(duì)每個(gè)類別確定的類別置信度。在該例子中,職位是在IBM公司的博士后職位。置信度對(duì)于除了Engineering_Architecture和Pharmaceutical_Biotech之外都是零,以及沒有置信度100%匹配。該職位已經(jīng)被分類為工程結(jié)構(gòu),但是置信度僅僅是0.657,所以其被標(biāo)記用于手動(dòng)查看。
返回參考圖9,當(dāng)在操作906中檢索到職位描述時(shí),控制轉(zhuǎn)到操作908,這里管理員基于完全的職位描述來分析分類。然后,管理員具有三個(gè)行為選擇。首先,他可以在詢問操作910中使得該職位無效。第二,他可以通過點(diǎn)擊職位URL 1110來在詢問操作912中獲得更多的職位細(xì)節(jié),從而改進(jìn)他的查看。第三,他可以在詢問操作914中更新類別定義或插入新類別。如果他的決定是在操作910中使得該職位無效,然后控制轉(zhuǎn)到操作916,這里從數(shù)據(jù)庫(kù)126以及從手動(dòng)分類數(shù)據(jù)庫(kù)628中去除該職位。然后,控制轉(zhuǎn)到詢問操作918。詢問操作918詢問在手動(dòng)分類數(shù)據(jù)庫(kù)628的隊(duì)列中或expert_review標(biāo)記=1的job_current表格626中是否還有另外的職位描述。如果是,則控制轉(zhuǎn)回到操作906,這里,檢索下一個(gè)職位用于查看。
然而,如果在操作910中的決定不是將該職位無效,則控制復(fù)位expert_review標(biāo)記=0,將職位返回到j(luò)ob_current表格626,并且控制轉(zhuǎn)到詢問操作918。如果在操作908中的選擇是得到更多的職位細(xì)節(jié),則控制轉(zhuǎn)到操作920,這里檢索細(xì)節(jié),并且控制再次轉(zhuǎn)回到操作908。如果管理員然后不選擇得到更多的細(xì)節(jié),則在復(fù)位expert_review標(biāo)記=0之后,將職位描述記錄再次返回到j(luò)ob_current表格626,并且控制再次轉(zhuǎn)到詢問操作918。如果在操作908中的選擇是在詢問操作914中更新類別,則控制轉(zhuǎn)到操作922。
在操作922中,職位描述的類別被改變,或添加并保存新的一個(gè)類別。expert_review標(biāo)記被設(shè)置為0,并且然后將職位描述傳送到j(luò)ob_current表格626,然后,控制轉(zhuǎn)到詢問操作918。如果不再有expert_review標(biāo)記為1的職位描述,則控制轉(zhuǎn)到返回操作924,并且查看會(huì)話完成。
另外,優(yōu)選職位分類控制過程模塊622周期性地查看在已加工數(shù)據(jù)庫(kù)236中的信息,從而精確地對(duì)每個(gè)職位列表進(jìn)行分類。重要的是將職位列表放置在適當(dāng)?shù)穆毼活悇e例如信息技術(shù)、衛(wèi)生保健、會(huì)計(jì)等中。職位分類控制過程模塊622優(yōu)選是自動(dòng)的,或者通過手動(dòng)查看接口模塊134可以利用來自分類專家的輸入進(jìn)行擴(kuò)充,分類專家優(yōu)選是人類。然而,如關(guān)于之前討論的列表查看者實(shí)體的情況那樣,隨著這樣的系統(tǒng)變得越來越復(fù)雜,在未來專家的功能可選擇地是自動(dòng)的例程。職位分類控制過程模塊622優(yōu)選是自動(dòng)的,同時(shí)手動(dòng)查看過程模塊134提供關(guān)于質(zhì)量的檢查,從而在職位分類中提供較高的精確度。將該分類過程的結(jié)果存儲(chǔ)在“手動(dòng)分類”數(shù)據(jù)庫(kù)628中,“手動(dòng)分類”是手動(dòng)分類數(shù)據(jù)庫(kù)的縮寫名稱。
在圖13所示的質(zhì)量管理器任務(wù)中,檢索在已加工數(shù)據(jù)庫(kù)中的每個(gè)條目行,并在兩個(gè)層次上進(jìn)行評(píng)估URL驗(yàn)證和內(nèi)容驗(yàn)證。在URL驗(yàn)證中,該任務(wù)首先檢查和核實(shí)到http和https資源的鏈接是有效的。實(shí)際上,系統(tǒng)訪問URL以核實(shí)鏈接連接。第二個(gè)操作包括檢查是否還有任何警告響應(yīng)消息。如果是,則可以對(duì)列表進(jìn)行標(biāo)記用于手動(dòng)查看。URL驗(yàn)證操作還檢測(cè)是否有任何鏈接已經(jīng)被重定向或以另外方式修改,并且確定對(duì)于會(huì)話cookie的支持。在質(zhì)量管理器任務(wù)的內(nèi)容驗(yàn)證部分中,檢查數(shù)據(jù)中的不一致性。例如,多種檢查,例如執(zhí)行特定規(guī)則、核實(shí)職位描述、在描述上執(zhí)行匹配算法以及核實(shí)在城市、州和國(guó)家之間的匹配。最終,可以利用并行操作的n個(gè)獨(dú)立線程,來實(shí)現(xiàn)質(zhì)量管理器過程。每個(gè)質(zhì)量管理器任務(wù)線程操作流程在圖13中示出。
基于規(guī)則的質(zhì)量引擎任務(wù)模塊142在通過圖5所示的序列500處理的每個(gè)數(shù)據(jù)集上執(zhí)行一系列操作。配置管理器158確定多少列表管理器模塊104是可用的。此外,在每個(gè)列表管理器模塊104中,質(zhì)量管理器任務(wù)144可以管理“N”個(gè)質(zhì)量管理器任務(wù)線程167和169。特別地,在操作524,質(zhì)量引擎模塊任務(wù)管理器142調(diào)用操作序列1300。每個(gè)質(zhì)量管理器任務(wù)模塊142可以具有對(duì)于“n”個(gè)線程1300的控制。每個(gè)序列1300始于操作1302,這里,初始化需要的寄存器。然后,控制轉(zhuǎn)到操作1304。在操作1304中,根據(jù)多少質(zhì)量引擎管理器142線程可用,以及分配了多少個(gè)線程1300,如由配置生成器158確定的,檢索要檢查質(zhì)量的在已加工數(shù)據(jù)庫(kù)236中的數(shù)據(jù)集。然后,控制轉(zhuǎn)到操作1306。這里,將數(shù)據(jù)集拆分為n個(gè)分區(qū)。由此,在一個(gè)分區(qū)中的數(shù)據(jù)集的數(shù)量對(duì)應(yīng)于在該分區(qū)中可用的線程1300的數(shù)量。然后,控制轉(zhuǎn)到操作1308。并行地,對(duì)于每個(gè)分區(qū)中的每個(gè)數(shù)據(jù)集執(zhí)行以下的操作。
在操作1308中,相對(duì)于文檔規(guī)則的集來比較每個(gè)數(shù)據(jù)集。例如,這些規(guī)則包括對(duì)于以下問題的確定職位描述文本字段中是否有至少5個(gè)或更多個(gè)詞;職位名稱字段是否被填充也就是不是空的;職位公司名稱字段是否被填充也就是不是空的;以及職位位置字段是否被填充也就是不是空的。如果這些字段的任何一個(gè)是空的或違反規(guī)則,則數(shù)據(jù)集違反文檔規(guī)則,并且將不被索引。然后,控制轉(zhuǎn)到詢問操作1310。在詢問操作1310中,詢問數(shù)據(jù)集是否通過規(guī)則測(cè)試的問題。如果答案為是,則控制轉(zhuǎn)到操作1316。如果答案為否,則控制轉(zhuǎn)到操作1312,這里設(shè)置出錯(cuò)標(biāo)記,然后轉(zhuǎn)到操作1314,這里將遺漏數(shù)據(jù)的記錄發(fā)送到報(bào)告模塊130。然后,控制轉(zhuǎn)到操作1316。
在操作1316中,檢查數(shù)據(jù)集的位置字段,以核實(shí)城市的位置對(duì)應(yīng)于在州字段中列出的州,以及相應(yīng)地對(duì)應(yīng)于國(guó)家字段。然后,控制轉(zhuǎn)到操作1318。詢問操作1318詢問數(shù)據(jù)集是否通過了每個(gè)位置驗(yàn)證測(cè)試。如果答案為是,則控制直接轉(zhuǎn)到操作1324。如果答案為否,則在操作1320中再次設(shè)置出錯(cuò)標(biāo)記,并且在操作1322中將位置出錯(cuò)報(bào)告發(fā)送給報(bào)告模塊130。然后,控制轉(zhuǎn)到操作1324。
在操作1324中,將正在檢查的在數(shù)據(jù)集中的每個(gè)字段的內(nèi)容與褻瀆詞或不許用詞的集進(jìn)行比較,以確定在數(shù)據(jù)集中是否有任何褻瀆或另外不接受的詞。然后,控制轉(zhuǎn)到詢問操作1326,其詢問是否找到了任何褻瀆或不可接受的語(yǔ)言。如果找到了不可接受的詞,則控制轉(zhuǎn)到操作1328,這里設(shè)置出錯(cuò)標(biāo)記,并且控制轉(zhuǎn)到操作1330,這里,將不可接受語(yǔ)言的出錯(cuò)報(bào)告發(fā)送到報(bào)告模塊130。另一方面,如果沒有找到褻瀆,則控制直接轉(zhuǎn)到操作1332。
在操作1332中,任何初步的URL地址被訪問和檢查,以確定在訪問時(shí)是否生成任何出錯(cuò)消息。此外,如果在操作中需要任何會(huì)話cookie,則在該操作中記錄這些會(huì)話cookie。在需要訪問信息的一些站點(diǎn)中,例如在用戶到達(dá)期望的URL之前,可能呈現(xiàn)或需要Pre-URL地址和cookie信息。該操作核實(shí)在數(shù)據(jù)集中的任何初步的URL信息是當(dāng)前的和正確的。如果有任何出錯(cuò)消息,對(duì)這些出錯(cuò)消息進(jìn)行注釋。然后,控制轉(zhuǎn)到詢問操作1334。詢問操作1334詢問當(dāng)調(diào)用Pre-URL地址時(shí)是否接收到任何出錯(cuò)消息。如果答案為否,則控制直接轉(zhuǎn)到操作1340。如果答案為是,則有出錯(cuò),再次在操作1336中設(shè)置出錯(cuò)標(biāo)記,并且在操作1338中將出錯(cuò)報(bào)告發(fā)送給報(bào)告模塊130。然后,控制轉(zhuǎn)到操作1340。
在操作1340中,調(diào)用最終URL地址,以及記錄需要的任何會(huì)話cookie。此時(shí),對(duì)任何出錯(cuò)消息進(jìn)行注釋。該操作是重要的,從而核實(shí)在數(shù)據(jù)庫(kù)中的數(shù)據(jù)集依然保持為最新的。尤其在職位公告數(shù)據(jù)集的情況中,可能恰好在前一天已經(jīng)填充了職位。在這樣的情況下,公告可以被清除,而數(shù)據(jù)庫(kù)依然認(rèn)為該職位是最新的。該操作1340嘗試捕捉這樣的最近變化情況并適應(yīng)這樣的行為。在很多實(shí)例中,該操作是成功的,并且?guī)椭_保數(shù)據(jù)庫(kù)被維持為最新的。然后,控制轉(zhuǎn)到詢問操作1342,這里,詢問是否有任何例如指示職位已經(jīng)被拉出的出錯(cuò)消息。如果沒有接收到出錯(cuò)消息,則控制轉(zhuǎn)到操作1348。然而,如果接收到了出錯(cuò)標(biāo)記,則轉(zhuǎn)到操作1346,這里將出錯(cuò)報(bào)告發(fā)送到報(bào)告模塊130。然后,因?yàn)槿绻邮盏藉e(cuò)誤則URL是無效的,所以控制轉(zhuǎn)到返回操作1360,并且數(shù)據(jù)集將不被索引并被返回到已加工數(shù)據(jù)庫(kù)236。
在操作1348中,下載在URL處的網(wǎng)頁(yè)用于檢查。然后,控制轉(zhuǎn)到操作1350,這里,如在數(shù)據(jù)凈化器模塊139中已經(jīng)做過的那樣,從網(wǎng)頁(yè)上清除HTML數(shù)據(jù)。然后,控制轉(zhuǎn)到操作1352。在操作1352中,將數(shù)據(jù)集內(nèi)容逐詞地匹配到網(wǎng)頁(yè)內(nèi)容。該操作核實(shí)數(shù)據(jù)集是否正確地反映網(wǎng)頁(yè)內(nèi)容。其是驗(yàn)證列表是否為最新的另一機(jī)制。然后,控制轉(zhuǎn)到詢問操作1354。詢問操作1354詢問在匹配操作1352中是否有任何錯(cuò)誤。如果有錯(cuò)誤,則數(shù)據(jù)集被損壞,或職位公告以某種方式不同,并且因此,將數(shù)據(jù)集返回到已加工數(shù)據(jù)庫(kù),并且不被索引以轉(zhuǎn)送到搜索區(qū)246。因此,答案為是,則控制轉(zhuǎn)到操作1356,這里,設(shè)置出錯(cuò)標(biāo)記,然后控制轉(zhuǎn)到操作1358,這里,將出錯(cuò)報(bào)告發(fā)送到報(bào)告模塊130,然后,控制轉(zhuǎn)到返回操作1360。
在設(shè)置出錯(cuò)標(biāo)記的每個(gè)情況下,操作1312、1320、1328、1336、1344、1356,設(shè)置標(biāo)記將防止數(shù)據(jù)集被索引并返回到已加工數(shù)據(jù)庫(kù)用于轉(zhuǎn)送到搜索區(qū)。然而,將使得在已加工數(shù)據(jù)庫(kù)中的數(shù)據(jù)集的副本可用,從而讓管理員在質(zhì)量查看模塊126中進(jìn)行檢查。
返回操作1360將控制返回到操作524處的任務(wù)500,該任務(wù)500然后將控制轉(zhuǎn)到操作526,這里執(zhí)行另一系列的基于規(guī)則的任務(wù)。整個(gè)控制然后在操作528中返回。
雖然這里描述的功能部件、模塊、軟件單元、硬件單元以及特征和功能可以被示出或描述為固定在軟件或硬件或其他中,本領(lǐng)域技術(shù)人員將知道,這里描述的特征和功能可以以多種軟件、硬件和/或固件組合的方式來實(shí)現(xiàn),并且這里描述的功能可以被分布到網(wǎng)絡(luò)上的多個(gè)部件或子部件中并且不被固定到如這里描述的任何一個(gè)特定部件。因此,所述的數(shù)據(jù)庫(kù)可以被分開、統(tǒng)一、聯(lián)合或以另外方式構(gòu)造,以最佳地適應(yīng)這里描述的特征和功能的實(shí)現(xiàn)者的優(yōu)先選擇。并且,這里描述為優(yōu)選手動(dòng)執(zhí)行的功能可以手動(dòng)地執(zhí)行或被劃分為子任務(wù),這些子任務(wù)可以被自動(dòng)化并由智能子系統(tǒng)最終執(zhí)行,智能子系統(tǒng)模擬人類操作員的交互,例如可以由人類操作訓(xùn)練并且最終獨(dú)立運(yùn)行的人工智能系統(tǒng)。在下面進(jìn)一步所附的描述以及那里包含的圖中找到了另外的特征、功能和技術(shù)說明書。
雖然根據(jù)目前認(rèn)為最實(shí)用和優(yōu)選的實(shí)施例已經(jīng)描述了設(shè)備和方法,但是要知道,本公開不被限于所公開的實(shí)施例。意圖覆蓋包括在權(quán)利要求的精神和范圍中的多種修改和類似配置,權(quán)利要求的范圍將根據(jù)最廣泛的解釋以包括所有這樣的修改和相似結(jié)構(gòu)。本公開包括以下權(quán)利要求的任何和所有實(shí)施例。這里描述、參考和討論的所有的專利、專利申請(qǐng)和印刷出版物通過引用全部包括在這里。
權(quán)利要求
1.一種計(jì)算機(jī)系統(tǒng),用于管理對(duì)于通過數(shù)據(jù)網(wǎng)絡(luò)從多個(gè)源捕捉的列表信息數(shù)據(jù)的捕捉和處理,從而將所述列表信息數(shù)據(jù)編譯為可搜索的數(shù)據(jù)結(jié)構(gòu),所述系統(tǒng)包括
管理入口模塊,通過網(wǎng)絡(luò)接口提供系統(tǒng)管理和操作控制;以及
一個(gè)或多個(gè)列表管理器模塊,響應(yīng)經(jīng)由所述管理入口模塊提供的指令,操作用于控制對(duì)于所述源的訪問;控制列表信息數(shù)據(jù)的檢索并且處理從所述源接收到的所述列表信息數(shù)據(jù);對(duì)所述列表信息數(shù)據(jù)進(jìn)行分類;檢查所述分類的列表信息數(shù)據(jù)的部分是否符合預(yù)定質(zhì)量標(biāo)準(zhǔn);以及將所述分類的列表信息數(shù)據(jù)存儲(chǔ)在搜索區(qū)中以供使用。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述數(shù)據(jù)網(wǎng)絡(luò)是因特網(wǎng)。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,每個(gè)列表管理器模塊包括一個(gè)或多個(gè)任務(wù)管理器,所述每個(gè)任務(wù)管理器包括
抓取管理模塊,協(xié)調(diào)一個(gè)或多個(gè)抓取引擎的操作以及這些抓取引擎之間的通信,以從由所述管理入口模塊中的站點(diǎn)管理模塊識(shí)別的站點(diǎn)獲得抓取的數(shù)據(jù)集,并且將所述抓取的數(shù)據(jù)集存儲(chǔ)在數(shù)據(jù)庫(kù)中;以及
質(zhì)量管理模塊,連接到所述抓取管理模塊,分析存儲(chǔ)在所述數(shù)據(jù)庫(kù)中的每個(gè)抓取數(shù)據(jù)集是否符合預(yù)定的質(zhì)量標(biāo)準(zhǔn)。
4.根據(jù)權(quán)利要求3所述的系統(tǒng),其中每個(gè)任務(wù)管理器模塊進(jìn)一步包括
列表數(shù)據(jù)分類模塊,操作用于對(duì)在所述數(shù)據(jù)庫(kù)中存儲(chǔ)的每個(gè)數(shù)據(jù)集進(jìn)行檢查并將所述數(shù)據(jù)集分類到一個(gè)或多個(gè)類別的預(yù)定集中,并且將分類的數(shù)據(jù)集返回到所述數(shù)據(jù)庫(kù);以及
搜索區(qū)同步器,與所述數(shù)據(jù)庫(kù)通信,用于對(duì)來自所述數(shù)據(jù)庫(kù)的分類的數(shù)據(jù)集進(jìn)行編譯并將其傳送到所述搜索區(qū)中。
5.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述分類模塊包括
分類數(shù)據(jù)庫(kù);以及
文檔分類平臺(tái)服務(wù),通過將每個(gè)抓取的數(shù)據(jù)集的文本與在所述分類數(shù)據(jù)庫(kù)中的之前分類的列表數(shù)據(jù)文本進(jìn)行比較,來為每個(gè)抓取的列表信息數(shù)據(jù)集確定在每個(gè)預(yù)定類別中的置信值。
6.根據(jù)權(quán)利要求4所述的系統(tǒng),其中,所述管理入口包括分類查看模塊,所述分類查看模塊允許查看者來核實(shí)由所述文檔分類平臺(tái)服務(wù)確定的分類。
7.根據(jù)權(quán)利要求4所述的系統(tǒng),其中,返回到所述數(shù)據(jù)庫(kù)的每個(gè)數(shù)據(jù)集包括由所述分類模塊確定的分配類別以及用于該類別的分配置信值。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其中,返回到所述數(shù)據(jù)庫(kù)的每個(gè)數(shù)據(jù)集進(jìn)一步包括每個(gè)預(yù)定類別的置信值。
9.根據(jù)權(quán)利要求5所述的系統(tǒng),其中,如果所述分配置信值低于預(yù)定閾值,則返回到所述數(shù)據(jù)庫(kù)的每個(gè)數(shù)據(jù)集包括手動(dòng)查看標(biāo)記設(shè)置。
10.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述質(zhì)量管理模塊與不滿足預(yù)定標(biāo)準(zhǔn)的每個(gè)數(shù)據(jù)集相關(guān)聯(lián)地設(shè)置質(zhì)量標(biāo)記。
11.根據(jù)權(quán)利要求10所述的系統(tǒng),其中,所述管理入口進(jìn)一步包括質(zhì)量查看模塊,所述質(zhì)量查看模塊與所述質(zhì)量管理模塊通信,并允許查看者來手動(dòng)地檢查已經(jīng)設(shè)置了所述質(zhì)量標(biāo)記的數(shù)據(jù)集。
12.一種獲得、處理和編譯列表數(shù)據(jù)集的方法,包括
從通過因特網(wǎng)可訪問的一個(gè)或多個(gè)站點(diǎn)上的一個(gè)或多個(gè)列表,獲得列表信息數(shù)據(jù)集;
將與每個(gè)列表對(duì)應(yīng)的數(shù)據(jù)集存儲(chǔ)在數(shù)據(jù)庫(kù)中;
分析所述數(shù)據(jù)庫(kù)中存儲(chǔ)的每個(gè)數(shù)據(jù)集是否符合預(yù)定質(zhì)量標(biāo)準(zhǔn);以及
將存儲(chǔ)在所述數(shù)據(jù)庫(kù)中的每個(gè)數(shù)據(jù)集分類到一個(gè)或多個(gè)預(yù)定的類別中,并將所述分類后的數(shù)據(jù)集返回到所述數(shù)據(jù)庫(kù)。
13.根據(jù)權(quán)利要求12所述的方法,進(jìn)一步包括通過XML提要從一個(gè)或多個(gè)客戶站點(diǎn)獲得列表信息數(shù)據(jù)集。
14.根據(jù)權(quán)利要求12所述的方法,其中,所述分類操作進(jìn)一步包括
對(duì)每個(gè)預(yù)定類別的每個(gè)數(shù)據(jù)集分配置信值。
15.根據(jù)權(quán)利要求12所述的方法,其中,所述分類操作包括
將每個(gè)獲得的數(shù)據(jù)集的文本與在分類數(shù)據(jù)庫(kù)中的之前分類的數(shù)據(jù)集的文本進(jìn)行比較;以及
為每個(gè)獲得的數(shù)據(jù)集確定在每個(gè)預(yù)定類別中的置信值。
16.根據(jù)權(quán)利要求15所述的方法,進(jìn)一步包括
對(duì)具有低于預(yù)定值的置信值的每個(gè)分類的數(shù)據(jù)集進(jìn)行標(biāo)記,用于手動(dòng)查看;以及
提供手動(dòng)查看模塊,允許查看者來通過管理入口核實(shí)任何標(biāo)記的分類。
17.根據(jù)權(quán)利要求12所述的方法,進(jìn)一步包括為分配給返回到所述數(shù)據(jù)庫(kù)的每個(gè)數(shù)據(jù)集的所述類別分配置信值。
18.根據(jù)權(quán)利要求17所述的方法,進(jìn)一步包括對(duì)具有低于預(yù)定閾值的分配置信度的返回到所述數(shù)據(jù)庫(kù)的任何數(shù)據(jù)集進(jìn)行標(biāo)記。
19.根據(jù)權(quán)利要求12所述的方法,進(jìn)一步包括
響應(yīng)用戶提出的詢問,通過網(wǎng)絡(luò)客戶機(jī)服務(wù)器集群,將來自搜索區(qū)的挑選的分類的數(shù)據(jù)集傳送到所述用戶。
20.根據(jù)權(quán)利要求12所述的方法,其中,所述獲得操作進(jìn)一步包括
通過因特網(wǎng)訪問一個(gè)或多個(gè)所述站點(diǎn);
從所述一個(gè)或多個(gè)站點(diǎn)抓取列表數(shù)據(jù)集;
對(duì)不滿足所述預(yù)定質(zhì)量標(biāo)準(zhǔn)的任何抓取數(shù)據(jù)集進(jìn)行標(biāo)記;
允許對(duì)于返回到所述數(shù)據(jù)庫(kù)的標(biāo)記的數(shù)據(jù)集進(jìn)行手動(dòng)查看,并且所述分類操作進(jìn)一步包括
將在每個(gè)抓取的數(shù)據(jù)集中的數(shù)據(jù)與在分類數(shù)據(jù)庫(kù)中的之前分類的數(shù)據(jù)集數(shù)據(jù)進(jìn)行比較;以及
為每個(gè)抓取的數(shù)據(jù)集確定在每個(gè)預(yù)定類別中的置信值。
21.根據(jù)權(quán)利要求20所述的方法,還包括
對(duì)具有低于預(yù)定值的置信值的每個(gè)分類的抓取的數(shù)據(jù)集進(jìn)行標(biāo)記,用于手動(dòng)查看;以及
在管理入口中提供手動(dòng)查看模塊,允許查看者來核實(shí)任何標(biāo)記的分類。
22.根據(jù)權(quán)利要求20所述的方法,還包括
響應(yīng)用戶做出的詢問,將挑選的分類的數(shù)據(jù)集從搜索區(qū)通過網(wǎng)絡(luò)服務(wù)器傳送到所述用戶。
23.一種計(jì)算機(jī)可讀介質(zhì),對(duì)指令的計(jì)算機(jī)程序進(jìn)行編碼,以執(zhí)行用于獲得和處理列表數(shù)據(jù)的計(jì)算機(jī)處理過程,所述計(jì)算機(jī)處理過程包括
從通過因特網(wǎng)可以訪問的站點(diǎn)上的一個(gè)或多個(gè)列表,抓取列表信息數(shù)據(jù);
與每個(gè)抓取的列表信息對(duì)應(yīng)地,將抓取的數(shù)據(jù)集存儲(chǔ)在數(shù)據(jù)庫(kù)中;
分析所述數(shù)據(jù)庫(kù)中的每個(gè)抓取的數(shù)據(jù)集是否符合預(yù)定質(zhì)量標(biāo)準(zhǔn);以及
將存儲(chǔ)在所述數(shù)據(jù)庫(kù)中的每個(gè)數(shù)據(jù)集分類到一個(gè)或多個(gè)預(yù)定類別中,并將所述分類的數(shù)據(jù)集返回到所述數(shù)據(jù)庫(kù)。
24.根據(jù)權(quán)利要求23所述的計(jì)算機(jī)可讀介質(zhì),其中,所述處理過程進(jìn)一步包括
對(duì)不滿足預(yù)定質(zhì)量標(biāo)準(zhǔn)的任何抓取的數(shù)據(jù)集進(jìn)行標(biāo)記;
允許對(duì)于返回到所述數(shù)據(jù)庫(kù)的標(biāo)記的數(shù)據(jù)集進(jìn)行手動(dòng)查看,并且其中,所述分類操作進(jìn)一步包括
將在每個(gè)抓取的數(shù)據(jù)集中的文本與分類數(shù)據(jù)庫(kù)中的之前分類的數(shù)據(jù)集文本進(jìn)行比較;以及
為每個(gè)抓取的數(shù)據(jù)集確定在每個(gè)預(yù)定類別中的置信值。
25.一種計(jì)算機(jī)系統(tǒng),用于管理通過數(shù)據(jù)網(wǎng)絡(luò)從多個(gè)職位相關(guān)源捕捉的職位列表信息數(shù)據(jù)的捕捉和處理,從而將所述數(shù)據(jù)編譯為可搜索的數(shù)據(jù)結(jié)構(gòu),所述系統(tǒng)包括
管理入口模塊,通過網(wǎng)絡(luò)接口提供系統(tǒng)管理和操作控制;以及
一個(gè)或多個(gè)任務(wù)管理器模塊,響應(yīng)經(jīng)由所述管理入口模塊提供的指令,操作用于控制對(duì)于所述職位相關(guān)源的訪問、控制對(duì)職位列表信息數(shù)據(jù)集的檢索以及處理從所述源接收到的所述職位信息數(shù)據(jù)集、對(duì)所述職位列表信息數(shù)據(jù)集進(jìn)行分類、檢查所述分類的職位信息數(shù)據(jù)集的部分是否符合預(yù)定質(zhì)量標(biāo)準(zhǔn)、以及將所述分類的職位信息數(shù)據(jù)集存儲(chǔ)在職位搜索區(qū)中以供使用。
26.根據(jù)權(quán)利要求25所述的系統(tǒng),其中,所述數(shù)據(jù)網(wǎng)絡(luò)包括因特網(wǎng)。
27.根據(jù)權(quán)利要求25所述的系統(tǒng),其中,每個(gè)任務(wù)管理器模塊包括
抓取管理模塊,協(xié)調(diào)一個(gè)或多個(gè)職位抓取引擎的操作以及它們之間的通信,從而從由在所述管理入口模塊中的站點(diǎn)管理模塊識(shí)別的公司職業(yè)站點(diǎn)和職位版獲得抓取的職位信息數(shù)據(jù)集,并且將所述抓取的數(shù)據(jù)集存儲(chǔ)在數(shù)據(jù)庫(kù)中;以及
質(zhì)量管理模塊,連接到所述抓取管理模塊,分析存儲(chǔ)在所述數(shù)據(jù)庫(kù)中的每個(gè)抓取的職位數(shù)據(jù)集是否符合預(yù)定的質(zhì)量標(biāo)準(zhǔn)。
28.根據(jù)權(quán)利要求27所述的系統(tǒng),其中,所述任務(wù)管理器模塊進(jìn)一步包括
職位列表數(shù)據(jù)分類模塊,操作用于對(duì)存儲(chǔ)在所述數(shù)據(jù)庫(kù)中的每個(gè)職位數(shù)據(jù)集進(jìn)行檢查并將其分類到一個(gè)或多個(gè)職位類別的預(yù)定集中,并且將分類的職位數(shù)據(jù)集返回到所述數(shù)據(jù)庫(kù);以及
搜索區(qū)同步器,與所述數(shù)據(jù)庫(kù)通信,用于對(duì)來自所述數(shù)據(jù)庫(kù)的分類的職位數(shù)據(jù)集進(jìn)行編譯并將其傳送到所述職位搜索區(qū)。
29.根據(jù)權(quán)利要求25所述的系統(tǒng),其中,所述分類模塊包括
職位分類數(shù)據(jù)庫(kù);以及
分類模塊,通過將每個(gè)抓取的職位數(shù)據(jù)集的文本與在所述職位分類數(shù)據(jù)庫(kù)中的之前分類的職位數(shù)據(jù)文本進(jìn)行比較,為每個(gè)抓取的職位列表信息數(shù)據(jù)集確定在每個(gè)預(yù)定的職位類別中的置信值。
30.根據(jù)權(quán)利要求28所述的系統(tǒng),其中,所述管理入口包括分類查看模塊,所述分類查看模塊允許查看者來核實(shí)由所述文檔分類平臺(tái)服務(wù)確定的分類。
31.根據(jù)權(quán)利要求28所述的系統(tǒng),其中,返回到所述數(shù)據(jù)庫(kù)的每個(gè)職位數(shù)據(jù)集包括由所述分類模塊確定的分配職位類別以及該類別的分配置信值。
32.根據(jù)權(quán)利要求31所述的系統(tǒng),其中,返回到所述數(shù)據(jù)庫(kù)的每個(gè)數(shù)據(jù)集進(jìn)一步包括每個(gè)預(yù)定的職位類別的置信值。
33.根據(jù)權(quán)利要求29所述的系統(tǒng),其中,如果所述分配的置信值低于預(yù)定閾值,則返回到所述數(shù)據(jù)庫(kù)的每個(gè)數(shù)據(jù)集包括手動(dòng)查看標(biāo)記設(shè)置。
34.根據(jù)權(quán)利要求25所述的系統(tǒng),其中,所述質(zhì)量管理模塊與不滿足所述預(yù)定標(biāo)準(zhǔn)的每個(gè)抓取的職位數(shù)據(jù)集相關(guān)聯(lián)地設(shè)置質(zhì)量標(biāo)記。
35.根據(jù)權(quán)利要求34所述的系統(tǒng),其中,所述管理入口進(jìn)一步包括質(zhì)量查看模塊,所述質(zhì)量查看模塊與所述質(zhì)量管理模塊通信,并允許查看者來手動(dòng)地檢查已經(jīng)設(shè)置了所述質(zhì)量標(biāo)記的職位數(shù)據(jù)集。
36.一種獲得、處理和編譯職位信息數(shù)據(jù)集的方法,包括
從通過因特網(wǎng)可訪問的一個(gè)或多個(gè)公司職業(yè)站點(diǎn)或職位版上的一個(gè)或多個(gè)職位列表,抓取職位信息數(shù)據(jù)集;
存儲(chǔ)與在數(shù)據(jù)庫(kù)中找到的每個(gè)抓取的職位列表對(duì)應(yīng)的職位數(shù)據(jù)集;
分析所述數(shù)據(jù)庫(kù)中存儲(chǔ)的每個(gè)抓取的數(shù)據(jù)集是否符合預(yù)定質(zhì)量標(biāo)準(zhǔn);以及
將存儲(chǔ)在所述數(shù)據(jù)庫(kù)中的每個(gè)數(shù)據(jù)集分類到一個(gè)或多個(gè)預(yù)定的職位類別中,并將所述分類后的職位信息數(shù)據(jù)集返回到所述數(shù)據(jù)庫(kù)。
37.根據(jù)權(quán)利要求36所述的方法,進(jìn)一步包括通過XML提要從一個(gè)或多個(gè)客戶站點(diǎn)獲得職位信息數(shù)據(jù)集。
38.根據(jù)權(quán)利要求36所述的方法,其中,所述分類操作進(jìn)一步包括
對(duì)每個(gè)職位信息數(shù)據(jù)集分配每個(gè)預(yù)定職位類別的置信值。
39.根據(jù)權(quán)利要求36所述的方法,其中,所述分類操作包括
將每個(gè)抓取的職位信息數(shù)據(jù)集的文本與在職位分類數(shù)據(jù)庫(kù)中的之前分類的職位信息數(shù)據(jù)集的文本進(jìn)行比較;以及
為每個(gè)抓取的數(shù)據(jù)集確定在每個(gè)預(yù)定類別中的置信值。
40.根據(jù)權(quán)利要求39所述的方法,進(jìn)一步包括
對(duì)具有低于預(yù)定值的置信值的每個(gè)分類的抓取的數(shù)據(jù)集進(jìn)行標(biāo)記,用于手動(dòng)查看;以及
提供手動(dòng)查看模塊,允許查看者來通過管理入口核實(shí)任何標(biāo)記的分類。
41.根據(jù)權(quán)利要求36所述的方法,進(jìn)一步包括為分配給返回到所述數(shù)據(jù)庫(kù)的每個(gè)數(shù)據(jù)集的所述職位類別分配置信值。
42.根據(jù)權(quán)利要求41所述的方法,進(jìn)一步包括對(duì)具有低于預(yù)定閾值的分配置信度的返回到所述數(shù)據(jù)庫(kù)的任何數(shù)據(jù)集進(jìn)行標(biāo)記。
43.根據(jù)權(quán)利要求36所述的方法,進(jìn)一步包括
響應(yīng)求職者提出的詢問,通過網(wǎng)絡(luò)客戶機(jī)服務(wù)器集群,將來自職位搜索區(qū)的挑選的分類的職位信息數(shù)據(jù)集傳送到所述求職者。
44.根據(jù)權(quán)利要求36所述的方法,其中,所述抓取操作進(jìn)一步包括
通過因特網(wǎng)訪問一個(gè)或多個(gè)所述職位版或公司職業(yè)站點(diǎn);
對(duì)不滿足所述預(yù)定質(zhì)量標(biāo)準(zhǔn)的任何抓取的職位信息數(shù)據(jù)集進(jìn)行標(biāo)記;
允許對(duì)于返回到所述數(shù)據(jù)庫(kù)的標(biāo)記的職位信息數(shù)據(jù)集進(jìn)行手動(dòng)查看,并且所述分類操作進(jìn)一步包括
將在每個(gè)抓取的職位信息數(shù)據(jù)集中的數(shù)據(jù)與在分類數(shù)據(jù)庫(kù)中的之前分類的職位數(shù)據(jù)集數(shù)據(jù)進(jìn)行比較;以及
為每個(gè)抓取的職位信息數(shù)據(jù)集確定在每個(gè)預(yù)定職位類別中的置信值。
45.根據(jù)權(quán)利要求44所述的方法,還包括
對(duì)具有低于預(yù)定值的置信值的每個(gè)分類的抓取的數(shù)據(jù)集進(jìn)行標(biāo)記,用于手動(dòng)查看;以及
在管理入口中提供手動(dòng)查看模塊,允許查看者來核實(shí)任何標(biāo)記的分類。
46.根據(jù)權(quán)利要求44所述的方法,還包括
響應(yīng)用戶做出的詢問,將挑選的分類的數(shù)據(jù)集從搜索區(qū)通過網(wǎng)絡(luò)服務(wù)器傳送到所述用戶。
47.一種計(jì)算機(jī)可讀介質(zhì),對(duì)指令的計(jì)算機(jī)程序進(jìn)行編碼,以執(zhí)行用于從公司職業(yè)站點(diǎn)和職位版抓取職位描述數(shù)據(jù)的計(jì)算機(jī)處理過程,所述計(jì)算機(jī)處理過程包括
從通過因特網(wǎng)可以訪問的站點(diǎn)上的一個(gè)或多個(gè)列表,抓取列表信息數(shù)據(jù);
與每個(gè)抓取的列表信息對(duì)應(yīng)地,將抓取的數(shù)據(jù)集存儲(chǔ)在數(shù)據(jù)庫(kù)中;
分析存儲(chǔ)在所述數(shù)據(jù)庫(kù)中的每個(gè)抓取的數(shù)據(jù)集是否符合預(yù)定質(zhì)量標(biāo)準(zhǔn);以及
將存儲(chǔ)在所述數(shù)據(jù)庫(kù)中的每個(gè)數(shù)據(jù)集分類到一個(gè)或多個(gè)預(yù)定類別中,并將所述分類的數(shù)據(jù)集返回到所述數(shù)據(jù)庫(kù)。
48.根據(jù)權(quán)利要求47所述的計(jì)算機(jī)可讀介質(zhì),其中,所述處理過程進(jìn)一步包括
對(duì)不滿足預(yù)定質(zhì)量標(biāo)準(zhǔn)的任何抓取的數(shù)據(jù)集進(jìn)行標(biāo)記;
允許對(duì)于返回到所述數(shù)據(jù)庫(kù)的標(biāo)記的數(shù)據(jù)集進(jìn)行手動(dòng)查看,并且其中,所述分類操作進(jìn)一步包括
將在每個(gè)抓取的數(shù)據(jù)集中的文本與分類數(shù)據(jù)庫(kù)中的之前分類的數(shù)據(jù)集文本進(jìn)行比較;以及
為每個(gè)抓取的數(shù)據(jù)集確定在每個(gè)預(yù)定類別中的置信值。
49.一種計(jì)算機(jī)系統(tǒng),用于管理通過數(shù)據(jù)網(wǎng)絡(luò)從多個(gè)職位相關(guān)源捕捉的職位列表信息數(shù)據(jù)的捕捉和處理,從而將所述數(shù)據(jù)編譯為可搜索的數(shù)據(jù)結(jié)構(gòu),所述系統(tǒng)包括
管理入口模塊,通過網(wǎng)絡(luò)接口提供系統(tǒng)管理和操作控制;以及
抓取管理模塊,協(xié)調(diào)一個(gè)或多個(gè)職位抓取引擎的操作以及它們之間的通信,從而從由在所述管理入口模塊中的站點(diǎn)管理模塊識(shí)別的公司職業(yè)站點(diǎn)和職位版獲得抓取的職位信息數(shù)據(jù)集,并且將所述抓取的數(shù)據(jù)集存儲(chǔ)在數(shù)據(jù)庫(kù)中;
職位列表數(shù)據(jù)分類模塊,操作用于對(duì)存儲(chǔ)在所述數(shù)據(jù)庫(kù)中的每個(gè)職位數(shù)據(jù)集進(jìn)行檢查并將其分類到一個(gè)或多個(gè)職位類別的預(yù)定集中,并且將分類的職位數(shù)據(jù)集返回到所述數(shù)據(jù)庫(kù);以及
質(zhì)量管理模塊,連接到所述抓取管理模塊,分析存儲(chǔ)在所述數(shù)據(jù)庫(kù)中的每個(gè)抓取的職位數(shù)據(jù)集是否符合預(yù)定的質(zhì)量標(biāo)準(zhǔn)。
50.根據(jù)權(quán)利要求49所述的系統(tǒng),其中,所述數(shù)據(jù)網(wǎng)絡(luò)包括因特網(wǎng)。
51.根據(jù)權(quán)利要求49所述的系統(tǒng),進(jìn)一步包括
搜索區(qū)同步器,與所述數(shù)據(jù)庫(kù)通信,用于對(duì)來自所述數(shù)據(jù)庫(kù)的分類的職位數(shù)據(jù)集進(jìn)行編譯并將其傳送到職位搜索區(qū)。
52.根據(jù)權(quán)利要求51所述的系統(tǒng),其中,所述分類模塊包括
職位分類數(shù)據(jù)庫(kù);以及
分類模塊,通過將每個(gè)抓取的職位數(shù)據(jù)集的文本與在所述職位分類數(shù)據(jù)庫(kù)中的之前分類的職位數(shù)據(jù)文本進(jìn)行比較,為每個(gè)抓取的職位列表信息數(shù)據(jù)集確定在每個(gè)預(yù)定的職位類別中的置信值。
53.根據(jù)權(quán)利要求52所述的系統(tǒng),其中,所述管理入口包括分類查看模塊,所述分類查看模塊允許查看者來核實(shí)由所述分類模塊中的文檔分類平臺(tái)服務(wù)確定的分類。
54.根據(jù)權(quán)利要求52所述的系統(tǒng),其中返回到所述數(shù)據(jù)庫(kù)的每個(gè)職位數(shù)據(jù)集包括由所述分類模塊確定的分配職位類別以及該類別的分配置信值。
55.根據(jù)權(quán)利要求54所述的系統(tǒng),其中,返回到所述數(shù)據(jù)庫(kù)的每個(gè)數(shù)據(jù)集進(jìn)一步包括每個(gè)預(yù)定的職位類別的置信值。
56.根據(jù)權(quán)利要求52所述的系統(tǒng),其中,如果所述分配的置信值低于預(yù)定閾值,則返回到所述數(shù)據(jù)庫(kù)的每個(gè)數(shù)據(jù)集包括手動(dòng)查看標(biāo)記設(shè)置。
57.根據(jù)權(quán)利要求56所述的系統(tǒng),其中,所述管理入口包括分類查看模塊,所述分類查看模塊允許查看者來核實(shí)由所述分類模塊確定的分類。
58.根據(jù)權(quán)利要求49所述的系統(tǒng),其中,所述質(zhì)量管理模塊與不滿足所述預(yù)定標(biāo)準(zhǔn)的每個(gè)抓取的職位數(shù)據(jù)集相關(guān)聯(lián)地設(shè)置質(zhì)量標(biāo)記。
59.根據(jù)權(quán)利要求58所述的系統(tǒng),其中,所述管理入口進(jìn)一步包括質(zhì)量查看模塊,所述質(zhì)量查看模塊與所述質(zhì)量管理模塊通信,并允許查看者來手動(dòng)地檢查已經(jīng)設(shè)置了所述質(zhì)量標(biāo)記的職位數(shù)據(jù)集。
60.一種獲得、處理和編譯職位信息數(shù)據(jù)集的方法,包括
從通過因特網(wǎng)可訪問的一個(gè)或多個(gè)公司職業(yè)站點(diǎn)或職位版上的一個(gè)或多個(gè)職位列表,抓取職位信息數(shù)據(jù)集;
存儲(chǔ)與在數(shù)據(jù)庫(kù)中找到的每個(gè)抓取的職位列表對(duì)應(yīng)的職位數(shù)據(jù)集;
分析所述數(shù)據(jù)庫(kù)中存儲(chǔ)的每個(gè)抓取的數(shù)據(jù)集是否符合預(yù)定質(zhì)量標(biāo)準(zhǔn);以及
將存儲(chǔ)在所述數(shù)據(jù)庫(kù)中的每個(gè)數(shù)據(jù)集分類到一個(gè)或多個(gè)預(yù)定的職位類別中,并將所述分類后的職位信息數(shù)據(jù)集返回到所述數(shù)據(jù)庫(kù)。
61.根據(jù)權(quán)利要求60所述的方法,進(jìn)一步包括通過XML提要從一個(gè)或多個(gè)客戶站點(diǎn)獲得職位信息數(shù)據(jù)集。
62.根據(jù)權(quán)利要求60所述的方法,其中,所述分類操作進(jìn)一步包括
對(duì)每個(gè)職位信息數(shù)據(jù)集分配每個(gè)預(yù)定職位類別的置信值。
63.根據(jù)權(quán)利要求60所述的方法,其中,所述分類操作包括
將每個(gè)抓取的職位信息數(shù)據(jù)集的文本與在職位分類數(shù)據(jù)庫(kù)中的之前分類的職位信息數(shù)據(jù)集的文本進(jìn)行比較;以及
為每個(gè)抓取的數(shù)據(jù)集確定在每個(gè)預(yù)定類別中的置信值。
64.根據(jù)權(quán)利要求63所述的方法,進(jìn)一步包括
對(duì)具有低于預(yù)定值的置信值的每個(gè)分類的抓取的數(shù)據(jù)集進(jìn)行標(biāo)記,用于手動(dòng)查看;以及
提供手動(dòng)查看模塊,允許查看者來通過管理入口核實(shí)任何標(biāo)記的分類。
65.根據(jù)權(quán)利要求60所述的方法,進(jìn)一步包括為分配給返回到所述數(shù)據(jù)庫(kù)的每個(gè)數(shù)據(jù)集的所述職位類別分配置信值。
66.根據(jù)權(quán)利要求65所述的方法,進(jìn)一步包括對(duì)具有低于預(yù)定閾值的分配置信度的返回到所述數(shù)據(jù)庫(kù)的任何數(shù)據(jù)集進(jìn)行標(biāo)記。
67.根據(jù)權(quán)利要求60所述的方法,進(jìn)一步包括
響應(yīng)求職者提出的詢問,通過網(wǎng)絡(luò)客戶機(jī)服務(wù)器集群,將來自職位搜索區(qū)的挑選的分類的職位信息數(shù)據(jù)集傳送到所述求職者。
68.根據(jù)權(quán)利要求60所述的方法,其中,所述抓取操作進(jìn)一步包括
通過因特網(wǎng)訪問一個(gè)或多個(gè)所述職位版或公司職業(yè)站點(diǎn);
對(duì)不滿足所述預(yù)定質(zhì)量標(biāo)準(zhǔn)的任何抓取的職位信息數(shù)據(jù)集進(jìn)行標(biāo)記;
允許對(duì)于返回到所述數(shù)據(jù)庫(kù)的標(biāo)記的職位信息數(shù)據(jù)集進(jìn)行手動(dòng)查看,并且所述分類操作進(jìn)一步包括
將在每個(gè)抓取的職位信息數(shù)據(jù)集中的數(shù)據(jù)與在分類數(shù)據(jù)庫(kù)中的之前分類的職位數(shù)據(jù)集數(shù)據(jù)進(jìn)行比較;以及
為每個(gè)抓取的職位信息數(shù)據(jù)集確定在每個(gè)預(yù)定職位類別中的置信值。
69.根據(jù)權(quán)利要求68所述的方法,還包括
對(duì)具有低于預(yù)定值的置信值的每個(gè)分類的抓取的數(shù)據(jù)集進(jìn)行標(biāo)記,用于手動(dòng)查看;以及
在管理入口中提供手動(dòng)查看模塊,允許查看者來核實(shí)任何標(biāo)記的分類。
70.根據(jù)權(quán)利要求68所述的方法,還包括
響應(yīng)用戶做出的詢問,將挑選的分類的數(shù)據(jù)集從搜索區(qū)通過網(wǎng)絡(luò)服務(wù)器傳送到所述用戶。
71.一種計(jì)算機(jī)可讀介質(zhì),對(duì)指令的計(jì)算機(jī)程序進(jìn)行編碼,以執(zhí)行用于從公司職業(yè)站點(diǎn)和職位版抓取職位描述數(shù)據(jù)的計(jì)算機(jī)處理過程,所述計(jì)算機(jī)處理過程包括
從通過因特網(wǎng)可以訪問的站點(diǎn)上的一個(gè)或多個(gè)列表,抓取列表信息數(shù)據(jù);
與每個(gè)抓取的列表信息對(duì)應(yīng)地,將抓取的數(shù)據(jù)集存儲(chǔ)在數(shù)據(jù)庫(kù)中;
分析所述數(shù)據(jù)庫(kù)中的每個(gè)抓取的數(shù)據(jù)集是否符合預(yù)定質(zhì)量標(biāo)準(zhǔn);以及
將存儲(chǔ)在所述數(shù)據(jù)庫(kù)中的每個(gè)數(shù)據(jù)集分類到一個(gè)或多個(gè)預(yù)定類別中,并將所述分類的數(shù)據(jù)集返回到所述數(shù)據(jù)庫(kù)。
72.根據(jù)權(quán)利要求71所述的計(jì)算機(jī)可讀介質(zhì),其中,所述處理過程進(jìn)一步包括
對(duì)不滿足預(yù)定質(zhì)量標(biāo)準(zhǔn)的任何抓取的數(shù)據(jù)集進(jìn)行標(biāo)記;
允許對(duì)于返回到所述數(shù)據(jù)庫(kù)的標(biāo)記的數(shù)據(jù)集進(jìn)行手動(dòng)查看,并且其中,所述分類操作進(jìn)一步包括
將在每個(gè)抓取的數(shù)據(jù)集中的文本與分類數(shù)據(jù)庫(kù)中的之前分類的數(shù)據(jù)集文本進(jìn)行比較;以及
為每個(gè)抓取的數(shù)據(jù)集確定在每個(gè)預(yù)定類別中的置信值。
全文摘要
一種用于捕捉、管理和呈現(xiàn)經(jīng)由因特網(wǎng)從多個(gè)通常不相關(guān)的公告獲得的數(shù)據(jù)從而讓用戶進(jìn)行檢查的計(jì)算機(jī)系統(tǒng)和方法。該系統(tǒng)包括抓取模塊,抓取模塊具有一個(gè)或多個(gè)可操作的抓取引擎以從公司站點(diǎn)和網(wǎng)站、直接提要以及其他源上的列表抓取信息數(shù)據(jù)集,其中,抓取模塊接收抓取到的列表信息數(shù)據(jù)集并將其存儲(chǔ)在數(shù)據(jù)庫(kù)中。該系統(tǒng)還具有管理平臺(tái),管理平臺(tái)協(xié)調(diào)源、系統(tǒng)管理員和處理模塊的所有操作和它們之間的通信。在該平臺(tái)中的處理模塊包括抓取管理模塊,分析存儲(chǔ)在數(shù)據(jù)庫(kù)中的挑選的抓取的數(shù)據(jù);以及分類模塊,檢查存儲(chǔ)在該數(shù)據(jù)庫(kù)中的每個(gè)數(shù)據(jù)集并將其分類到一個(gè)或多個(gè)類別的預(yù)定集中,并將分類的數(shù)據(jù)集返回到該數(shù)據(jù)庫(kù)。
文檔編號(hào)G06F17/00GK101203847SQ200680015894
公開日2008年6月18日 申請(qǐng)日期2006年3月10日 優(yōu)先權(quán)日2005年3月11日
發(fā)明者亞當(dāng)·海德, 桑迪普·康納, 約瑟夫·廷 申請(qǐng)人:雅虎公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1