數(shù)據(jù)挖掘國際頂會(huì)KDD 2021收錄結(jié)果公布百度多篇論文入選

砍柴網(wǎng) ? 3年前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個(gè)廣告，點(diǎn)擊進(jìn)來看看。

8月14日至18日，國際數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)大會(huì)?KDD?2021在線上正式舉行。此前本屆KDD入選論文已經(jīng)揭曉，百度被收錄的多篇論文，其突出的特點(diǎn)是學(xué)術(shù)研究與技術(shù)應(yīng)用緊密結(jié)合，再次展現(xiàn)百度在AI領(lǐng)域的技術(shù)實(shí)力。

ACM?SIGKDD（簡(jiǎn)稱KDD）國際數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)大會(huì)至今已連續(xù)舉辦了26屆，是世界數(shù)據(jù)挖掘最高級(jí)別的學(xué)術(shù)會(huì)議之一，有數(shù)據(jù)挖掘領(lǐng)域“世界杯”之稱，每年吸引了大量數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、大數(shù)據(jù)和人工智能等領(lǐng)域的研究學(xué)者、從業(yè)人員參與。

百度在AI技術(shù)方向多年創(chuàng)新積累，數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)也是重點(diǎn)關(guān)注和持續(xù)投入的相關(guān)領(lǐng)域，并擁有多項(xiàng)技術(shù)成果和應(yīng)用落地案例。在多年為KDD輸送優(yōu)質(zhì)論文的基礎(chǔ)上，百度今年的被收錄論文再次體現(xiàn)了技術(shù)與應(yīng)用緊密融合的趨勢(shì)。

生物計(jì)算與醫(yī)療：生命健康里的AI新可能

在與人類息息相關(guān)的生命健康領(lǐng)域，百度也取得了長足進(jìn)步：在AI+醫(yī)療多個(gè)方向上探索，構(gòu)建醫(yī)療AI中臺(tái)、面向醫(yī)療場(chǎng)景提供各種AI解決方案；更進(jìn)一步尋覓生物計(jì)算的密碼，推出生物計(jì)算平臺(tái)螺旋槳PaddleHelix。此次KDD?2021中，百度發(fā)表了論文聚焦生命健康領(lǐng)域，提出了相關(guān)的新型圖神經(jīng)網(wǎng)絡(luò)模型和醫(yī)學(xué)實(shí)體關(guān)系循證框架。

1.?三維結(jié)構(gòu)感知的交互式圖神經(jīng)網(wǎng)絡(luò)?——?用于蛋白質(zhì)-配體親和力預(yù)測(cè)的新型圖神經(jīng)網(wǎng)絡(luò)模型

Structure-aware?Interactive?Graph?Neural?Networks?for?the?Prediction?of?Protein-Ligand?Binding?Affinity

藥物設(shè)計(jì)的一個(gè)關(guān)鍵步驟是準(zhǔn)確的預(yù)測(cè)蛋白質(zhì)-配體的親和力(protein-ligand?binding?affinity)。最近的研究進(jìn)展已經(jīng)證明，使用圖神經(jīng)網(wǎng)絡(luò)?(GNNs)?來學(xué)習(xí)蛋白質(zhì)-配體復(fù)合物(protein-ligand?complexes)的表示，比傳統(tǒng)方法可以更準(zhǔn)確地預(yù)測(cè)親和力。然而，現(xiàn)有的模型通常將蛋白質(zhì)-配體復(fù)合物視為拓?fù)鋱D，并沒有充分利用分子的三維結(jié)構(gòu)信息。同時(shí)GNN模型也忽略了原子之間基本的遠(yuǎn)距離相互作用。為此，我們提出了一種新型的三維結(jié)構(gòu)感知的交互式圖神經(jīng)網(wǎng)絡(luò)?(SIGN)，它由兩個(gè)部分組成：基于極坐標(biāo)的圖注意力層?(PGAL)?和成對(duì)交互式池化層?(PiPool)。具體來說，PGAL層首先迭代執(zhí)行節(jié)點(diǎn)-邊聚合過程以更新節(jié)點(diǎn)和邊的表征，在這個(gè)過程可以同時(shí)保留原子之間的距離和角度信息。然后，SIGN可以通過PiPool層來對(duì)交互邊進(jìn)行池化操作，隨后通過重建交互矩陣的學(xué)習(xí)任務(wù)來反映蛋白質(zhì)-配體的全局交互信息。在兩個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了SIGN預(yù)測(cè)效果的優(yōu)越性。

數(shù)據(jù)挖掘國際頂會(huì)KDD 2021收錄結(jié)果公布百度多篇論文入選

2.?基于大規(guī)模機(jī)器閱讀理解的醫(yī)學(xué)實(shí)體關(guān)系循證

Medical?Entity?Relation?Verification?with?Large-scale?Machine?Reading?Comprehension

醫(yī)學(xué)實(shí)體關(guān)系驗(yàn)證是構(gòu)建企業(yè)級(jí)醫(yī)學(xué)知識(shí)圖譜的關(guān)鍵步驟?，F(xiàn)有的信息抽取的方法專注于實(shí)體關(guān)系的挖掘，但并不能對(duì)挖掘的關(guān)系提供有效的循證支撐，這在真實(shí)醫(yī)學(xué)應(yīng)用場(chǎng)景下是不可接受的。因此，設(shè)計(jì)一種以循證為基礎(chǔ)的醫(yī)學(xué)實(shí)體關(guān)系驗(yàn)證框架是十分必要的。

針對(duì)上述場(chǎng)景，我們提出了一種基于大規(guī)模機(jī)器閱讀理解技術(shù)的醫(yī)學(xué)實(shí)體關(guān)系循證框架。該框架中我們?cè)O(shè)計(jì)了多種創(chuàng)新性的方法和模塊來提高醫(yī)學(xué)實(shí)體關(guān)系循證的效率和準(zhǔn)確率。比如，為了解決醫(yī)學(xué)實(shí)體的多樣性和變體問題，我們提出了一種近義詞感知（synonym-aware）的召回模型；為了更好的利用醫(yī)學(xué)的領(lǐng)域知識(shí)，我們創(chuàng)造性的設(shè)計(jì)了基于關(guān)系感知（relation-aware）的證據(jù)探測(cè)模塊和基于醫(yī)學(xué)本體增強(qiáng)(medical?ontology-enhanced)的聚合模塊，來共同提高整體循證模型的效果。此外，為了解決證據(jù)標(biāo)簽缺乏的問題，我們提出了一種新穎的基于交互協(xié)調(diào)訓(xùn)練的新方法（interactive-collaborative?training）來提升標(biāo)注效率，提升證據(jù)準(zhǔn)確率。通過實(shí)驗(yàn)驗(yàn)證，我們提出的循證框架超越多個(gè)現(xiàn)有的基于事實(shí)驗(yàn)證的最好基線方法(state-of-the-art?baselines)。該框架已經(jīng)應(yīng)用在了百度臨床輔助系統(tǒng)（CDSS）上，多方位支撐CDSS產(chǎn)品矩陣的可解釋循證，幫助了上萬名醫(yī)生。

數(shù)據(jù)挖掘國際頂會(huì)KDD 2021收錄結(jié)果公布百度多篇論文入選

POI檢索、推薦等為用戶提供更好、更便捷的智能化位置服務(wù)

作為國內(nèi)智能化位置服務(wù)的代表產(chǎn)品之一，百度地圖日均位置服務(wù)請(qǐng)求已突破了1200億次。

怎樣讓用戶在使用百度地圖時(shí)能夠獲得更好、更快、更方便的服務(wù)？KDD?2021中選論文中，百度延續(xù)以往在百度地圖方面的技術(shù)研究、進(jìn)行了升級(jí)和創(chuàng)新，覆蓋POI即時(shí)檢索、多語言POI檢索、POI推薦和基于自監(jiān)督元學(xué)習(xí)的路線耗時(shí)預(yù)估辦法等。

3.?MST-PAC：基于元學(xué)習(xí)的時(shí)空個(gè)性化POI即時(shí)檢索

Meta-Learned?Spatial-Temporal?POI?Auto-Completion?for?the?Search?Engine?at?Baidu?Maps

POI即時(shí)檢索（POI?Auto-Completion）是百度地圖POI搜索引擎的特色功能之一。POI即時(shí)檢索旨在幫助用戶以最少的輸入（理想情況下只需要用戶輸入一個(gè)字符），在搜索結(jié)果列表頁的首位即時(shí)給出用戶想找的POI，因此能夠大幅降低輸入成本并顯著提升搜索效率。POI即時(shí)檢索效果不僅與用戶輸入的字符以及輸入習(xí)慣有關(guān)，也與用戶發(fā)起檢索的時(shí)間與空間相關(guān)。統(tǒng)計(jì)數(shù)據(jù)顯示17.9%的地圖用戶在不同的時(shí)間或地點(diǎn)使用過相同的前綴尋找過不同的POI?？紤]到時(shí)空數(shù)據(jù)分布的不均衡性，我們提出了一種基于元學(xué)習(xí)的時(shí)空個(gè)性化POI即時(shí)檢索方法，并使用高效MapReduce算法對(duì)其進(jìn)行訓(xùn)練（縮寫為MST-PAC）。MST-PAC能夠顯著克服時(shí)空數(shù)據(jù)分布不均的問題，并能以較少的訓(xùn)練樣本快速適應(yīng)冷啟動(dòng)的時(shí)空?qǐng)鼍?。MST-PAC已在百度地圖成功部署，每天處理數(shù)十億檢索請(qǐng)求，這表明MST-PAC是一種具有實(shí)用價(jià)值且能夠大規(guī)模落地的POI即時(shí)檢索工業(yè)解決方案。

數(shù)據(jù)挖掘國際頂會(huì)KDD 2021收錄結(jié)果公布百度多篇論文入選

4.?基于異構(gòu)圖與注意力匹配網(wǎng)絡(luò)的多語言POI檢索

HGAMN:?Heterogeneous?Graph?Attention?Matching?Network?for?Multilingual?POI?Retrieval?at?Baidu?Maps

多語言POI檢索旨在幫助用戶使用自己熟悉的語言查找到由其他語言所描述的POI。該功能在出境旅游時(shí)尤為重要，因?yàn)楸镜豍OI往往缺乏多語言翻譯，要用完全陌生的語言進(jìn)行查詢對(duì)大部分用戶來說不太現(xiàn)實(shí)。數(shù)據(jù)稀疏是多語言檢索任務(wù)面臨的挑戰(zhàn)之一。為此，我們提出了一種基于異構(gòu)圖的注意力匹配網(wǎng)絡(luò)（HGAMN）。首先，在異構(gòu)圖的幫助下，我們能夠有效建立起低頻POI與高頻POI之間，以及POI與其不同語言的查詢表達(dá)之間的關(guān)聯(lián)。其次，我們使用基于注意力的網(wǎng)絡(luò)對(duì)該圖的節(jié)點(diǎn)表示進(jìn)行學(xué)習(xí)后，能夠顯著緩解數(shù)據(jù)稀疏問題。HGAMN已在百度地圖成功部署，每天響應(yīng)數(shù)億搜索請(qǐng)求，這表明HGAMN是一種實(shí)用且魯棒的多語言POI檢索工業(yè)解決方案。

5.?SSML:?基于自監(jiān)督元學(xué)習(xí)的在途路線耗時(shí)預(yù)估方法

SSML:?Self-Supervised?Meta-Learner?for?En?Route?Travel?Time?Estimation?at?Baidu?Maps

路線耗時(shí)預(yù)估旨在根據(jù)路線和出發(fā)時(shí)間預(yù)測(cè)用戶的到達(dá)時(shí)間，是地圖產(chǎn)品必不可少的基礎(chǔ)功能之一。在途路線耗時(shí)預(yù)估是路線耗時(shí)預(yù)估在用戶駕駛過程中的細(xì)分場(chǎng)景任務(wù)，旨在估算出從用戶當(dāng)前位置到目的地的剩余時(shí)間。然而，現(xiàn)有方法未考慮從起點(diǎn)到當(dāng)前位置的用戶駕駛行為，從而很難快速適應(yīng)用戶的駕駛習(xí)慣，并據(jù)此及時(shí)調(diào)整剩余的預(yù)估耗時(shí)。為此，本文提出利用已行駛路線所觀察到的少量用戶駕駛行為，來提升在途路線耗時(shí)預(yù)估的準(zhǔn)確率。我們將該任務(wù)建模為一個(gè)小樣本學(xué)習(xí)問題，把已行駛路線中觀察到的用戶行為作為訓(xùn)練樣本，同時(shí)把剩余路線中未發(fā)生的行為作為測(cè)試樣本。我們提出了一種基于自監(jiān)督元學(xué)習(xí)的在途路線耗時(shí)預(yù)估方法（SSML），并使用自監(jiān)督學(xué)習(xí)進(jìn)行數(shù)據(jù)增強(qiáng)，從而得以快速適應(yīng)用戶的駕駛行為、提升模型的預(yù)測(cè)效果?；诎俣鹊貓D大規(guī)模真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)表明，SSML是一種具有實(shí)用價(jià)值與穩(wěn)健性的在途路線耗時(shí)預(yù)估工業(yè)解決方案。

6.?CHAML：基于課程式元學(xué)習(xí)框架的POI推薦技術(shù)

Curriculum?Meta-Learning?for?Next?POI?Recommendation

POI推薦，作為廣受用戶歡迎的POI發(fā)現(xiàn)方式，是百度地圖的特色功能之一。該功能旨在結(jié)合當(dāng)前的時(shí)空?qǐng)鼍昂陀脩羰褂昧?xí)慣，快速發(fā)現(xiàn)其潛在感興趣的POI。但是，由于『用戶-POI』交互的天然長尾效應(yīng)，現(xiàn)有技術(shù)很難為數(shù)據(jù)稀疏的冷啟動(dòng)城市提供令人滿意的POI推薦。本文提出了一種將隱藏在豐富數(shù)據(jù)中的知識(shí)從熱門城市遷移到冷啟動(dòng)城市的構(gòu)想。為了達(dá)成這一構(gòu)想，我們?cè)O(shè)計(jì)了一種新的課程式元學(xué)習(xí)（CHAML）框架。CHAML框架能夠分別從城市和用戶兩個(gè)層面，考慮樣本的訓(xùn)練難度，并以此來增強(qiáng)元學(xué)習(xí)訓(xùn)練過程。同時(shí)，我們?cè)O(shè)計(jì)了一種由易到難的課程式學(xué)習(xí)方案，用于樣本抽樣，以幫助元學(xué)習(xí)模型收斂到更好的狀態(tài)。目前，CHAML已經(jīng)用于百度地圖的POI推薦業(yè)務(wù)，并且取得顯著的應(yīng)用效果。

新技術(shù)助力百度搜索引擎性能與效果提升

如何進(jìn)一步優(yōu)化提升百度搜索引擎的體驗(yàn)和效率，是百度技術(shù)人員一直關(guān)注的問題。此次KDD?2021百度中選論文中，有數(shù)篇圍繞百度搜索引擎性能效果提升探討了最新技術(shù)研究成果，包含使用百度先進(jìn)的中文預(yù)訓(xùn)練語言模型文心（ERNIE），快速近鄰檢索（ANN）和快速最大內(nèi)積檢索（MIPS），高效智能在線推理系統(tǒng)JiZhi（極智）等。

7.?基于預(yù)訓(xùn)練語言模型的百度搜索排序

Pre-trained?Language?Model?based?Ranking?in?Baidu?Search

排序作為搜索的核心，在滿足用戶的信息需求方面起著至關(guān)重要的作用。近來，基于預(yù)訓(xùn)練語言模型?(PLM)?的微調(diào)方法取得了當(dāng)前最好的效果。然而，在大規(guī)模搜索引擎中應(yīng)用基于PLM的排序模型卻并不容易：1.?PLM的計(jì)算成本過高，尤其是對(duì)于排序中的長文本，限制了他們?cè)诘脱訒r(shí)系統(tǒng)中的部署；2.?現(xiàn)有的預(yù)訓(xùn)練目標(biāo)與相關(guān)性無關(guān)，直接應(yīng)用相關(guān)性無關(guān)的PLM模型，是限制基于PLM的排序模型的另一個(gè)主要障礙；3.?現(xiàn)有的排序模型需要和其他排序模型共同應(yīng)用，因此模型與其他模型的兼容性對(duì)于一個(gè)排序系統(tǒng)來說也至關(guān)重要。

在本工作中，我們提出了一系列如何成功部署最先進(jìn)的中文預(yù)訓(xùn)練語言模型（ERNIE）的技術(shù)。首先，我們闡明了如何高效地抽取文檔的摘要，并提出了能強(qiáng)大的Pyramid-ERNIE?架構(gòu)將查詢、標(biāo)題和摘要三者建模。然后，我們提出了一個(gè)范式來精細(xì)地利用大規(guī)模的有噪聲和偏見的點(diǎn)擊后行為數(shù)據(jù)進(jìn)行面向相關(guān)性的預(yù)訓(xùn)練。其次，我們還提出了一種為在線排名系統(tǒng)量身定制的人工錨定微調(diào)策略，旨在保證基于PLM的排序模型和其他模塊的兼容性。最后，大量的離線和在線實(shí)驗(yàn)結(jié)果表明，所提出的方法可以顯著提高了搜索引擎的性能。

8.?預(yù)訓(xùn)練語言模型在百度大規(guī)模網(wǎng)頁召回中的應(yīng)用

Pre-trained?Language?Model?for?Web-scale?Retrieval?in?Baidu?Search

召回是網(wǎng)頁搜索中的重要階段，其功能在于從海量網(wǎng)頁庫中找到一個(gè)相對(duì)較小的相關(guān)候選集。其中，基于語義相關(guān)的召回有助于展現(xiàn)更多高質(zhì)量的搜索結(jié)果給用戶。但是，搭建和部署一個(gè)高效的語義召回模型，在搜索引擎業(yè)務(wù)中一直面臨著諸多挑戰(zhàn)。本文介紹了目前百度搜索中所使用的基于預(yù)訓(xùn)練語言模型的召回系統(tǒng)。此系統(tǒng)采用了百度自研的中文預(yù)訓(xùn)練語言ERNIE，通過應(yīng)用基于多層Transformer的模型結(jié)構(gòu)，以及多階段的訓(xùn)練流程，賦予了召回系統(tǒng)強(qiáng)大的語義匹配能力。同時(shí)，本文還介紹了基于預(yù)訓(xùn)練的召回模型在整個(gè)召回系統(tǒng)中的工作流程。通過嚴(yán)謹(jǐn)?shù)碾x線和線上實(shí)驗(yàn)驗(yàn)證，基于預(yù)訓(xùn)練語言模型的召回系統(tǒng)已全量部署在百度搜索業(yè)務(wù)中，提升了百度搜索的整體效果。

9.?基于模調(diào)節(jié)近鄰圖的最大內(nèi)積檢索

Norm?Adjusted?Proximity?Graph?for?Fast?Inner?Product?Retrieval

快速近鄰檢索（ANN）和快速最大內(nèi)積檢索（MIPS）是工業(yè)界超大規(guī)模排序系統(tǒng)的核心，在搜索引擎公司的各項(xiàng)主要業(yè)務(wù)中發(fā)揮了巨大作用。有關(guān)ANN和MIPS的各項(xiàng)前沿研究在百度已經(jīng)有了很長的歷史。從2019年開始，通過學(xué)術(shù)論文百度逐步而系統(tǒng)地對(duì)外公開了自主開發(fā)的各項(xiàng)ANN和MIPS核心技術(shù)。這篇KDD?2021論文就是其中之一。

最大內(nèi)積檢索（MIPS）旨在快速查找與檢索向量（Query）內(nèi)積最大的候選向量，原本是學(xué)術(shù)界和工業(yè)界的一個(gè)重大難題。最大內(nèi)積檢索之所以具有挑戰(zhàn)是因?yàn)閮?nèi)積不符合三角關(guān)系，即內(nèi)積不是度量標(biāo)準(zhǔn)（Metric?Measure）。傳統(tǒng)的快速向量檢索技術(shù)多為Metric?Measure所設(shè)計(jì)，如歐式距離和余弦距離。這些傳統(tǒng)方法并不適用于最大內(nèi)積檢索。比如針對(duì)Metric?Measure效果非常好的圖索引方法就不能直接應(yīng)用到最大內(nèi)積檢索中。在本文中我們提出模調(diào)節(jié)圖索引結(jié)構(gòu)，將針對(duì)Metric?Measure的圖索引結(jié)構(gòu)擴(kuò)展到最大內(nèi)積檢索任務(wù)中。大量實(shí)驗(yàn)表明，該方法相比于之前有代表性的內(nèi)積檢索方法，有很大的性能優(yōu)勢(shì)。我們提出的方法NAPG相比于之前有代表性的MIPS方法ip-NSW，Greedy-MIPS和Rang-LSH，在檢索性能上有巨大優(yōu)勢(shì)。在同等召回率水平上，該方法可以處理的查詢數(shù)遠(yuǎn)多于其他方法。

10.?JIZHI：百度面向網(wǎng)絡(luò)應(yīng)用的實(shí)時(shí)高效模型預(yù)估系統(tǒng)

JIZHI:?A?Fast?and?Cost-Effective?Model-As-A-Service?System?for?Web-Scale?Online?Inference?at?Baidu

對(duì)于來自數(shù)億級(jí)用戶的巨量預(yù)估請(qǐng)求，如何能夠以超低成本支撐起超大規(guī)模離散稀疏深度模型進(jìn)行高效的實(shí)時(shí)在線推理仍然具有極大挑戰(zhàn)性。在本文中，我們構(gòu)建了一套高效智能在線推理系統(tǒng)JiZhi（極智），將每個(gè)請(qǐng)求的推理過程轉(zhuǎn)換為一個(gè)階段式的事件驅(qū)動(dòng)處理流（SEDP），創(chuàng)新性的以全局最優(yōu)視角自適應(yīng)精細(xì)化調(diào)整各個(gè)階段最合理的架構(gòu)算法和參數(shù)，動(dòng)態(tài)調(diào)度模型預(yù)估算力的分配，更加智能通用的適應(yīng)各種預(yù)估應(yīng)用場(chǎng)景。通過多層次自適應(yīng)緩存機(jī)制，大幅減少了由超大規(guī)模稀疏模型參數(shù)引起的計(jì)算成本和數(shù)據(jù)訪問延遲，進(jìn)一步加速在線推理過程。此外，JiZhi還實(shí)現(xiàn)了智能資源管理機(jī)制，從系統(tǒng)運(yùn)行期歷史中學(xué)習(xí)最佳的資源分配計(jì)劃，調(diào)整負(fù)載控制策略，最大限度的提高JIZHI的系統(tǒng)吞吐。JIZHI已在百度20多個(gè)業(yè)務(wù)場(chǎng)景落地，從端到端的實(shí)現(xiàn)成本、服務(wù)延遲、系統(tǒng)吞吐量、資源消耗等角度展現(xiàn)出了JIZHI系統(tǒng)顯著的優(yōu)勢(shì)，在保障模型效果的前提下節(jié)省了大量的實(shí)現(xiàn)、硬件和基礎(chǔ)設(shè)施的應(yīng)用成本。

AI+房地產(chǎn)評(píng)估：從地理分布、人口流動(dòng)性分布、居民人口學(xué)分布等多個(gè)角度構(gòu)建豐富的特征集，以對(duì)房地產(chǎn)價(jià)值進(jìn)行全面綜合的剖析。

11.?MugRep:?一種面向房地產(chǎn)評(píng)估的多任務(wù)層次圖表示學(xué)習(xí)框架

MugRep:?A?Multi-Task?Hierarchical?Graph?Representation?Learning?Framework?for?Real?Estate?Appraisal

房地產(chǎn)評(píng)估是指對(duì)房地產(chǎn)的市場(chǎng)價(jià)值進(jìn)行公正評(píng)價(jià)的過程，其對(duì)房地產(chǎn)市場(chǎng)的各種參與者（如房地產(chǎn)經(jīng)紀(jì)人、估價(jià)師、貸款人和買家）的決策過程起著至關(guān)重要的作用。然而，要做到準(zhǔn)確的對(duì)房地產(chǎn)進(jìn)行評(píng)估并不容易，將主要面臨三個(gè)方面的挑戰(zhàn)：(1)?房地產(chǎn)價(jià)值復(fù)雜的影響因素；(2)?房地產(chǎn)交易間的異步時(shí)空依賴；(3)?城市居民社區(qū)間的多元相關(guān)性。針對(duì)以上幾大挑戰(zhàn)，本文提出了一種多任務(wù)層次圖表示學(xué)習(xí)框架?(MugRep)，用來準(zhǔn)確的評(píng)估房地產(chǎn)。具體來說，通過獲取和整合多源城市數(shù)據(jù)，本文首先從地理分布、人口流動(dòng)性分布、居民人口學(xué)分布等多個(gè)角度構(gòu)建豐富的特征集，以對(duì)房地產(chǎn)價(jià)值進(jìn)行全面綜合的剖析。然后，我們提出了一種演化的房地產(chǎn)交易事件圖卷積模塊，以融合房地產(chǎn)交易之間的異步時(shí)空依賴。此外，為了進(jìn)一步從居民社區(qū)的視角提取有價(jià)值的知識(shí)，我們?cè)O(shè)計(jì)了一種分層異構(gòu)的社區(qū)圖卷積模塊，以捕獲居民社區(qū)之間的多元相關(guān)性。最后，我們引入以城區(qū)作為劃分的多任務(wù)學(xué)習(xí)模塊，以生成不同分布的房地產(chǎn)評(píng)估意見。我們?cè)趦蓚€(gè)真實(shí)數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn)，結(jié)果證明了MugRep及其組件和特性的有效性。

AI+人才管理：聚焦新領(lǐng)域的創(chuàng)新突破

一直以來，百度在“AI+人才管理”方面也實(shí)現(xiàn)了深厚的技術(shù)研究積累，今年年初就有相關(guān)研究成果登上國際頂級(jí)刊物Nature子刊Nature?Communications。在KDD?2021的被錄取論文中，百度相關(guān)研究團(tuán)隊(duì)展現(xiàn)了在工作流動(dòng)行為預(yù)測(cè)、人才需求預(yù)測(cè)等方面的最新研究成果。

12.?基于異構(gòu)圖注意力表征的工作流動(dòng)行為預(yù)測(cè)

Attentive?Heterogeneous?Graph?Embedding?for?Job?Mobility?Prediction

??在當(dāng)今人才經(jīng)濟(jì) 時(shí)代，跳槽頻繁現(xiàn)象已經(jīng)成為新常態(tài)。因此，對(duì)工作流動(dòng)預(yù)測(cè)的研究應(yīng)運(yùn)而生，它能使組織和個(gè)人在多個(gè)方面獲益。本文聚焦在工作流動(dòng)預(yù)測(cè)任務(wù)，現(xiàn)有研究主要集中在對(duì)個(gè)體層面的職業(yè)軌跡建模，而很大程度上忽略在宏觀層面上職業(yè)流動(dòng)的影響（例如，在公司與公司或崗位與崗位之間的人才流動(dòng)）。實(shí)際上，這種宏觀層面上的職業(yè)流動(dòng)信息能夠反映出人才市場(chǎng)的趨勢(shì)，對(duì)個(gè)人的跳槽決定會(huì)產(chǎn)生一定影響。為此，本文提出一種建模宏觀層面職業(yè)流動(dòng)行為影響來輔助預(yù)測(cè)個(gè)體層面的工作流動(dòng)框架（Ahead）。首先，從觀測(cè)到的職業(yè)軌跡鏈中構(gòu)造異質(zhì)企業(yè)-崗位網(wǎng)絡(luò)來保留宏觀層面的職業(yè)流動(dòng)信息。其次，本文構(gòu)建了AHGN模塊從異質(zhì)圖中獲取崗位和企業(yè)豐富的語義表征。其中提出了兩種聚合器，分別用來聚合內(nèi)部和外部鄰居的信息，以及一種新穎的類型注意機(jī)制被用來融合兩種聚合器的信息以更新節(jié)點(diǎn)表示。最后在公開互聯(lián)網(wǎng) 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果從多個(gè)角度證明了本文方法的有效性。

13.?基于注意力序列模型的人才需求預(yù)測(cè)

Talent?Demand?Forecasting?with?Attentive?Neural?Sequential?Model

??人才需求預(yù)測(cè)（Talent?Demand?Forecasting）技術(shù)是指根據(jù)公開互聯(lián)網(wǎng)數(shù)據(jù)對(duì)未來公司的人才招聘需求進(jìn)行預(yù)測(cè)的技術(shù)。在當(dāng)今瞬息萬變的商業(yè) 環(huán)境中，根據(jù)公開數(shù)據(jù)及時(shí)預(yù)測(cè)各個(gè)企業(yè)在招聘市場(chǎng)中的人才需求趨勢(shì)，不僅可以幫助企業(yè)指定合適的人才斬落，保持自身人才競(jìng)爭(zhēng)力，還可以幫助政府從宏觀角度對(duì)人力市場(chǎng)的供需關(guān)系進(jìn)行分析。雖然已有很多在招聘市場(chǎng)分析方面的工作，但由于細(xì)粒度人才需求時(shí)間序列的稀疏性和招聘市場(chǎng)復(fù)雜的時(shí)序模式，仍然沒有有效的方法可以預(yù)測(cè)細(xì)粒度的人才需求動(dòng)態(tài)。為此，在本文中，我們提出了一種數(shù)據(jù)驅(qū)動(dòng)的注意力序列模型，即人才需求注意力網(wǎng)絡(luò)（TDAN），用于預(yù)測(cè)公開市場(chǎng)中的細(xì)粒度人才需求。我們首提取多個(gè)粒度級(jí)別上人才需求的時(shí)間序列，并使用矩陣分解技術(shù)提取公司和職位的內(nèi)在屬性。然后，我們?cè)O(shè)計(jì)了一種混合注意力模塊來捕捉公司的趨勢(shì)和行業(yè)的趨勢(shì)，用以增強(qiáng)細(xì)粒度人才需求的信息。接著設(shè)計(jì)了一個(gè)相關(guān)性注意力時(shí)序模塊，用于對(duì)隨公司和職位變化的復(fù)雜的時(shí)間相關(guān)性進(jìn)行建模。最后，在大規(guī)模公開互聯(lián)網(wǎng)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn)，結(jié)果驗(yàn)證了所提方法在細(xì)粒度人才需求預(yù)測(cè)方面的有效性，展示了其對(duì)招聘趨勢(shì)建模的可解釋性。