芝麻信用評分模型解析

傳統的徵信系統,其數據來源比較單一,但是這些系統當中記錄的都是關於個人和企業比較核心的金融數據,如信貸、保險、稅收等,都是「真金白銀」,與個人信用關聯度比較強。互聯網公司積累的數據雖然多,但是這些數據和個人信用關聯度比較弱,如何用這些關聯度弱的數據,分析出與個人信用的關係,是個難題。

此外,數據來源單一、數據的第三方問題、隱私保護問題等,也是公眾和監管層對芝麻信用的擔憂和顧慮。芝麻信用該如何破解這些顧慮?

數據來源是哪?

打開手機支付寶APP,點擊首頁淡綠色空心的水滴「芝麻信用分」,授權開通后,每個用戶都可以看到自己的芝麻信用分。從350分到950分,分數越高代表信用程度越好,違約可能性越低。

Advertisements

「芝麻信用分,是芝麻信用『皇冠上的明珠』,它是每個人信用程度的濃縮。但是,這個分數只是冰山一角,它的下面還有一座巨大的冰山。」胡滔介紹。

數據來源,是這座冰山的重要構成部分。芝麻信用分正是依據芝麻信用能夠用到的數據打出來的,這些數據包括芝麻信用所在的螞蟻金服集團多年積累的數據和與外部合作機構的數據。

芝麻信用管理有限公司,是螞蟻金服集團旗下的子品牌。阿里巴巴和螞蟻金服本身積累的數據,是芝麻信用的一大優勢。這些數據包括淘寶、天貓等電商平台網路購物的相關行為數據,支付寶平台水電煤電信繳費數據、各種生活服務場景相關數據,還有千萬級以上的貸款數據。其中,貸款數據包括阿里巴巴平台上接近兩百多萬的小企業貸款數據,千萬級的天貓分期購的數據,以及消費者無憂支付產品螞蟻花唄的數據。

Advertisements

「集團自有的數據,只佔我們所有數據的一小部分,我們還有一大部分數據是和外部合作的。」胡滔介紹。

外部的數據源大致可以分為政府公共部門的數據、合作企業的數據、金融機構的數據、用戶自主上傳的數據等幾個方面。

政府數據目前完全開放的還不多。胡滔介紹,目前政府已經開放的工商、學歷、學籍、公安四個方面的數據,芝麻信用已經全部接入。今年7月1日,芝麻信用和最高人民法院實現專線連接,實時更新「老賴」(失信被執行人)數據。芝麻信用是最高法首個接入的市場化徵信機構。接受媒體採訪的當天早上,芝麻信用和最高人民法院執行局簽署《合作備忘錄》,雙方將在此前失信被執行人(老賴)專線同步的基礎上,進一步加大對老賴的信用懲戒力度,包括擴大信用懲戒範圍、加大消費限制內容等。

「政府的數據公開這一塊,我們也在思考政府為什麼要開放數據給你。在現階段唯一的解就是為他創造價值。」胡滔舉例說,比如和最高法執行局的合作,就是芝麻信用接入之後,老賴們在網路上的消費會受到限制,這對案件執行來講是有價值的。芝麻信用分是每月6日更新的,胡滔透露,很多老賴都開通了芝麻信用分,接入最高法執行局后,有人看到自己分數下降的很厲害,就打電話來問,感受到了失信者受限的麻煩。

目前,芝麻信用的合作企業有30多家,神州租車是首家與芝麻信用合作的企業。此外還有婚戀網站、酒店等各種生活場景中的商家。當用戶的芝麻分達到一定數值,租車、住酒店時可以不用再交押金,網購時可以先試后買,辦理簽證時不用再辦存款證明,貸款時可以更快得到批複、拿到比別人低的利率,甚至相親時也可以最大程度避免婚騙。

互聯網公司與銀行的合作並非易事。之前媒體報道,銀行目前都有自己的違約概率模型,數據來源是央行徵信中心或銀行自身,數據類型都是和信貸違約息息相關的「硬數據」。目前中國銀行業風控效果良好,低於世界平均水平,因此銀行未必有動力與芝麻信用合作。同時,有銀行業人士接受媒體採訪時表示,螞蟻金服旗下有螞蟻小貸做小貸業務,還有網商銀行,這對銀行而言都屬於競爭者,因此不可能將核心數據提供給競爭者。

但是,6月25日,北京銀行成為芝麻信用的首家合作銀行,雙方將開展信用信息查詢和應用、產品研發、商業活動等多個方面的合作。胡滔透露,還有幾家銀行的合作也正在談,但是合作並不是數據共享,而是全流程的信用風險管理。

其他的金融機構,芝麻信用也在謹慎地嘗試接入個別的P2P平台,但是目前接入的P2P數量並不太多,大概不到10家。

目前,芝麻信用與合作夥伴之間的合作都是免費的。其他更多的合作方式,胡滔表示,芝麻信用給每個行業都有定製的解決方案,將擇時公布。

除了合作夥伴的數據之外,在支付寶9.0版本中,芝麻信用在「芝麻信用分」的下面,添加了一個「+」按鈕,用戶可以點擊添加自己的相關信息,以獲得更準確的信用評分。

怎麼做數據分析?

通過多種渠道彙集的數據,在芝麻信用分的評分當中,被分為五個維度:身份特質、履約能力、信用歷史、人脈關係、行為偏好。芝麻信用首席信用數據科學家俞吳傑向媒體詳細解釋了每一項的具體含義。

身份特質是指在使用相關服務過程中留下的個人基本信息,包括從公安、學歷學籍、工商、法院等公共部門獲得的個人資料,未來還可能包括網路使用習慣等可以用於推測個人性格的數據。

履約能力包括享用各類信用服務並確保及時履約,例如租車是否按時歸還,水電煤氣是否按時交費等,還包括通過消費情況、消費穩定性、消費層次等等來判斷用戶未來履約有什麼樣的能力。

信用歷史是指過往信用賬戶還款記錄及信用賬戶歷史。俞吳傑介紹,這些歷史包括用戶的在螞蟻微貸、螞蟻花唄等螞蟻金服旗下服務的信用歷史、用支付寶還款的歷史,還包括用戶在合作夥伴處產生的信用歷史,「我們把信用歷史看得非常重要。因為大量的研究已經表明,如果一個人有持續的好的借貸還款行為的話,他在其他各個場景當中都會有類似的延續、慣性。」

人脈關係是指好友的身份特徵以及跟好友互動的程度。根據「物以類聚人以群分」的理論,通過轉賬關係、校友關係等作為評判個人信用的依據之一。俞吳傑解釋,當我們在判斷關係的時候,要看兩個人之間聯繫的緊密程度如何,以及歷史的一貫的行為表現是怎樣的,這些都是通過一個一個的模型判斷出來的,而每個模型在判斷一個指標的時候,都會用到幾十上百個變數。

行為偏好是指在購物、繳費、轉賬、理財等活動中的偏好及穩定性。「比如講一個用戶你是否經常做一些與家庭責任相關的、跟社會責任相關的事情,在你購物的行為當中能不能體現出這種特徵,如果是的話可能對你的個人信用會有正向的作用。」俞吳傑解釋。

這些維度的評價,如何與個人信用建立聯繫?

美國個人消費信用評估公司FICO的信用評分在美國的應用是最為廣泛的,美國三大信用局都使用FICO的信用分。FICO信用分計算的基本原理是,把借款人過去的信用歷史資料與資料庫中的全體借款人的信用習慣相比較,檢查借款人的發展趨勢跟經常違約、隨意透支、甚至申請破產等各種陷入財務困境的借款人的發展趨勢是否相似。

俞吳傑告訴環球照明網,芝麻信用的大數據評分的原理是類似的。「傳統的方法當中,每個變數與信用的關聯比較強,可能有某個特徵就是好的,沒有某個特徵就是壞的。大數據的場景下的很多關聯不像傳統的方法當中強,可能很多的特徵都是弱關聯,有關聯但是彼此之間並不是很直接。但是當我們把很多個弱關聯的特徵聯合在一起的時候就變成了一個非常強的預測變數,可以來判斷這個人未來可能會守約還是違約。」

他舉了個例子:「比如說要判斷一個人的家庭責任感,購物中的哪些類目會體現出家庭責任感呢?沒有一個類目能說完。但是如果研究很多不同的類目,比如說你是不是在購買跟生活相關的紙巾類的物品、或者購買嬰兒類相關的物品、學習類書籍,當把這些不同的類目聯合在一起去看的時候,當一個人有眾多的弱變數都指向是一個行為特徵,他就變成了一個組合起來的強特徵。」

這需要對大量的數據進行處理。俞吳傑進一步說:「當我們要去處理那麼多變數那麼多弱特徵的時候,技術以及需要投入的處理能力就需要非常強。」

他接著解釋:「一方面,我們人平時思考到的那些東西,比如地址穩定性、手機號碼穩定性和個人信用到底有沒有關係,數據和演算法可以幫我們去檢驗;另一方面,我們人想不到的維度,只要把足夠的數據放進去,機器能夠幫我們兩兩比對,不同的關聯組合起來以後,就可以知道違約和守約的區分。」

這是一個不斷調整、優化的過程,隨著數據源的擴大、應用場景的不斷豐富,實際檢驗效果會越來越清晰。同時,俞吳傑也指出:「實際上,很多時候也不需要掌握所有的信息才能對一個人做出最完整的、客觀的評價,因為很多信息是具有代表性的,只要我們在足夠有說服力的方面拿到核心的信息,就可以對一個人做出相對比較準確的判斷。」

他介紹,目前比較前沿的一些演算法,如決策樹、隨機森林、支持向量機、神經網路等,芝麻信用都在研究嘗試。

目前,芝麻信用分在實踐中檢驗的結果,其產生的壞賬率在合作夥伴可以接受的範圍內,這也是讓芝麻信用充滿信心的原因。

芝麻信用整個團隊有130人,其中2/3是數據和技術團隊。胡滔介紹,數據分析團隊是芝麻信用的核心。芝麻信用從國外引入了做徵信模型做得最好的FICO的首席科學家,還有美國三大徵信局之一艾可菲(Equifax) 專門做產品和業務的優秀華人。

胡滔對自己的團隊充滿信心:「他們在國外積累的經驗,結合我們今天大數據和技術的優勢,包括整個中國的市場,一定可以做出成績。我經常也跟團隊說,今天芝麻一小步就是中國一大步,因為我們做的每件事情在中國都是沒有先例的。今天我們的徵信才剛剛起步,美國是170年前起步的,我們的今天是他們的昨天,但是我們的明天可能是他們的後天。」

如何保護隱私?

此前,有業內人士告訴環球照明網,利用大數據進行信用評估,目前只對特定人群、特定服務有效,比如對年輕人進行小額消費貸款。

芝麻信用分目前的適用範圍是不是僅限於年輕人的小額消費貸款?胡滔對此予以否認。她告訴環球照明網,芝麻信用希望對所有人的信用進行評估,而不僅僅是年輕人。

芝麻信用分開始公測之後,網上有人聲稱可以「刷分」,即幫助提高芝麻信用分。俞吳傑強調,現在聲稱可以「刷分」的都是騙子。

他解釋,芝麻信用分的整個模型有極其複雜的機器演算法,演算法下面有很多的變數,如果追溯到源頭的數據可能就有成千上萬個,每個變數都很重要但是又是有限的。他說:「而且我們會加很多很穩定的機制,比如說轉帳也好還款也好,我們不會看你昨天一天前天一天,我們會看你很長一個歷史是不是持續在做這樣一件事情。所以這個就會導致,第一你找不出任何一個點能夠給你的信用帶來巨大提升,第二機器演算法本身是一個相對黑匣子的東西,你不知道你的這個行為最後到底是否有直接關係,尤其是當我們應用了更加複雜的演算法以後都不是一個線性的關係,不是做了一件事就一定對結果有正向的影響。它是一個非常複雜的網路系統,網上看到的各種漲分秘籍在我個人看來非常可笑。」

此前,據財新報道,央行給予八家徵信機構六個月準備期可能出於兩條顧慮:其一是數據的第三方問題,其二便是如何保護隱私。

當時,俞吳傑在關於隱私保護方面介紹,芝麻信用從信息的調用、運算、應用等層面保護用戶個人信息:

第一,很多數據,不是存在芝麻信用,而是在各數據源,如政府機構、合作夥伴、電商平台等。

第二,得到芝麻用戶的授權,我們的系統才會調用各數據源和用戶相關的數據,這個調用過程是沒有人工參與的,都是系統運營的。

第三,系統運營的過程,會通過運算規則的設置,按照法規要求,不碰種族、血型、宗教、信仰等等信息。

第四,整個數據開發團隊有很好的防護牆,只有核心成員知道系統運營的內核是什麼。但即使他們知道運營規則,也不能接觸到用戶的信息,整個計算是在黑匣子里。

第五,只有在用戶授權的情況下,第三方才可以調用用戶的芝麻分等信用數據。

其表示,從用戶數據的調用、運算,到第三方對信用分等的使用都是在用戶授權的前提下進行,芝麻評分全過程工作人員不接觸用戶的信息,一切均由系統運營,確保用戶隱私全程保密。

關於獨立第三方的問題,當時芝麻信用商務拓展負責人鄧一鳴的解釋是,一方面芝麻信用僅有少部分數據來自「阿里系」,另一方面螞蟻金服和阿里巴巴都是平台,本身不買賣貨物,基本沒有自營,因此產生的數據本就屬於第三方數據。「對於這個解釋,監管層是認同的。」鄧一鳴說。

現在,芝麻信用對這個問題給出了更好的答案。胡滔介紹,芝麻信用是獨立的一家註冊在杭州的徵信公司,這個是物理上、組織架構上的獨立。另外在董事會層面,芝麻信用邀請了金融界一位非常有影響力的華人董事,他將在芝麻信用董事會中擁有相當的許可權,每一次會議和董事會的決議都可追溯、可查詢。「希望他能夠參與到我們整個公司的監督裡面。其實最核心的是保護消費者的利益,特別是個人隱私權保護能不能很好的落到實處。第二個非常重要的,就是我們獨立性這塊,和集團內其他的業務單元和子公司的關聯交易的獨立性保障。」

文章來源:《環球照明網》(原文題為「芝麻信用的數據來源以及評分的五個維度」)

數據分析網(www.afenxi.com),國內領先的大數據門戶,旨在幫助大數據從業人士、愛好者提供大數據新聞資訊、前沿技術、業界觀點的信息平台。

Advertisements

你可能會喜歡