我們探究了將原始數(shù)據(jù)映射到切合特性矢量的辦法,但這只是事情的一局部。如今,我們必需探究什么樣的值才算這些特性矢量中精良的特性。
精良的特性值應(yīng)該在數(shù)據(jù)會(huì)合顯現(xiàn)約莫 5 次以上。如此一來,模子就可以學(xué)習(xí)該特性值與標(biāo)簽是怎樣關(guān)聯(lián)的。也就是說,多量散伙值相反的樣本可讓模子天然會(huì)了解不同設(shè)置中的特性,從而推斷何時(shí)可以對標(biāo)簽很好地做出猜測。比如,house_type 特性約莫包含多量樣本,此中它的值為 victorian:
?house_type: victorian
相反,假如某個(gè)特性的值僅顯現(xiàn)一次大概很少顯現(xiàn),則模子就無法依據(jù)該特性舉行猜測。比如,unique_house_id 就不適互助為特性,由于每個(gè)值只使用一次,模子無法從中學(xué)習(xí)任何紀(jì)律:
?unique_house_id: 8SK982ZZ1242Z
每個(gè)特性關(guān)于項(xiàng)目中的任何人來說都應(yīng)該具有明晰明白的涵義。比如,底下的房齡適互助為特性,可立刻識別是以年為單位的房齡:
?house_age: 27
相反,關(guān)于下方特性值的涵義,除了創(chuàng)建它的工程師,其他人恐怕辨識不出:
?house_age: 851472000
在某些情況下,雜亂的數(shù)據(jù)(而不是糟糕的工程選擇)會(huì)招致涵義不明晰的值。比如,以下 user_age 的泉源沒有反省值得當(dāng)與否:
?user_age: 277
精良的浮點(diǎn)特性不包含超出范圍的特別斷點(diǎn)或特別的值。比如,假定一個(gè)特性具有 0 到 1 之間的浮點(diǎn)值。那么,如下值是可以承受的:
?quality_rating: 0.82
quality_rating: 0.37
不外,假如用戶沒有輸入 quality_rating,則數(shù)據(jù)集約莫使用如下特別值來表現(xiàn)不存在該值:
?quality_rating: -1
為處理特別值的成績,需將該特性轉(zhuǎn)換為兩個(gè)特性:
特性的界說不應(yīng)隨時(shí)間產(chǎn)生厘革。比如,下列值是有效的,由于都市稱呼尋常不會(huì)改動(dòng)。(注意,我們?nèi)耘f必要將“br/sao_paulo”如此的字符串轉(zhuǎn)換為獨(dú)熱矢量。)
?city_id: "br/sao_paulo"
但搜集由其他模子推理的值會(huì)產(chǎn)生分外本錢。約莫值“219”現(xiàn)在代表圣保羅,但這種表現(xiàn)在將來運(yùn)轉(zhuǎn)其他模子時(shí)約莫容易產(chǎn)生厘革:
?inferred_city_cluster: "219"
版權(quán)聲明:本文來自互聯(lián)網(wǎng)整理發(fā)布,如有侵權(quán),聯(lián)系刪除
原文鏈接:http://m.freetextsend.comhttp://m.freetextsend.com/wangluozixun/33606.html