一文带你读懂特征工程


无论它的规模和大小如何,数据已经成为现代企业、公司和组织的一流资产。任何一个智能系统都需要数据驱动,无论它多复杂。每个智能系统的核心,均有一个或多个基于某种数据学习方法的算法,例如机器学习、深度学习或统计方法,它们利用这些数据来生成知识,并在一段时间内提供智能洞察。


算法本身是非常通用的,但无法在普通原始数据上有效发挥作用。因此,需要从原始数据中提取有意义的特征,我们才能够理解和使用这些数据。


任何一个智能数据洞察系统基本上都由端到端的管道组成:

先是获取原始数据; 然后利用数据处理技术,从这些数据中获取、处理和提取有意义的特征和属性; 最后,通常利用统计模型或机器学习模型等技术对这些特征进行建模。


如果有必要的话,还需要根据手头要解决的问题部署该模型以供将来使用。

获取原始数据后,直接在数据之上构建模型是鲁莽的,因为我们无法从普通原始数据中获得想要的结果或性能,而且算法本身也不会自动从中提取有意义的特征。在上图中指出的数据准备方面,在对原始数据进行必要的清洗、预处理分析之后,便可以采用多种方法从中提取有意义的属性或特征。特征工程是一门艺术,也是一门科学,这也是为什么数据科学家在建模之前通常会把70%的时间花在数据准备上。


“特征工程是将原始数据转化为特征的过程,这些特征可以更好地向预测模型描述潜在问题,从而提高模型对未见数据的准确性。”

-Jason Brownlee博士


这让我们深入了解了为什么特征工程是一个将数据转化成作为机器学习模型输入的特征的过程,换句话说,高质量的特征有助于提高模型整体的性能和准确性。特征在很大程度上与基本问题相关联。


因此,即使机器学习任务在不同的场景中可能是相同的,比如将物联网事件分类为正常和异常行为,或者将客户情绪分类,但每个场景中提取的特征都会有很大的不同。


什么是特征?


特征通常是建立在原始数据之上的特定表示,它是一个单独的可测量属性,通常用数据集中的列表示。对于一个通用的二维数据集,每个观测值由一行表示,每个特征由一列表示,对于每一个观测具有一个特定的值。


因此,就像上图中的例子一样,每行通常表示一个特征向量,所有观察到的全部特征集形成一个二维特征矩阵,也称为特征集。这类似于用来表示二维数据的数据框或电子表格。机器学习算法通常与这些数值矩阵或张量一起工作,因此绝大多数特征工程技术都是将原始数据转换为一些数值表达,以便算法理解。


基于数据集的特征可以分为两大类:


固有的原始特征是直接从数据集获得的,没有额外的数据操作。 派生特征通常是从特征工程中获得的,是从现有的数据属性中提取出来的特征。


举一个简单的例子:通过将当前日期减去订单日期,可以从包含“订单日期”的订单数据集中创建一个新的“订单履行日期”。另一方面,在特定的深度学习算法中,特征通常比较简单,因为算法本身会内部转化数据。这种方法需要的数据量会比较大,并以牺牲解释性为代价。然而,在图像处理或自然语言处理用例中,这样的折中方法往往是值得的。


对于公司面临的大多数其他用例,例如预测分析,特征工程是将数据转换成机器学习所需要的格式。特征的选择对模型的解释性和性能都至关重要。如果没有特征工程,今天的大公司就无法部署精确的机器学习系统。

特征工程


数值数据通常以标量值的形式描述观测、记录或测量数据。在这里,我们所说的数值数据是指连续数据,而不是通常用来表示分类数据的离散数据。数值数据也可以是向量值,其中向量中的每个值或实体都可以表示一个特定的特征。整数和浮点数是连续数值数据中最常见和最广泛使用的数值数据类型。


即使数值数据可以直接输入机器学习模型,在构建模型之前,仍然需要设计与场景、问题和领域相关的特征。因此,对特性工程的需求仍然存在。



  • 涓鏂囧甫浣犺鎳傜壒寰佸伐绋
    绛旓細鍥犳锛屽氨鍍忎笂鍥句腑鐨勪緥瀛愪竴鏍凤紝姣忚閫氬父琛ㄧず涓涓壒寰佸悜閲忥紝鎵鏈夎瀵熷埌鐨勫叏閮ㄧ壒寰侀泦褰㈡垚涓涓簩缁寸壒寰佺煩闃碉紝涔熺О涓虹壒寰侀泦銆傝繖绫讳技浜庣敤鏉ヨ〃绀轰簩缁存暟鎹殑鏁版嵁妗嗘垨鐢靛瓙琛ㄦ牸銆傛満鍣ㄥ涔犵畻娉曢氬父涓庤繖浜涙暟鍊肩煩闃垫垨寮犻噺涓璧峰伐浣滐紝鍥犳缁濆ぇ澶氭暟鐗瑰緛宸ョ▼鎶鏈兘鏄皢鍘熷鏁版嵁杞崲涓轰竴浜涙暟鍊艰〃杈撅紝浠ヤ究绠楁硶鐞嗚В銆傚熀浜庢暟鎹泦鐨...
  • 涓绡囨枃绔,甯︿綘璇绘噦绂忛紟鐧借尪銆佹斂鍜岀櫧鑼躲佸畨鍚夌櫧鑼躲佹湀鍏夌櫧鑼剁殑鍖哄埆...
    绛旓細绂忛紟鐧借尪绂忛紟鐧借尪浜ц嚜绂忓缓绂忛紟锛屼互澶╃劧宸ヨ壓鍜岀嫭鐗瑰姛鏁堥椈鍚嶃備富瑕佸搧绉嶆湁鐧芥閾堕拡銆佺櫧鐗′腹鍜屽鐪夈傜櫧姣摱閽堝閽堣埇鐭皬锛岀櫧鐗′腹鏈変竴鍙朵竴鑺界殑鐗瑰緛锛岃屽鐪夊垯浠ュぇ鍙跺拰绮楁涓虹壒鐐广傜榧庣櫧鑼朵互姣銆佽姳棣欏拰椴滅埥鍙f劅钁楃О锛屽姞宸ユ祦绋嬪寘鎷噰鎽樸佹憡鏅俱佽悗鍑嬪拰骞茬嚗銆傛斂鍜岀櫧鑼舵斂鍜岀櫧鑼跺悓鏍蜂骇鑷榧庢斂鍜岋紝浠ュ叾椴溿佺函鍜屾...
  • 涓鏂鏁欎綘濡備綍璇绘噦鏃ユ湰閽㈤搧鐗屽彿
    绛旓細宸ヨ壓涓庤〃闈㈠鐞</ 鍐疯涧纰崇礌閽㈢殑琛ㄩ潰澶勭悊缁嗚妭涓板瘜锛屽SPCCT锛屽瓧姣嶇粍鍚堣〃绀烘爣鍑嗚皟璐紙S锛夈佹棤鍏夋辰绮捐涧锛圖锛夊拰涓鑸敤閫斻傝繖琛ㄦ槑浜у搧宸茬粡杩囪皟璐ㄥ鐞嗭紝骞朵笖琛ㄩ潰娌℃湁鍏夋辰锛岄傜敤浜庝竴鑸敤閫旂殑鍐疯涧纰崇礌钖勬澘銆傝瑙夎緟鍔</ 涓轰簡鏇寸洿瑙傚湴鐞嗚В锛屼竴寮犺缁嗙殑鍥捐〃鎴栧浘鐗囧皢甯姪浣犲揩閫熸帉鎻¤繖浜涘鏉備俊鎭紝鐩磋灞曠ず姣忎釜鐗屽彿鐨鐗瑰緛...
  • 涓鏂囧甫浣犺鎳Python涓殑杩涚▼
    绛旓細(2) 褰撲竴涓柊杩涚▼杩涘叆鍐呭瓨鍚,棣栧厛灏嗗畠鏀惧叆绗竴闃熷垪鐨勬湯灏,鎸塅CFS鍘熷垯鎺掗槦绛夊緟璋冨害銆傚綋杞埌璇ヨ繘绋嬫墽琛屾椂,濡傚畠鑳藉湪璇ユ椂闂寸墖鍐呭畬鎴,渚垮彲鍑嗗鎾ょ绯荤粺;濡傛灉瀹冨湪涓涓椂闂寸墖缁撴潫鏃跺皻鏈畬鎴,璋冨害绋嬪簭渚垮皢璇ヨ繘绋嬭浆鍏ョ浜岄槦鍒楃殑鏈熬,鍐嶅悓鏍峰湴鎸塅CFS鍘熷垯绛夊緟璋冨害鎵ц;濡傛灉瀹冨湪绗簩闃熷垪涓繍琛屼竴涓椂闂寸墖鍚庝粛鏈畬鎴,鍐嶄緷娆...
  • 浣犵煡閬撲繚闄╁叕鍙告庝箞鈥滆皟鏌ョ梾鍙测濆悧?涓鏂囧甫浣犺鎳淇濋櫓鍏徃鐨勨滅悊璧旇皟鏌...
    绛旓細1.鐞嗚禂鏃,鍝簺鎯呭喌浼氫弗鏍艰皟鏌 涔嬪墠,鍐欎簡寰堝鍏充簬甯︾梾鎶曚繚鐨勬枃绔,涓鐩村湪寮鸿皟濡傚疄鍛婄煡鐨勯噸瑕佹с備絾鍒板簳鏄瀹炲憡鐭ヨ繕鏄殣鐬掔梾鍙,瀹屽叏鍙栧喅浜庡ぇ瀹剁殑璇氫俊銆 灏辩畻鏈夋湅鍙嬮殣鐬掍簡鑷繁鐨勫仴搴锋儏鍐佃屾姇淇,淇濋櫓鍏徃涔熶笉浼氱珛鍗冲幓璋冩煡鍏跺尰鐤楄祫鏂欍 姣忓ぉ閮芥湁澶ч噺鐨勪汉涔颁繚闄,鎶曚繚鏃朵笉璋冩煡鍖荤枟璁板綍鏄浗闄呮儻渚嬪仛娉,杩欐牱鍋氬彲浠ヨ妭绾︿繚闄╁叕鍙...
  • 浠涔堟槸鐗╄仈缃戝簲鐢ㄧ殑閲嶈鍩虹 涓鏂囧甫浣犺鎳鐗╄仈缃
    绛旓細浠涔堟槸鐗╄仈缃戝簲鐢ㄧ殑閲嶈鍩虹 涓鏂囧甫浣犺鎳鐗╄仈缃戞杩版暟瀛楀寲杞瀷宸叉垚涓轰紬澶氫紒涓氬崄鍥涗簲鎴樼暐甯冨眬鐨勬柊瑙勫垝,闅忕潃浜戣绠椼佸ぇ鏁版嵁銆佷汉宸ユ櫤鑳藉拰5G 绛夋妧鏈殑鍏卞悓浣滅敤涓,浼佷笟鏁板瓧鍖栬浆鍨嬬殑閫熷害寰楀埌鍓嶆墍鏈湁鐨勮法瓒婂紡鍙戝睍,鍦ㄨ竟
  • 120鍒嗛挓涓鍫傝 甯︿綘璇绘噦涓婃苯鏅鸿兘鍏ㄧ悆妯″潡鍖栨灦鏋凷IGMA
    绛旓細鏄撹溅鍘熷垱 9鏈6鏃ワ紝閽堝涓婃苯鏅鸿兘鍏ㄧ悆妯″潡鍖栨灦鏋凷IGMA锛孧G鍝佺墝鎼烘墜娣锋矊瀛﹀洯寮璁句簡涓鍫120鍒嗛挓鐨勮绋嬶紝璇︾粏瑙f瀽浜嗘湰娆″叏鏂版灦鏋勭殑鐙埌涔嬪銆傛牴鎹笂姹戒笓涓宸ョ▼甯堢殑浠嬬粛锛屼綔涓轰笂姹介潰鍚戞櫤鑳芥椂浠g殑鍏ㄦ柊鏋舵瀯锛孲IGMA鏁村悎浜嗘満姊颁笌鏅鸿兘涓ゅぇ鐗瑰緛锛屼互鏈烘鏃朵唬鏈寮轰笁澶т欢鍜屾櫤鑳芥椂浠g殑鈥滃ぉ鐢熷姏鏅衡濓紝閲嶆柊瀹氫箟鍙橀潻涓殑鏂...
  • 涓鏂囧甫浣犺鎳,瀹舵棌淇℃墭鍒板簳鏄储瀵屼紶鎵胯繕鏄柊鍨嬮獥灞
    绛旓細瀹舵棌淇℃墭瀛樼画鏃堕棿闀裤佽拷姹傜ǔ鍋ャ佷紶鎵跨殑鐗规т笌FOF浜у搧鐨勯闄╂敹鐩鐗瑰緛涓庝紭鍔垮崄鍒嗗尮閰,鎵浠,杩欑瓒嬪娍鎬х殑鍙樺寲鍙兘璇存槸涓绉嶅繀鐒躲傚悓鏃,FOF涓氬姟鍩轰簬鍏惰祫浜ч厤缃殑鑳藉姏,杩樺彲浠ヤ负閮ㄥ垎瀹舵棌淇℃墭璁捐瀹氬埗鍖栫殑FOF浜у搧銆傗 寤轰俊淇℃墭淇℃墭涓氬姟鎬荤洃娌堝織寮烘鍓嶄篃鍦ㄥ叕寮鍦哄悎涓彁鍒,瀹舵棌璐㈠瘜绠$悊浠庨厤缃畝鍗曠殑璧勯噾淇℃墭鎴栬呭浐瀹氭敹鐩婁骇鍝,閫愭鍒...
  • 宸ョ▼鍒跺浘瀹炶鎬荤粨
    绛旓細涓銆佸疄璁鏄 銆婃満姊板埗鍥俱嬫槸涓闂ㄧ悊璁烘暀瀛︿笌瀹炶返鏁欏骞堕噸鐨勮绋,涓斿疄璺电幆鑺傚璇剧▼鐨勫涔犳帉鎻″強杩愮敤灏や负閲嶈銆傝瀹炶返鐜妭鏄湪缁с婃満姊板埗鍥俱嬭绋嬬悊璁烘暀瀛︿箣鍚,闆嗕腑鏃堕棿瀵瑰鐢熻繘琛屼竴娆′互璁捐銆佹祴閲忋佹墜宸ョ粯鍥句负涓浣撶殑宸ョ▼璁捐缁樺浘鑳藉姏鐨勭患鍚堣缁冦傛満姊板埗鍥炬祴缁樻妧鑳藉疄璁槸瀛︾敓瀵硅鍫傛墍瀛︾殑鍒跺浘鍩烘湰鐞嗚鐭ヨ瘑鍙婂熀鏈埗鍥炬妧鑳藉姞浠...
  • 浜斿垎閽甯︿綘璇绘噦UML绫诲浘
    绛旓細鍙﹀锛屼綘浼氭敞鎰忓埌 鍚堟垚鍏崇郴鐨勮繛绾夸袱绔繕鏈変竴涓暟瀛'1' 鍜屾暟瀛椻2'锛 杩欒绉颁负鍩烘暟銆傝〃鏄庤繖涓绔殑绫诲彲浠ユ湁鍑犱釜瀹炰緥锛 寰堟樉鐒讹紝涓涓笩搴旇鏈変袱鍙繀鑶銆 濡傛灉涓涓被鍙兘鏈夋棤鏁颁釜瀹炰緥锛屽垯灏辩敤鈥榥'鏉ヨ〃绀 銆傚叧鑱斿叧绯汇佽仛鍚堝叧绯讳篃鍙互鏈夊熀鏁扮殑銆傚姩鐗╁嚑澶鐗瑰緛锛屾瘮濡傛湁鏂伴檲浠h阿锛岃兘绻佹畺銆
  • 扩展阅读:扫一扫题目出答案 ... 看图写话扫一扫图 ... 扫一扫一秒出答案 ... 行走河南读懂中国央视广告 ... 一秒拍照答题免费 ... 读懂千万工程四点要义 ... 免费搜题神器 ... 免费拍照解答作业 ... 扫一扫 ...

    本站交流只代表网友个人观点,与本站立场无关
    欢迎反馈与建议,请联系电邮
    2024© 车视网