词袋模型有什么作用 词袋模型是什么意思

“\u8bcd\u888b\u6a21\u578b”\u662f\u4ec0\u4e48\u610f\u601d\uff1f

Bag of words\uff0c\u4e5f\u53eb\u505a\u201c\u8bcd\u888b\u201d\uff0c\u5728\u4fe1\u606f\u68c0\u7d22\u4e2d\uff0cBag of words model\u5047\u5b9a\u5bf9\u4e8e\u4e00\u4e2a\u6587\u672c\uff0c\u5ffd\u7565\u5176\u8bcd\u5e8f\u548c\u8bed\u6cd5\uff0c\u53e5\u6cd5\uff0c\u5c06\u5176\u4ec5\u4ec5\u770b\u505a\u662f\u4e00\u4e2a\u8bcd\u96c6\u5408\uff0c\u6216\u8005\u8bf4\u662f\u8bcd\u7684\u4e00\u4e2a\u7ec4\u5408\uff0c\u6587\u672c\u4e2d\u6bcf\u4e2a\u8bcd\u7684\u51fa\u73b0\u90fd\u662f\u72ec\u7acb\u7684\uff0c\u4e0d\u4f9d\u8d56\u4e8e\u5176\u4ed6\u8bcd\u662f\u5426\u51fa\u73b0\uff0c\u6216\u8005\u8bf4\u5f53\u8fd9\u7bc7\u6587\u7ae0\u7684\u4f5c\u8005\u5728\u4efb\u610f\u4e00\u4e2a\u4f4d\u7f6e\u9009\u62e9\u4e00\u4e2a\u8bcd\u6c47\u90fd\u4e0d\u53d7\u524d\u9762\u53e5\u5b50\u7684\u5f71\u54cd\u800c\u72ec\u7acb\u9009\u62e9\u7684\u3002
\u8fd9\u79cd\u5047\u8bbe\u867d\u7136\u5bf9\u81ea\u7136\u8bed\u8a00\u8fdb\u884c\u4e86\u7b80\u5316\uff0c\u4fbf\u4e8e\u6a21\u578b\u5316\uff0c\u4f46\u662f\u5176\u5047\u5b9a\u5728\u6709\u4e9b\u60c5\u51b5\u4e0b\u662f\u4e0d\u5408\u7406\u7684\u3002
\u4f8b\u5982:\u2460\u5728\u65b0\u95fb\u4e2a\u6027\u5316\u63a8\u8350\u4e2d\uff0c\u91c7\u7528Bag of words\u7684\u6a21\u578b\u5c31\u4f1a\u51fa\u73b0\u95ee\u9898\u3002
\u4f8b\u5982:\u2461\u7528\u6237\u7532\u5bf9\u201c\u5357\u4eac\u9189\u9152\u9a7e\u8f66\u4e8b\u6545\u201d\u8fd9\u4e2a\u77ed\u8bed\u5f88\u611f\u5174\u8da3\uff0c\u91c7\u7528bag of words\u5ffd\u7565\u4e86\u987a\u5e8f\u548c\u53e5\u6cd5\uff0c\u5219\u8ba4\u4e3a\u7528\u6237\u7532\u5bf9\u201c\u5357\u4eac\u201d\u3001\u201c\u9189\u9152\u201d\u3001\u201c\u9a7e\u8f66\u201d\u548c\u201c\u4e8b\u6545\u201d\u611f\u5174\u8da3\uff0c\u56e0\u6b64\u53ef\u80fd\u63a8\u8350\u51fa\u548c\u201c\u5357\u4eac\u201d\uff0c\u201c\u516c\u4ea4\u8f66\u201d\uff0c\u201c\u4e8b\u6545\u201d\u76f8\u5173\u7684\u65b0\u95fb\uff0c\u8fd9\u663e\u7136\u662f\u4e0d\u5408\u7406\u7684\u3002

Bag of words\uff0c\u4e5f\u53eb\u505a\u201c\u8bcd\u888b\u201d\uff0c\u5728\u4fe1\u606f\u68c0\u7d22\u4e2d\uff0cBag of words model\u5047\u5b9a\u5bf9\u4e8e\u4e00\u4e2a\u6587\u672c\uff0c\u5ffd\u7565\u5176\u8bcd\u5e8f\u548c\u8bed\u6cd5\uff0c\u53e5\u6cd5\uff0c\u5c06\u5176\u4ec5\u4ec5\u770b\u505a\u662f\u4e00\u4e2a\u8bcd\u96c6\u5408\uff0c\u6216\u8005\u8bf4\u662f\u8bcd\u7684\u4e00\u4e2a\u7ec4\u5408\uff0c\u6587\u672c\u4e2d\u6bcf\u4e2a\u8bcd\u7684\u51fa\u73b0\u90fd\u662f\u72ec\u7acb\u7684\uff0c\u4e0d\u4f9d\u8d56\u4e8e\u5176\u4ed6\u8bcd\u662f\u5426\u51fa\u73b0\uff0c\u6216\u8005\u8bf4\u5f53\u8fd9\u7bc7\u6587\u7ae0\u7684\u4f5c\u8005\u5728\u4efb\u610f\u4e00\u4e2a\u4f4d\u7f6e\u9009\u62e9\u4e00\u4e2a\u8bcd\u6c47\u90fd\u4e0d\u53d7\u524d\u9762\u53e5\u5b50\u7684\u5f71\u54cd\u800c\u72ec\u7acb\u9009\u62e9\u7684\u3002

\u8fd9\u79cd\u5047\u8bbe\u867d\u7136\u5bf9\u81ea\u7136\u8bed\u8a00\u8fdb\u884c\u4e86\u7b80\u5316\uff0c\u4fbf\u4e8e\u6a21\u578b\u5316\uff0c\u4f46\u662f\u5176\u5047\u5b9a\u5728\u6709\u4e9b\u60c5\u51b5\u4e0b\u662f\u4e0d\u5408\u7406\u7684\uff0c\u4f8b\u5982\u5728\u65b0\u95fb\u4e2a\u6027\u5316\u63a8\u8350\u4e2d\uff0c\u91c7\u7528Bag of words\u7684\u6a21\u578b\u5c31\u4f1a\u51fa\u73b0\u95ee\u9898\u3002\u4f8b\u5982\u7528\u6237\u7532\u5bf9\u201c\u5357\u4eac\u9189\u9152\u9a7e\u8f66\u4e8b\u6545\u201d\u8fd9\u4e2a\u77ed\u8bed\u5f88\u611f\u5174\u8da3\uff0c\u91c7\u7528bag of words\u5ffd\u7565\u4e86\u987a\u5e8f\u548c\u53e5\u6cd5\uff0c\u5219\u8ba4\u4e3a\u7528\u6237\u7532\u5bf9\u201c\u5357\u4eac\u201d\u3001\u201c\u9189\u9152\u201d\u3001\u201c\u9a7e\u8f66\u201d\u548c\u201c\u4e8b\u6545\u201d\u611f\u5174\u8da3\uff0c\u56e0\u6b64\u53ef\u80fd\u63a8\u8350\u51fa\u548c\u201c\u5357\u4eac\u201d\uff0c\u201c\u516c\u4ea4\u8f66\u201d\uff0c\u201c\u4e8b\u6545\u201d\u76f8\u5173\u7684\u65b0\u95fb\uff0c\u8fd9\u663e\u7136\u662f\u4e0d\u5408\u7406\u7684\u3002

Bag of words,也叫做“词袋”,在信息检索中,Bag of words model假定对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。
这种假设虽然对自然语言进行了简化,便于模型化,但是其假定在有些情况下是不合理的,例如在新闻个性化推荐中,采用Bag of words的模型就会出现问题。例如用户甲对“南京醉酒驾车事故”这个短语很感兴趣,采用bag of words忽略了顺序和句法,则认为用户甲对“南京”、“醉酒”、“驾车”和“事故”感兴趣,因此可能推荐出和“南京”,“公交车”,“事故”相关的新闻,这显然是不合理的。

BOW Model
Bag-of-words model (BoW model) 最早出现在自然语言处理(Natural Language Processing)和信息检索(Information Retrieval)领域.。该模型忽略掉文本的语法和语序等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的。BoW使用一组无序的单词(words)来表达一段文字或一个文档.。近年来,BoW模型被广泛应用于计算机视觉中,与应用于文本的BoW 类比,图像的特征(feature)被当作单词(Word)。

基于文本的BoW模型的一个简单例子如下:
首先给出两个简单的文本文档如下:

John likes to watch movies. Mary likes too.

John also likes to watch football games.

基于上述两个文档中出现的单词,构建如下一个词典 (dictionary):

{“John”: 1, “likes”: 2,”to”: 3, “watch”: 4, “movies”: 5,”also”: 6, “football”: 7, “games”: 8,”Mary”: 9, “too”: 10}

上面的词典中包含10个单词, 每个单词有唯一的索引, 那么每个文本我们可以使用一个10维的向量来表示。如下:

[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]

[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

该向量与原来文本中单词出现的顺序没有关系,而是词典中每个单词在文本中出现的频率。因此BoW模型可认为是一种统计直方图 (histogram)。

  • 涓婚妯″瀷鍒板簳杩樻湁娌鏈夌敤,璇ユ庝箞鐢?
    绛旓細娴垂浜嗙幇瀹炵敓娲讳腑閭d箞澶氱殑鏍囨敞鏁版嵁锛屾湁鐩戠潱鐨妯″瀷涓瀹氭瘮鏃犵洃鐫g殑濂絶鎵浠ワ紒鍙互璇曡瘯Supervised Topic Model鍒╃敤浣犲湪鐜板疄涓凡鏈夌殑鏍囨敞鏉ユ彁楂樻ā鍨嬪噯纭害鏉ュ埄鐢ㄥ父鐢ㄧ殑鐨則ag鏉rain涓湁鐩戠潱Topic Model~~~涓瀹氫細璇嶈仛绫绘晥鏋滃ソ涓嶅皯銆傛墍浠ョ幇鍦ㄤ竴浜涘ソ鐨勪細璁笂闈㈢敤topic model 鑰屼笖鏁版嵁閲忎篃涓嶆槸寰堝ぇ鐨勶紝鎴戞牴鏈笉鐩镐俊...
  • 鑷劧璇█澶勭悊缁艰堪
    绛旓細word2vec鍖呭惈涓や釜妯″瀷:璺冲瓧妯″瀷(Skip-gram)[1] 鍜岃繛缁璇嶈妯″瀷(continuous bag of words,CBOW)[2],瀹冧滑鐨浣滅敤鍒嗗埆鏄:閫氳繃鏌愪釜涓績璇嶉娴嬩笂涓嬫枃銆侀氳繃涓婁笅鏂囬娴嬫煇涓腑蹇冭瘝銆傛瘮濡,鏈変竴鍙ヨ瘽"I drink apple juice",Skip-gram妯″瀷鏄敤apple棰勬祴鍏跺畠璇,CBOW妯″瀷鍒欐槸鐢ㄥ叾瀹冭瘝棰勬祴鍑篴pple銆 棣栧厛浠嬬粛CBOW妯″瀷,瀹冩槸涓...
  • 璁烘枃鏌ラ噸鐢浜浠涔绠楁硶
    绛旓細鈶1993骞,缇庡浗浜氬埄妗戦偅澶у鐨凪anber鎻愬嚭浜嗏滆繎浼兼寚绾光濇蹇,鍩轰簬姝ゆ彁鍑轰簡sif宸ュ叿,鐢鍩轰簬瀛楃涓插尮閰嶇殑鏂规硶鏉ュ害閲忔枃浠朵箣闂寸殑鐩镐技鎬с傜編鍥芥柉鍧︾澶у鐨凚rin绛変汉棣栨鎻愬嚭浜咰OPS绯荤粺涓庣浉搴旂畻娉,鍏跺悗鎻愬嚭鐨凷CAM鍘熷瀷瀵规杩涜浜嗘敼杩涗簡銆係CAM鍊熼壌浜嗕俊鎭绱㈡妧鏈腑鐨勫悜閲忕┖闂妯″瀷,浣跨敤鍩轰簬璇嶉缁熻鐨勬柟娉曟潵搴﹂噺鏂囨湰鐩镐技鎬с...
  • 3.3-鐢ㄦ埛鍒嗙兢鍒嗘瀽
    绛旓細鍦ㄦ枃鏈垎绫荤殑璇嶈妯″瀷褰撲腑,姣忎釜鈥滄枃妗b滅殑璇嶅悜閲忓悓鏍峰瓨鍦ㄥぇ閲忕殑0鍊,璇嶈妯″瀷鐨勮В鍐虫柟娉曟槸瀵硅瘝鍚戦噺鐢═F-IDF鏂规硶杩涜鍔犳潈銆備笅闈㈢畝鍗曚粙缁嶈繖绉嶆柟娉 d) 鐗瑰緛鏀归-TF-IDF 鍦ㄦ枃鏈垎绫荤殑璇嶈妯″瀷褰撲腑,闇瑕佸皢涓绡囩瘒鈥滄枃妗b(Document)(渚嬪涓绡囨柊闂,涓鏉″井鍗,涓鏉¤璇)鎸夌収鍏惰璁虹殑涓婚鑱氬悎鍦ㄤ竴璧,鑰屼竴绡囨枃妗i噷闈㈡湁寰堝璇...
  • 鎴戠敤浜100琛孭ython浠g爜,瀹炵幇浜嗕笌濂崇灏亰寰俊(闄勪唬鐮)
    绛旓細__train_model() 鍑芥暟锛屽闂杩涜鍒嗚瘝锛屼娇鐢 gesim 瀹炵幇璇嶈妯″瀷锛岀粺璁℃瘡涓壒寰佺殑 tf-idf , 寤虹珛绋鐤忕煩闃碉紝杩涜屽缓绔嬬储寮曘俖_save_model() 鍑芥暟 鍜 __load_model() 鍑芥暟 鏄垚瀵瑰嚭鐜扮殑锛屽緢澶氶」鐩兘浼氭湁杩欎袱涓嚱鏁帮紝鐢ㄤ簬淇濆瓨妯″瀷鍜屽鍏ユā鍨嬨備笉鍚岀殑鏄紝鏈」鐩敤鐨勬槸鏂囦欢瀛樺偍鐨勬柟寮忥紝瀹為檯涓婄嚎...
  • 棰戠巼璇嶆槸浠涔鎰忔
    绛旓細鍦ㄨ绠楁満绉戝涓紝棰戠巼璇嶈繕琚敤浜庢枃鏈澶勭悊鍜屾ā鍨嬭缁冦傚湪鏂囨湰棰勫鐞嗕腑锛屾垜浠氬父闇瑕佸鏂囨湰杩涜鍒嗚瘝鍜屽幓闄ゅ仠鐢ㄨ瘝绛夋搷浣滐紝浠ヤ究鏇村ソ鍦拌〃绀烘枃鏈唴瀹广傝屽湪妯″瀷璁粌涓紝棰戠巼璇嶅垯琚敤浜庡缓绔璇嶈妯″瀷銆佷富棰樻ā鍨嬪拰鎯呮劅鍒嗘瀽妯″瀷绛変换鍔°傞氳繃瀵规枃鏈腑棰戠巼璇嶇殑缁熻鍜屽垎鏋愶紝鎴戜滑鍙互寰楀埌鏇村姞鍑嗙‘鐨勬枃鏈〃绀哄拰棰勬祴缁撴灉銆傞櫎...
  • 鍓嶇疆杩囨护鍣ㄨ鍝噷姣旇緝濂
    绛旓細鍙︿竴绉嶆洿楂樼骇鐨勫疄鐜版柟寮忔槸浣跨敤鑷劧璇█澶勭悊鎶鏈傚彲浠ヤ娇鐢ㄦ枃鏈浉浼煎害绠楁硶锛屽璇嶈妯″瀷銆乀F-IDF銆乄ord2Vec绛夋潵璁$畻杈撳叆鏂囨湰涓庡凡鏈夋枃绔犱箣闂寸殑鐩镐技搴︼紝鐒跺悗鏍规嵁鐩镐技搴︽帓搴忚繑鍥炵浉鍏崇殑鏂囩珷銆傝繖绉嶆柟寮忓彲浠ユ洿濂藉湴澶勭悊璇箟鐩镐技搴﹂棶棰橈紝浣嗛渶瑕佹洿澶嶆潅鐨勭畻娉曞拰妯″瀷銆傛棤璁轰娇鐢ㄥ摢绉嶆柟娉曪紝鍓嶇疆杩囨护鍣ㄧ殑杈撳嚭搴斾互鏂囨湰鐨勬柟寮...
  • 鏁版嵁鐏偓浜烘槸鎬庝箞鍋氬埌鐨
    绛旓細5. 鑷劧璇█澶勭悊锛氬湪鏌愪簺鎯呭喌涓嬶紝鏁版嵁鐏偓浜哄彲鑳介渶瑕佸鐞嗗ぇ閲忕殑鏂囨湰鏁版嵁銆備负浜嗕粠杩欎簺鏂囨湰涓彁鍙栨湁鐢鐨勪俊鎭紝鏁版嵁鐏偓浜哄彲浠ヤ娇鐢ㄨ嚜鐒惰瑷澶勭悊鎶鏈紝濡璇嶈妯″瀷銆乀F-IDF鏉冮噸銆佹儏鎰熷垎鏋愮瓑銆6. 瀹炴椂鏇存柊鍜屼紭鍖栵細涓轰簡淇濇寔鏁版嵁鐏偓浜虹殑鎬ц兘鍜屽噯纭э紝瀹冮渶瑕佷笉鏂湴鏇存柊鍜屼紭鍖栥傝繖鍙兘鍖呮嫭寮曞叆鏂扮殑绠楁硶銆佽皟鏁存ā鍨嬬殑...
  • ai绠楁硶宸ョ▼甯堣瀛浠涔
    绛旓細3銆佸涔犺嚜鐒惰瑷澶勭悊鍜岃绠楁満瑙嗚锛氳嚜鐒惰瑷澶勭悊鍜岃绠楁満瑙嗚鏄疉I绠楁硶宸ョ▼甯堥渶瑕佹帉鎻$殑涓や釜閲嶈棰嗗煙銆傚彲浠ラ氳繃瀛︿範NLP鍜孋V棰嗗煙鐨勭粡鍏哥畻娉曞拰妯″瀷锛屽璇嶈妯″瀷銆丆NN銆丩STM绛夛紝鎺屾彙鐩稿叧鎶鑳姐4銆佹帉鎻I绠楁硶宸ョ▼瀹炶返锛氶櫎浜嗙悊璁虹煡璇嗭紝A绠楁硶宸ョ▼甯堣繕闇瑕佹帉鎻I绠楁硶宸ョ▼瀹炶返鐨勬祦绋嬪拰宸ュ叿濡傛暟鎹澶勭悊銆佹ā鍨嬭缁冦佹ā鍨...
  • 绐佽Е浼犻掔殑鐗瑰緛鏈
    绛旓細2銆侀夋嫨锛氬湪鏈哄櫒瀛︿範涓紝閫夋嫨鍚堥傜殑鐗瑰緛瀵逛簬妯″瀷鐨勬ц兘鑷冲叧閲嶈銆傚父鐢ㄧ殑鐗瑰緛閫夋嫨鏂规硶鏈夌浉鍏虫у垎鏋愩佹柟宸垎鏋愩佸崱鏂规楠岀瓑銆傚浜庢枃鏈瀷鐗瑰緛锛屽彲浠ラ氳繃鑷劧璇█澶勭悊鎶鏈繘琛岀壒寰佹彁鍙栵紝濡璇嶈妯″瀷銆乀F-IDF绛夈3銆佺紪鐮侊細瀵逛簬绫诲埆鍨嬬壒寰侊紝闇瑕佸皢鍏惰浆鎹负鏁板煎瀷鐗瑰緛锛屼互渚挎ā鍨嬭兘澶熷鐞嗐傚父鐢ㄧ殑缂栫爜鏂规硶鏈夌嫭鐑紪鐮併...
  • 本站交流只代表网友个人观点,与本站立场无关
    欢迎反馈与建议,请联系电邮
    2024© 车视网