收集了很多用户咨询的问题，如何采用 Python 提取出最常见的问题那？_技术解析_文章_数据地带

网站首页
云服务器
美国服务器
海外服务器

服务器租用

中国香港服务器

中国台湾服务器

韩国服务器

日本服务器

菲律宾服务器

马来西亚服务器

新加坡服务器

荷兰服务器

英国服务器

法国服务器

德国服务器

西班牙服务器

芬兰服务器

乌克兰服务器

悉尼服务器

南非服务器

巴西服务器

亚洲服务器

中国香港服务器

中国台湾服务器

韩国服务器

日本服务器

菲律宾服务器

马来西亚服务器

新加坡服务器

高防服务器

中国香港高防

美国高防

服务器托管

中国香港机房

美国服务器机房

韩国机房

日本机房

全球服务器

荷兰服务器

英国服务器

法国服务器

德国服务器

加州服务器
解决方案

网站建设
根据不同规模的网站提供可定制化的架构和一站式协助

游戏运营
集游戏部署、游戏运营以及游戏安全三大要素帮助游戏企业快速部署

视频娱乐
集源视频存储、高效自动转码切片技术以及内容分发等功能，加速视频播放

企业上云
企业通过便捷的利用网络资源，实现管理、业务等方面的数据化转型，最大限度创造企业价值

智能家居
采用全托管的一站式物联网智能服务，轻松构建多种智能网物联网最佳平台

制造业升级
多年制造业ERP部署经验，为广大制造业企业提供高效可靠的数字化生产平台

大数据营销
低成本有效采集、分析、应用海量营销数据，降低20%的人工成本，做到精准定位营销

外贸电商
为电商用户提供一站式解决方案，企业可根据架构灵活调整配置，快速搭建电商平台
关于我们

技术解析

新闻资讯

热门标签

首页 > 技术解析

收集了很多用户咨询的问题，如何采用 Python 提取出最常见的问题那？

0次

2021-06-09 12:11:00

idczone

我采用 jieba 进行了高频词汇的统计，然后再根据高频词调出包含的问题，但是感觉这样也不是太好。用户问题一般方式不是太一样，但是关键字都是类似的，如何能提出相似度较高的问题，想求教下大家，不吝赐教美国服务器

简单点就 TFIDF 提取出每句 TOP5 的词,然后转 one hot 求和，最后求余弦距离
复杂点就 bert 直接整句输入，输出一个 768 维向量，最后还是余弦距离 /Ball-Tree/KD-Tree 这些，无新增直接聚类也应该可以。

统计学问题

https://www.zhihu.com/question/426631698/answer/1579735064 不明觉厉

我也是这个感觉，不明觉厉

兄台，理解你说的这话，都需要啥基础

只想了解名词大概意思，学 NLP 三天就够了，要想了解原理怎么也得学 2 月吧

https://zhuanlan.zhihu.com/p/166499896 我也看到了这个，不知道和 ES 方案比起来如何

目前深度学习来做文本理解的方案一般是预训练+finetune，预训练模型里面一般都采用 bert 或者 bert 的变种。
具体的话可以看看这个仓库 https://github.com/ymcui/Chinese-BERT-wwm

用 jiagu 提取关键词试试? 这个应该是最简单的, 就调一个函数
https://github.com/ownthink/Jiagu

相关阅读

数据地带为您的网站提供全球顶级IDC资源

7x24
全年不间断在线
100%
数据安全保障
0元
贴心用户服务
3分钟
极速响应
免备案
全球线路精选
VIP级
金牌用户服务

· 网络安全第一
· 专业客服实时在线
· 成熟解决方案
· 服务体验至上

解决方案: 网站建设; 游戏运营; 视频娱乐; 企业上云; 智能家居; 制造业升级; 大数据营销; 外贸电商

关于我们: 关于我们

联系方式

技术QQ：153063505
联系地址：重庆渝北金山商业中心A座6F
邮箱：support@idczone.net
邮编：401120

Copyright © 2008-2021 数据地带版权所有渝ICP备09005130号

免费电话：
023-63086558