网站管理系统有哪些,wordpress 正文分页,wordpress添加搜索栏,网店怎么开需要什么条件2021年5月10日#xff0c;我转行到互联网做算法工作#xff0c;离开了工作接近8年的机械设计工作#xff0c;还是要在这里感谢军哥对我的帮助和指点#xff01;
换工作后#xff0c;陆续学了《流畅的python》#xff0c;FastAPI框架学了点皮毛#xff0c;python web 编…2021年5月10日我转行到互联网做算法工作离开了工作接近8年的机械设计工作还是要在这里感谢军哥对我的帮助和指点
换工作后陆续学了《流畅的python》FastAPI框架学了点皮毛python web 编程学了点LeetCode的算法题还在写新年还是要抽时间多学习新的知识。
下面对自己的算法工作做一些总结 如果没有标注数据一开始需要自己先标注少量的数据对数据的特点进行大致的归类 能用简单规则去解决相当一部分的问题就是一个简单的手写决策树if - else 需要抽样估计一下有多少 case 漏召回可以将算法中的一些规则放松一些看看有多少例子被召回此时召回率会上升准确率会有所下降用这样的方法去看看算法有没有漏掉很多问题尽量把这个规则算法的召回率做高准确率保证在20%-30%以上都可以 根据规则算法把召回来的case自己进行标注注意各类样本的比例是否合适避免后面标注人员的无效工作注意什么标注方法比较合理或者编写标注工具需要和业务方就标注标准达成共识 拿到标注结果后抽样检查标注结果一致性如何确定是否要进行二次标注或修改 数据准备好之后会发现规则算法越写越复杂解决了一部分问题另一些问题又冲突不对了准确率和召回率的跷跷板来回倒腾可以使用GBDT等树模型进行机器学习抽取一些特征如是否有疑问词是否有编辑距离是多少参考加州房价项目一种特征的one-hot维数比较大可以考虑分桶降维不断的加入特征提高准确率可以用sklearn搜索参数看看比较重要的特征是哪些 如果到这步效果已经可以了业务认可业务场景下的效果注意不要拿算法研发的中间结果说明问题那就可以收敛了毕竟机器学习的计算成本还是比较小的 如果还不能满意考虑深度学习算法使用BERTERNIE等大模型进行学习 出来一版算法的结果时去分析混淆矩阵中的 badcase发现 badcase 的共同特征把这个特征加入到模型当中通过分析还可能发现 有的 case 就是人漏标了有的 case 就是人标错了汇总各类问题的分布比例是如何找准问题的大头去努力解决 如果需要的话还可组合更复杂的模型比如底层用多个深度学习模型预测的结果作为上层模型的特征另外再添加一些其他的特征一起提供给上层的模型可以是机器学习模型或者深度学习模型需要注意标注的数据量是否足够多能满足模型这么多参数的学习