当前位置: 首页 > news >正文

公司网站设立与维护方案二手车 网站程序

公司网站设立与维护方案,二手车 网站程序,付费阅读wordpress,网站备案 人工审核特征工程-概念 特征工程是一个面向十分广的概念#xff0c;只要是在处理数据就可以认为是在做特征工程。个人理解#xff0c;真正意义上的特征工程还是数据降维和数据升维的过程。 而前期对数据的处理过程#xff1a; 需要哪些数据#xff1f;数据如何存储#xff1f;数…特征工程-概念 特征工程是一个面向十分广的概念只要是在处理数据就可以认为是在做特征工程。个人理解真正意义上的特征工程还是数据降维和数据升维的过程。 而前期对数据的处理过程 需要哪些数据数据如何存储数据如何清洗 将这三步归纳到数据准备的过程。 1、需要哪些数据根据领导提出的一个分析要求我们需要构思自己需要哪些数据这个时候我们要和企业中的运维人员进行沟通看看运维人员能够提供哪些数据。 2、数据如何存储一般如果不是那种需要一个人顶十个人的超级创业公司像数据存储的工作一般不会交给我们去完成。 3、数据如何清洗对我们来说数据准备过程中最关键的第一步操作是如何对数据进行清洗。比如数据库中存的是作者和文章所在的url地址。我们可以对作者进行哑编码的操作对url地址返回的文章进行词袋法的处理等等。 4、数据特征工程。数据特征工程和数据清洗有时候概念的边界比较模糊。有些在数据清理过程中也会遇到特征选择的问题但很多时候数据本身特征就少你再做个特征选择就更加欠拟合了。总的来说实际情况实际分析。 一、需要哪些数据 在进行机器学习之前收集数据的过程中我们主要按照以下规则找出我们所需要的数据 业务的实现需要哪些数据 基于对业务规则的理解尽可能多的找出对因变量有影响的所有自变量数据。 数据可用性评估 在获取数据的过程中首先需要考虑的是这个数据获取的成本 获取得到的数据在使用之前需要考虑一下这个数据是否覆盖了所有情况以及这个数据的可信度情况。 一般公司内部做机器学习的数据源 用户行为日志数据记录的用户在系统上所有操作所留下来的日志行为数据...业务数据商品/物品的信息、用户/会员的信息...第三方数据爬虫数据、购买的数据、合作方的数据... PS入职第一周可能就是让你拿数据熟悉数据来源这样后续工作也好上手。 二、数据如何存储 一般情况下用于后期模型创建的数据都是存在在本地磁盘、关系型数据库或者一些相关的分布式数据存储平台的。 本地磁盘MySQLOracleHBaseHDFSHive 三、数据清洗 数据清洗data cleaning是在机器学习过程中一个不可缺少的环节其数据的清洗结果直接关系到模型效果以及最终的结论。在实际的工作中数据清洗通常占开发过程的50%-80%左右的时间。推荐一本书 数据清洗过程 1、数据预处理 在数据预处理过程主要考虑两个方面如下 选择数据处理工具关系型数据库或者Python查看数据的元数据以及数据特征一是查看元数据包括字段解释、数据来源等一切可以描述数据的信息另外是抽取一部分数据通过人工查看的方式对数据本身做一个比较直观的了解并且初步发现一些问题为之后的数据处理做准备。 注意建模和做特征之前要先了解字段含义来源再用data.describe() 抽取一部分数据通过人工查看进一步分析。 作为研究者我们不能为了完成任务而完成任务至少在数据层面上必须要严谨做出来的模型必须要起到作用。很多时候客户要求模型的准确率达到98%不过也许我们能给出的模型一般在91%~92%但是必须保证我们分析的数据是绝对有用的有解释意义的。这样的模型也许在指标上没有完成客户的需求但模型也是有价值的。 反之有些分析师为了获得更好的模型评分强行加入一些没有意义的奇怪数据这样一来在当前的数据集中能够跑出很好的评分到了实际运用中结果会很差。这就是过拟合。 2、格式内容清洗 一般情况下数据是由用户/访客产生的也就有很大的可能性存在格式和内容上不一致的情况所以在进行模型构建之前需要先进行数据的格式内容清洗操作。格式内容问题主要有以下几类 时间、日期、数值、半全角等显示格式不一致直接将数据转换为一类格式即可该问题一般出现在多个数据源整合的情况下。内容中有不该存在的字符最典型的就是在头部、中间、尾部的空格等问题这种情况下需要以半自动校验加半人工方式来找出问题并去除不需要的字符。内容与该字段应有的内容不符比如姓名写成了性别、身份证号写成手机号等问题。 3、逻辑错误清洗 主要是通过简单的逻辑推理发现数据中的问题数据防止分析结果走偏主要包含以下几个步骤 数据去重去除/替换不合理的值去除/重构不可靠的字段值修改矛盾的内容 4、去除不需要的数据 一般情况下我们会尽可能多的收集数据但是不是所有的字段数据都是可以应用到模型构建过程的也不是说将所有的字段属性都放到构建模型中最终模型的效果就一定会好实际上来讲字段属性越多模型的构建就会越慢所以有时候可以考虑将不要的字段进行删除操作。在进行该过程的时候要注意备份原始数据。 5、关联性验证 如果数据有多个来源那么有必要进行关联性验证该过程常应用到多数据源合并的过程中通过验证数据之间的关联性来选择比较正确的特征属性比如汽车的线下购买信息和电话客服问卷信息两者之间可以通过姓名和手机号进行关联操作匹配两者之间的车辆信息是否是同一辆如果不是那么就需要进行数据调整。 特征工程 - 数据不平衡 PS工作中可能遇到的最大的问题是数据不均衡。 怎么去解决的 上采样、下采样、SMOTE算法。 解决的效果如何 有一点点改进但不是很大。 事实上确实如此很多时候即使用了上述算法对采样的数据进行改进但是结果反而可能更差。在业界中对数据不均衡问题的处理确实是一件比较头疼的问题。最好的处理方法还是尽可能去获得更多的那些类别比较少的数据。 数据不平衡概念 在实际应用中数据往往分布得非常不均匀也就是会出现“长尾现象”即绝大多数的数据在一个范围/属于一个类别而在另外一个范围或者另外一个类别中只有很少的一部分数据。那么这个时候直接使用机器学习可能效果会不太少所以这个时候需要我们进行一系列的转换操作。 而在采样过程中修改样本的权重一般做的比较少。 数据不平衡解决方案一 设置损失函数的权重使得少数类别数据判断错误的损失大于多数类别数据判断错误的损失即当我们的少数类别数据预测错误的时候会产生一个比较大的损失值从而导致模型参数往让少数类别数据预测准确的方向偏。可以通过scikit-learn中的class_weight参数来设置权重。 数据不平衡解决方案二 下采样/欠采样(under sampling)从多数类中随机抽取样本从而减少多数类别样本数据使数据达到平衡的方式。 PS比如本来样本正负例的比例是100:1一般使用下采样将数据比例控制到4:1就是极限了。如果强行将正负例的比例控制到1:1会损失很多样本的特性使得模型效果还不如100:1的训练结果。 集成下采样/欠采样采用普通的下采样方式会导致信息丢失所以一般采用集成学习和下采样结合的方式来解决这个问题主要有两种方式 1、EasyEnsemble 采用不放回的数据抽取方式抽取多数类别样本数据然后将抽取出来的数据和少数类别数据组合训练一个模型多次进行这样的操作从而构建多个模型然后使用多个模型共同决策/预测。 2、BalanceCascade 利用Boosting这种增量思想来训练模型先通过下采样产生训练集然后使用Adaboost算法训练一个分类器然后使用该分类器多对所有的大众样本数据进行预测并将预测正确的样本从大众样本数据中删除重复迭代上述两个操作直到大众样本数据量等于小众样本数据量。 扩展一个技巧 如果参加一个比赛我们会在模型训练的时候将数据分成训练集和开发集。模型提交后比赛方会提供测试集对结果进行预测。 一般来说我们训练集上的模型评分会在86 ~ 88%左右开发集上的评分为82 ~ 84%但是到了实际的测试集上模型评分可能只有72%左右。技巧来了 1、一般来说测试集的数据是不带标签的但是测试集依然有特征X。 2、我们都不考虑训练集和测试集的目标Y人为创建一列目标值Z将训练集中的Z都设为0将测试集的目标Z都设为1。 3、寻找测试集的X和Z之间的映射。 4、根据这个X和Z之间的映射使用训练集中的X预测Z结果肯定是组0,1向量。 5、将预测值为1的数据提出来作为我的开发集用来验证我们模型的数据集合剩下预测为0的数据作为训练集。在这个基础上对我的训练数据进行调优。 这是一个在不做任何特征的情况下对模型调优的一个技巧一般可以将模型在真实环境中的评分提高一点点。大概72%提高到74%左右。 为什么实际上我们做训练的目的是为了找一找比赛中人家提供给我们的训练数据和真实数据哪些长得比较像。将更像真实测试数据的样本放到开发集中作为调参的标准从而能够提高最终的评分。虽然没有什么科学依据但是确实比较有效不登大雅之堂。 数据不平衡解决方案三 Edited Nearest Neighbor(ENN) 对于多数类别样本数据而言如果这个样本的大部分k近邻样本都和自身类别不一样那我们就将其删除然后使用删除后的数据训练模型。 数据不平衡解决方案四 Repeated Edited Nearest Neighbor(RENN) 对于多数类别样本数据而言如果这个样本的大部分k近邻样本都和自身类别不一样那我们就将其删除重复性的进行上述的删除操作直到数据集无法再被删除后使用此时的数据集据训练模型。 数据不平衡解决方案五 Tomek Link Removal 如果两个不同类别的样本它们的最近邻都是对方也就是A的最近邻是BB的最近邻也是A那么A、B就是Tomek Link。将所有Tomek Link中多数类别的样本删除。然后使用删除后的样本来训练模型。 上面是对多数样本进行删除下面是对少数样本进行增加 数据不平衡解决方案六 过采样/上采样(Over Sampling)和欠采样采用同样的原理通过抽样来增加少数样本的数目从而达到数据平衡的目的。一种简单的方式就是通过有放回抽样不断的从少数类别样本数据中抽取样本然后使用抽取样本原始数据组成训练数据集来训练模型不过该方式比较容易导致过拟合一般抽样样本不要超过50%。 过采样/上采样(Over Sampling)因为在上采样过程中是进行是随机有放回的抽样所以最终模型中数据其实是相当于存在一定的重复数据为了防止这个重复数据导致的问题我们可以加入一定的随机性也就是说在抽取数据后对数据的各个维度可以进行随机的小范围变动eg: (1,2,3) -- (1.01, 1.99, 3)通过该方式可以相对比较容易的降低上采样导致的过拟合问题。 数据不平衡解决方案七 采用数据合成的方式生成更多的样本该方式在小数据集场景下具有比较成功的案例。常见算法是SMOTE算法该算法利用小众样本在特征空间的相似性来生成新样本。 比如给少数样本编号1~100将1、2样本连起来取他们的中点(期望)作为一个新的样本。以此类推最后可以新生成50个样本。用这种算法一次可以提高50%的样本量。 数据不平衡解决方案八 对于正负样本极不平衡的情况下其实可以换一种思路/角度来看待这个问题可以将其看成一分类(One Class Learning)或者异常检测(Novelty Detection)问题在这类算法应用中主要就是对于其中一个类别进行建模然后对所有不属于这个类别特征的数据就认为是异常数据经典算法包括One Class SVM、IsolationForest等。 特征工程 - 特征转换 - 文本特征属性转换 特征转换主要指将原始数据中的字段数据进行转换操作从而得到适合进行算法模型构建的输入数据数值型数据在这个过程中主要包括但不限于以下几种数据的处理 文本数据转换为数值型数据缺省值填充定性特征属性哑编码定量特征属性二值化特征标准化与归一化 机器学习的模型算法均要求输入的数据必须是数值型的所以对于文本类型的特征属性需要进行文本数据转换也就是需要将文本数据转换为数值型数据。常用方式如下 词袋法BOW/TFTF-IDFTerm frequency-inverse document frequencyHashTF 词袋法 词袋法Bag of wordsBOW是最早应用于NLP和IR领域的一种文本处理模型该模型忽略文本的语法和语序用一组无序的单词words来表达一段文字或者一个文档词袋法中使用单词在文档中出现的次数频数来表示文档。 词集法 词集法Set of wordsSOW是词袋法的一种变种应用的比较多和词袋法的原理一样是以文档中的单词来表示文档的一种的模型区别在于词袋法使用的是单词的频数而在词集法中使用的是单词是否出现如果出现赋值为1否则为0。 TF-IDF 在词袋法或者词集法中使用的是单词的词频或者是否存在来进行表示文档特征但是不同的单词在不同文档中出现的次数不同而且有些单词仅仅在某一些文档中出现例如专业名称等等也就是说不同单词对于文本而言具有不同的重要性那么如何评估一个单词对于一个文本的重要性呢 单词的重要性随着它在文本中出现的次数成正比增加也就是单词的出现次数越多该单词对于文本的重要性就越高。同时单词的重要性会随着在语料库中出现的频率成反比下降也就是单词在语料库中出现的频率越高表示该单词与常见也就是该单词对于文本的重要性越低。 TF-IDFItem frequency-inverse document frequency是一种常用的用于信息检索与数据挖掘的常用加权技术TF的意思是词频Item FrequencyIDF的意思是逆向文件频率Inverse Document Frequency。TF-IDF可以反映语料中单词对文档/文本的重要程度。 假设单词用t表示文档用d表示语料库用D表示那么N(t,D)表示包含单词t的文档数量|D|表示文档数量|d|表示文档d中的所有单词数量。N(t,d)表示在文档d中单词t出现的次数。 TF-IDF除了使用默认的tf和idf公式外tf和idf公式还可以使用一些扩展之后公式来进行指标的计算常用的公式有 有两个文档单词统计如下请分别计算各个单词在文档中的TF-IDF值以及这些文档使用单词表示的特征向量。 HashTF-IDF 不管是前面的词袋法还是TF-IDF都避免不了计算文档中单词的词频当文档数量比较少、单词数量比较少的时候我们的计算量不会太大但是当这个数量上升到一定程度的时候程序的计算效率就会降低下去这个时候可以通过HashTF的形式来解决该问题。 HashTF的计算规则是在计算过程中不计算词频而是计算单词进行hash后的hash值的数量有的模型中可能存在正则化操作。 HashTF的特点运行速度快但是无法获取高频词有可能存在单词碰撞问题hash值一样。 Scikit-learn中进行文本特征提取 在Scikit-learn中对于文本数据主要提供了三种方式将文本数据转换为数值型的特征向量同时提供了一种对TF-IDF公式改版的公式。所有的转换方式均位于模块sklearn.feature_extraction.text。 名称描述CountVectorizer以词袋法的形式表示文档HashingVectorizer以HashingTF的模型来表示文档的特征向量TfidfVectorizer以TF-IDF的模型来表示文档的特征向量等价于先做CountVectorizer然后做TfidfTransformer转换操作的结果TfidfTransformer使用改进的TF-IDF公式对文档的特征向量矩阵数值型的进行重计算的操作TFIDFTF*(IDF1)。备注该转换常应用到CountVectorizer或者HashingVectorizer之后 Scikit-learn中进行缺省值填充 对于缺省的数据在处理之前一定需要进行预处理操作一般采用中位数、均值或者众数来进行填充在Scikit-learn中主要通过Imputer类来实现对缺省值的填充。 案例 哑编码 哑编码OneHotEncoder对于定性的数据也就是分类的数据可以采用N位的状态寄存器来对N个状态进行编码每个状态都有一个独立的寄存器位并且在任意状态下只有一位有效。哑编码是一种常用的将特征数字化的方式。比如有一个特征属性:[‘male’,‘female’]那么male使用向量[1,0]表示female使用[0,1]表示。 二值化 二值化Binarizer对于定量的数据根据给定的阈值将其进行转换如果大于阈值那么赋值为1否则赋值为0。 标准化 标准化基于特征属性的数据(也就是特征矩阵的列)获取均值和方差然后将特征值转换至服从标准正态分布。计算公式如下 区间缩放法 区间缩放法是指按照数据的方差特性对数据进行缩放操作将数据缩放到给定区间上常用的计算方式如下。 归一化 归一化和标准化不同归一化是基于矩阵的行进行数据处理其目的是将矩阵的行均转换为“单位向量”l2规则转换公式如下 标准化、区间缩放法(归一化)、正则化 有的书把区间缩放说为归一化归一化说为正则化 标准化的目的是为了降低不同特征的不同范围的取值对于模型训练的影响比如对于同一个特征不同的样本的取值可能会相差的非常大那么这个时候一些异常小或者异常大的数据可能会误导模型的正确率另外如果数据在不同特征上的取值范围相差很大那么也有可能导致最终训练出来的模型偏向于取值范围大的特征特别是在使用梯度下降求解的算法中通过改变数据的分布特征具有以下两个好处1. 提高迭代求解的收敛速度2. 提高迭代求解的精度。 归一化 对于不同特征维度的伸缩变换的主要目的是为了使得不同维度度量之间特征具有可比性同时不改变原始数据的分布(相同特性的特征转换后还是具有相同特性)。和标准化一样也属于一种无量纲化的操作方式。 正则化 则是通过范数规则来约束特征属性通过正则化我们可以降低数据训练的模型的过拟合可能和之前在机器学习中所讲述的L1、L2正则的效果一样。 备注广义上来讲标准化、区间缩放法、正则化都是具有类似的功能。在有一些书籍上将标准化、区间缩放法统称为标准化把正则化称为归一化操作。 PS如果面试有人问标准化和归一化的区别标准化会改变数据的分布情况归一化不会标准化的主要作用是提高迭代速度降低不同维度之间影响权重不一致的问题。 数据多项式扩充变换 多项式数据变换主要是指基于输入的特征数据按照既定的多项式规则构建更多的输出特征属性比如输入特征属性为[a,b]当设置degree为2的时候那么输出的多项式特征为  GBDT/RFLR 认为每个样本在决策树落在决策树的每个叶子上就表示属于一个类别那么我们可以进行基于GBDT或者随机森林的维度扩展经常我们会将其应用在GBDT将数据进行维度扩充然后使用LR进行数据预测这也是我们进行所说的GBDTLR做预测。 先通过GBDT将原来样本中的维度进行扩展然后将新生成的特征放到逻辑回归或线性回归中进行模型构建。 特征选择 当做完特征转换后实际上可能会存在很多的特征属性比如多项式扩展转换、文本数据转换等等但是太多的特征属性的存在可能会导致模型构建效率降低同时模型的效果有可能会变的不好那么这个时候就需要从这些特征属性中选择出影响最大的特征属性作为最后构建模型的特征属性列表。 在选择模型的过程中通常从两方面来选择特征 特征是否发散如果一个特征不发散比如方差解决于0也就是说这样的特征对于样本的区分没有什么作用特征与目标的相关性如果与目标相关性比较高应当优先选择 特征选择的方法主要有以下三种 Filter过滤法按照发散性或者相关性对各个特征进行评分设定阈值或者待选择阈值的个数从而选择特征常用方法包括方差选择法、相关系数法、卡方检验、互信息法等Wrapper包装法根据目标函数通常是预测效果评分每次选择若干特征或者排除若干特征常用方法主要是递归特征消除法Embedded嵌入法先使用某些机器学习的算法和模型进行训练得到各个特征的权重系数根据系数从大到小选择特征常用方法主要是基于惩罚项的特征选择法 方差选择法 先计算各个特征属性的方差值然后根据阈值获取方差大于阈值的特征。 相关系数法 先计算各个特征属性对于目标值的相关系数以及相关系数的P值然后获取大于阈值的特征属性。 卡方检验 检查定性自变量对定性因变量的相关性 递归特征消除法 使用一个基模型来进行多轮训练每轮训练后消除若干权值系数的特征再基于新的特征集进行下一轮训练。 基于惩罚项的特征选择法 在使用惩罚项的基模型除了可以筛选出特征外同时还可以进行降维操作。 基于树模型的特征选择法 树模型中GBDT在构建的过程会对特征属性进行权重的给定所以GBDT也可以应用在基模型中进行特征选择。 特征选取/降维 当特征选择完成后可以直接可以进行训练模型了但是可能由于特征矩阵过大导致计算量比较大训练时间长的问题因此降低特征矩阵维度也是必不可少的。常见的降维方法除了基于L1的惩罚模型外还有主成分析法PCA和线性判别分析法LDA这两种方法的本质都是将原始数据映射到维度更低的样本空间中但是采用的方式不同PCA是为了让映射后的样本具有更大的发散性LDA是为了让映射后的样本有最好的分类性能。 主成分分析PCA 将高维的特征向量合并成为低维度的特征属性是一种无监督的降维方法。 二维到一维降维多维情况—协方差矩阵线性判别分析LDA LDA是一种基于分类模型进行特征属性合并的操作是一种有监督的降维方法。 异常数据处理 缺省值是数据中最常见的一个问题处理缺省值有很多方式主要包括以下四个步骤进行缺省值处理 1、确定缺省值范围。 2、去除不需要的字段。 3、填充缺省值内容。 4、重新获取数据。 注意最重要的是缺省值内容填充。 一、确定缺省值范围 在进行确定缺省值范围的时候对每个字段都计算其缺失比例然后按照缺失比例和字段重要性分别指定不同的策略。 二、去除不需要的字段 在进行去除不需要的字段的时候需要注意的是删除操作最好不要直接操作与原始数据上最好的是抽取部分数据进行删除字段后的模型构建查看模型效果如果效果不错那么再到全量数据上进行删除字段操作。总而言之该过程简单但是必须慎用不过一般效果不错删除一些丢失率高以及重要性低的数据可以降低模型的训练复杂度同时又不会降低模型的效果。 三、填充缺省值内容 填充缺省值内容是一个比较重要的过程也是我们常用的一种缺省值解决方案一般采用下面几种方式进行数据的填充 1、以业务知识或经验推测填充缺省值。 2、以同一字段指标的计算结果(均值、中位数、众数等)填充缺省值。 3、以不同字段指标的计算结果来推测性的填充缺省值比如通过身份证号码计算年龄、通过收货地址来推测家庭住址、通过访问的IP地址来推测家庭/公司/学校的家。 四、重新获取数据 如果某些指标非常重要但是缺失率有比较高而且通过其它字段没法比较精准的计算出指标值的情况下那么就需要和数据产生方(业务人员、数据收集人员等)沟通协商是否可以通过其它的渠道获取相关的数据也就是进行重新获取数据的操作。 scikit中通过Imputer类实现缺省值的填充 对于缺省的数据在处理之前一定需要进行预处理操作一般采用中位数、均值或者众数来进行填充在scikit中主要通过Imputer类来实现对缺省值的填充。 如m行n列 axis 0 对第0个位置进行填充 即对m进行填充保持n不变。 按列进行填充 axis 1 对第1个位置进行填充 即对n进行填充保持m不变。 按行进行填充 思考按行填充好还是按列填充好当然是按列填充好。 因为每列表示的都是属性我要填充自然需要和同一个属性内的各个值进行对比。如果按行填充那么一个身高一个体重的值我们怎么分析都不知道该填充什么。 六、自然语言处理 分词是指将文本数据转换为一个一个的单词是NLP自然语言处理过程中的基础因为对于文本信息来讲我们可以认为文本中的单词可以体现文本的特征信息所以在进行自然语言相关的机器学习的时候第一操作就是需要将文本信息转换为单词序列使用单词序列来表达文本的特征信息。 分词 通过某种技术将连续的文本分隔成更具有语言语义学上意义的词。这个过程就叫做分词。 自然语言处理即实现人机间自然语言通信或实现自然语言理解和自然语言生成。主要技术汉字词法分析、句法分析、语义分析、文本生成、语言识别。应用场景文本分类和聚类、信息检索和过滤、机器翻译。Python中汉字分词包jiebaPython开发的中文分词模块。分词来把连续的汉字分隔成更具有语言语义学上意义的词。这个过程就叫做分词。分词的常见方法 词典匹配匹配方式可以从左到右从右到左。对于匹配中遇到的多种分段可能性通常会选取分隔出来词的数目最小的基于统计的方法隐马尔可夫模型HMM、最大熵模型ME估计相邻汉字之间的关联性进而实现切分基于深度学习神经网络抽取特征、联合建模按照文本/单词特征进行划分对于英文文档可以基于空格进行单词划分。 Jieba分词 jieba中文分词模块 Python中汉字分词包jieba 安装方式 pip install jieba Githubhttps://github.com/fxsjy/jieba Jieba分词原理 字符串匹配把汉字串与词典中的词条进行匹配识别出一个词理解分词法通过分词子系统、句法语义子系统、总控部分来模拟人对句子的理解统计分词法建立大规模语料库通过隐马尔可夫模型或其他模型训练进行分词 Jieba分词使用 jieba分词模式全模式jieba.cut(str,cut_allTrue)精确模式jieba.cut(str)搜索引擎模式jieba.cut_for_search(str)分词特征提取返回TF/IDF权重最大的关键词默认返回20个jieba.analyse.extract_tags(str,topK20)自定义词典帮助切分一些无法识别的新词加载词典jieba.load_userdict(‘dict.txt’调整词典add_word(word, freqNone, tagNone) 和 del_word(word) 可在程序中动态修改词典。使用 suggest_freq(segment, tuneTrue) 可调节单个词语的词频 https://www.jianshu.com/p/9332b04e06d3
http://www.pierceye.com/news/200322/

相关文章:

  • 网站中链接怎么做的怎么做资源网站
  • 石家庄建站模板搭建cdr做网站分辨率
  • 学校网站建设有限公司长春网站设计策划书
  • 大连网站建设流程图龙信建设集团网站
  • 徐州好点的做网站的公司深圳做商城网站建设
  • 上海龙象建设集团公司网站网站浮动咨询代码
  • 网站制作培训学校手机网站可以做动态吗
  • 企业推广网站网站开发页面怎么进
  • 嘉兴平湖网站建设网站的底部导航栏怎么做
  • 景安 怎么把网站做别名山东新华电脑学院学网站开发
  • 网站开发好还是app好wordpress 禁用修订
  • win7云主机怎么做网站贵州建设监理网站培训通知栏
  • 制作网站免费建站成都设计公司deanzhang
  • 10个网站用户体验优化的研究结果免费图片设计
  • 做明星网站打广告新闻20条摘抄大全
  • 佛山提供网站设计方案公司wordpress 2.0漏洞
  • wordpress建站教程视频教程百度推广登录首页
  • dede织梦php文章图片网站源码 完整后台 带在线音乐做企业网站进行推广要多少钱
  • 网站正在建设中手机版基于wordpress论文
  • 建设培训网站查询战网
  • 正能量网站下载做网站沧州
  • 网站维护需要什么技能wordpress博客评论删除
  • 行业网站设计师招聘广州番禺网站建设公司推荐
  • 正规网站模板设计软件工程学科评估
  • 网站集约化建设 要求惠州做棋牌网站建设哪家技术好
  • c#如何做公司网站做网站背景图怎么插
  • 国外做耳机贸易的平台网站定制网站
  • seo做的最好的十个网站加工订单网
  • 网站项目建设主要内容网站导航优化的描述
  • 网站后台修改图片网站制作多少钱公司