当前位置：首页 > news >正文

图片搜集网站怎么做在网站上做宣传

news 2025/11/16 22:31:06

图片搜集网站怎么做,在网站上做宣传,网站没备案可以做商城吗,WordPress文章首页缩进文本挖掘与贝叶斯网络方法识别化学品安全风险因素 1. Introduction现实意义理论意义提出方法#xff0c;目标 2. 材料与方法2.1 数据集2.2 数据预处理2.3 关键字提取2.3.1 TF-IDF2.3.2 改进的BM25——BM25WBM25BM25W 2.3.3 关键词的产生(相关系数) 2.4 关联规则分析2.5 贝叶斯… 文本挖掘与贝叶斯网络方法识别化学品安全风险因素 1. Introduction现实意义理论意义提出方法目标 2. 材料与方法2.1 数据集2.2 数据预处理2.3 关键字提取2.3.1 TF-IDF2.3.2 改进的BM25——BM25WBM25BM25W 2.3.3 关键词的产生(相关系数) 2.4 关联规则分析2.5 贝叶斯网络分析 1. Introduction 本研究旨在提出一种改进的文本挖掘方法来分析大量的化学品事故报告。设计了一个建立和更新分词词库的工作流。关联规则挖掘和贝叶斯网络分析的结果能够清晰地揭示安全风险因素之间的相互关系。本研究的方法可以快速有效地从事件报告中提取关键信息为管理者提供新的见解和建议。现实意义图1显示了2016年至2021年全国每年发生的化学品事故及死亡人数。化工事故1050起死亡1330人化工安全生产形势依然十分严峻。因此在保证化工产品稳定供应的同时提高安全生产水平具有重要的现实意义。约80%的事故发生是由人为引起的因此识别事故因素挖掘内在联系是很有必要的一件事。理论意义之前的化学事故研究更多的致力于安全评价方法而不是分析原因现有的分析方法是基于专家经验和依赖于人为的过程以致分析不全面。此外该化学品的事故报告也没有统一的标准格式报告的内容是高度非结构化的。计算机无法直接处理这类信息同时人为过程是耗时的且会存在差错的过程。因此需要一种自动安全风险识别方法来解决处理大型文本数据集的挑战。一种常见的聚类方法是潜在Dirichlet分配(LDA)。LDA方法有助于有效地提高文本分类任务这在许多高级专家和智能系统中是必不可少的特别是在标记文本稀缺的情况下。Zhong等人[23]利用LDA模型生成的34类主题为建筑行业的各种事故建立了深度学习(DL)和TM的框架分析事故危害。Chen等人[24]构建了利益相关者分类体系并利用LDA模型完成话题聚类揭示了舆论场中利益相关者的话题焦点和演化路径。但是他们检索的结果是以文字的形式来表示相应的信息具有很高的不确定性。特别是在事故报告等大型文本中一些词频很高的词并未指明具体的危险因素但仍被提取为关键词。根据语料库和提取目的的不同传统的文本挖掘已经不能有效识别安全风险因素需要改进。提出方法目标鉴于文本挖掘在化工安全研究中的应用较少本文创造性地将文本挖掘、关联规则挖掘和贝叶斯网络相结合应用于化工事故分析。首先在数据预处理中分别构建和更新域词典、同义词词典和中断词词典。然后我们改进了关键字提取方法提出了BM25W模型。利用距离公式和社会技术系统对相关系数进行归一化处理识别出安全风险因子。然后利用关联规则挖掘方法找到安全风险因素之间的强关联规则并发现关键原因之间的关联。最后基于关联规则挖掘结果进行贝叶斯网络分析找出化学品事故的重要因素、关键原因路径、高频因素和高度集中因素。并对这些结果进行了理论分析。本研究不同于以往的知识驱动或模型驱动的研究以数据驱动的方式分析文本数据的直接不可见模式和复杂关联。我们的目标是通过提供强有力的自动分析事故原因和优化安全策略来减少事故数量。 2. 材料与方法本研究主要包括数据预处理、关键原因提取、关联规则挖掘和贝叶斯网络分析四个部分如图2所示。这四部分将在接下来的章节中逐一介绍 2.1 数据集化工生产领域的事故调查报告是本文分析的原始语料库。这些报告是由安全管理领域的专家在事故发生后通过研究和分析来撰写的。获取事故调查报告的来源有很多。Esmaseili et al.[25]获得了美国国家职业安全与健康研究所(NIOSH)的事故报告Rodrigues et al.[26]获得并分析了欧洲航空安全局(EASA)的事故报告其他一些学者[27-29]也分别从相关官员那里获得了所需的数据。中国的“化工企业生产安全事故报告和调查制度”规定对涉及人员伤亡的事故必须进行完整、准确、及时的记录和保存任何单位和个人不得隐瞒。事故报告的内容应包括事故的原因、损失、责任、纠正措施等。与其他国家一样中国也有专门的安全生产管理部门即中华人民共和国应急管理部(https://www.mem.gov.cn/(2022年8月2日访问))和全国各省市应急管理部门。为保证数据来源的可靠性共下载2011年至2022年上半年化工、危险化学品事故调查报告665份。之后我们对数据进行过滤剔除不符合要求的数据在化工生产领域留下330份事故调查报告。上述事故的级别和类型也被计算在内如图3和4所示。从图3可以看出绝大多数事故是一般事故和较大事故。虽然这些事故造成的伤亡或损失的数量很少但它们经常发生而且仍然是非常严重的。从图4可以看出超过一半的事故类型是爆炸其次是中毒和窒息。这是因为大多数化工生产领域涉及易燃易爆或有毒有害气体容易造成混合气体爆炸或人中毒、窒息。 2.2 数据预处理数据预处理是一个非常重要但繁琐的过程因为原始语料库中含有大量不规则或无意义的词。最重要的任务之一是将原始中文文本分割成类似于用空格分隔的英文文本的格式以便进行下一步的文本挖掘分析。本研究中使用的文本分割工具是python3中的Jieba分割工具。我们观察到化学品生产事故的原因一般由名词和动词或简单名词组成。因此本研究仅选取普通名词、机构名、其他专名、普通动词、动名词进行分词。通过这种方式Jieba在分词时自动排除了剩下的词汇分词结果。JiebaWSS分词系统包含三种词典即领域词典、同义词词典和断词词典。领域词典:虽然JiebaWSS提供了一个词典包含了大部分常用的词(如反应器、管道等)用于切分词但也有很多行业专用词无法识别如蒸馏塔、中间操作室、蒸汽阀、气体检测器等。当涉及到这些词时JiebaWSS可以将整个专有词分割成两个或多个词。这需要事先将这些特定于行业的单词集成到域字典中并将字典添加到JiebaWSS中。同义词词典:事故调查报告中的同义词很多大量的同义词会使分词结果过于离散。我们可以用一个词来替换所有的同义词;例如管道、管道、蒸汽管道、压力管道等都可以用管道代替停止词词典:事故调查报告中还含有大量无意义的词、数字和符号如“我们”、“实际上”、“exactly”、“3”、“6”、“”。“!”等等。这些词对于本研究的分析没有实际意义可以添加到停止词词典中进行排除。这三种词汇对分词结果有着直接的影响而分词结果又对后续的分析产生了层叠效应。因此有必要对这三个词汇进行更新形成一个与本研究一致的JiebaWSS。本研究借鉴了esmaiili、Hallowell和Xu等人的词汇开发思想设计了一种词汇更新方法。图5显示了该方法的工作流。 2.3 关键字提取原语料库拆分结果的内容非常大难以对事故进行直接的关键原因分析。关键词是能够表达文献关键内容的词计算机系统中常用来引用论文的内容特点进行信息检索系统收集供读者查阅。 2.3.1 TF-IDF 关键词抽取是文本挖掘领域的一个分支是文本检索、文档比较、摘要生成、文档分类、聚类[32]等文本挖掘研究的基础。传统的关键字提取方法主要有词频TF (word frequency)和词频逆文档频率TF- idf (word frequency - inverse document frequency)两种使用简单方便。TF认为一个单词出现的频率越高它对文档的贡献就越大。然而对于事故调查报告来说并不是简单地假设一个表示安全风险因素的词在文件中出现的频率越高这个词就越重要。由于每一份事故调查报告的长度不同一些不重要的词可能会在较长的文件中重复出现。为了减少高频的影响TF-IDF在TF后乘以IDF如式(2)所示。其中nij为单词ti在文档dj中出现的次数; ∑k nk,j表示文档dj中所有单词出现次数之和; **|D|**表示整个语料库中的文档总数; {j: ti∈dj}表示包含单词ti的文档数量。但是TF- idf忽略了文档长度其中单词ti的临界度得分仍然与词频TF线性相关。例如如果一个1000字的文档有100字的a而另一个5000字的文档有100字的a那么很明显单词a在这两个文档中的重要性是不同的。单词在长文档中的频率通常更高这最终导致TF-IDF临界性评分仍然过于有利于长文档。为了改善这一问题研究者提出了BM25模型[33]如式(3)所示。 2.3.2 改进的BM25——BM25W BM25 其中N为语料库中的文档总数; **n(qi)**是包含“qi”字的文献数量; tf(qi, d)是文档d中qi出现的频率; Ld是文档的长度; Lavg是整个语料库中所有文档的平均长度; k1和b是可自由调节的超参数; 一般情况下k1∈[1.2,2.0]b 0.75。R(qi, d)对t f(qi, d)的函数是一个饱和递增函数使得文档词频的增长与关键字得分的增长呈非线性相关。因此本研究提出了一些基于BM25模型的改进并用于关键词的提取。 BM25W TF-IDF和BM25都考虑了单词和文档之间的关系但没有考虑单词本身的语义对关键字提取的影响。对于表示安全风险因素的词语一方面我们一般认为词语越长表示的信息越清晰、越专业如device、safety device、safety interlock device[34,35]。特别是我们希望能够提取出能够更清楚地表明安全风险因素的词语。另一方面之前的领域词典的专有词都是由领域专家从文档中仔细检查和选择的因此它们的语义表示更加清晰和专门化。因此本文根据单词本身的语义对BM25模型进行加权。首先根据单词长度计算权重的公式如式(4)所示。其中len(qi)表示单词qi的长度maxlen(d, q)表示文档d中最长单词的长度。其次基于领域字典的权值计算公式如式(5)所示式5表示如果单词qi若不在领域词典中则权重为0否则基础值设为0.5再将文档d分词结果中每100个单词与单词个数的比值相加将这两个权重的总和作为基于单词语义的权重计算BM25模型的加权得分如式(6)所示。与式3对比在本研究中这个新的模型称为BM25W用于关键字提取。 2.3.3 关键词的产生(相关系数) 由于所提取的关键词只是单一的名词或动词不能完全反映事故发生的原因如专用设备、有毒有害气体、监督管理等。这是因为这些词可能有一些语义重复或者可能没有具体反映一个隐藏的问题[36]。这些关键字需要标准化。**本研究首先将所有特征词通过计算机向量化为word-document matrix (TDM)如式(7)所示。**TDM是一个m x n的二维稀疏矩阵。每一行表示一个文档dj, j∈m;每列表示一个特征词ti, i ∈ n t fm,n表示特征词tn在文件dm中的出现次数通过这种方式可以将高度非结构化的事件报告转换为结构化的数值类型数据。然后利用TDM计算特征项之间的相关系数如式(8)所示。 pearson(i, j)特征词i、j的皮尔逊相关系数 mindist(i, j) 指代在所有文档中两个词之间的最短距离如果两个特性术语同时出现在文档中但位置相距很远那么很明显在表示隐藏的问题时这两个特性术语并不相关。TDM只表示特征词数量在整个语料库空间中的分布而不反映特征词在文档中的位置关系。因此本研究采用log2 {1/ mindist(i,j)1} 作为两个特征项的距离权重与Pearson相关系数相乘作为最终的相关系数。 2.4 关联规则分析关联规则挖掘首先是由Agrawal在超市购物篮分析中提出的它是一种研究数据库中项目集之间潜在相互关系的方法。它是目前数据挖掘领域最活跃的研究方向之一。关联规则可以从大量的事故数据中发现导致事故发生的不确定因素的关联特征从而识别出因素之间的因果关系帮助管理者进行决策。因此本研究在通过文本挖掘识别安全风险因素的基础上采用关联规则挖掘的方法获得安全风险因素之间的强关联规则为后续的化学品安全风险因素分析和贝叶斯网络结构的构建奠定了基础。关联规则挖掘定义如下:: 设I {i1, i2…in}是一个由n个称为items的二进制属性组成的集合D {t1, t2… tn}是一组称为数据库的事务。D中的每个事务都有一个唯一的事务ID和包含I中项的一个子集。一条规则被描述为X⇒Y由x可推得y其中X, Y⊆I。每条规则都由两个不同的项集组成也称为项集X和Y其中X称为先行项或左手边项(left-hand-sideLHS) Y称为后件项或右手边项(right-hand-sideRHS)。**为了从所有可能的集合规则中选择感兴趣的规则使用了对不同意义和兴趣度量的约束。**最著名的约束是支持度和置信度的最小阈值。设X是一个项目集X⇒Y是一个关联规则T是一个给定数据库的事务集。支持度表明项目集在数据集中出现的频率随着数据集的增长项目集的先决条件变得更有限制性而不是更具包容性。 X对T的支持定义为事务t在包含项目集X的数据集中所占的比例计算方法如下置信度表示该规则被发现为正确的频率表示为: X⇒Y对一组交易T的置信值是包含X的交易中同时包含Y的交易所占的比例。如果conf (X⇒Y)的值等于1则X⇒Y的规则是不可避免的。关联规则需要同时满足最小支持度和最小置信度。在大多数情况下关联规则的生成分为两个独立的步骤第一步应用最小支持阈值来查找数据库中的所有频繁项目集第二步应用最小置信约束来获取这些频繁项目集以形成规则。安全风险因子最初并没有出现在文献中而是通过标准化关键词得到的。因此当一对关键字和非关键特征项同时出现在一个文档中且距离不大于10时我们认为这两个词归一化的安全风险因子在本文档中也存在。这样就可以得到关联规则挖掘所需的事务集即上述事务数据集。传统的关联规则挖掘算法主要有Apriori算法和FP-growth算法。 Apriori算法对事务数据库进行多次扫描每次使用候选频繁集生成频繁集; 而FP-growth算法采用树形结构直接获取频繁集不生成候选频繁集大大减少了事务数据库的扫描次数提高了算法的效率。因此FP-growth只能用于挖掘单维布尔关联规则。但由于安全风险因素之间的因果关系错综复杂且多集关联规则数量众多因此本研究采用Apriori算法进行关联规则挖掘。 2.5 贝叶斯网络分析贝叶斯网络又称置信网络是贝叶斯的延伸是目前不确定知识表示和推理领域最有效的理论模型之一。自1988年Pearl提出贝叶斯网络以来贝叶斯网络已成为近年来的研究热点。贝叶斯网络是由表示变量的节点和连接这些节点的有向边组成的有向无环图(DAG)如图6所示。当事件A的发生影响到事件B的发生时有如下关系条件概率: 式(11)称为贝叶斯公式其中P(A)和P(B)分别为事件A和事件B的先验概率;P(A|B)为后验概率(条件概率)即事件A发生时事件B发生的概率;P(B|A)表示似然概率表示假设结果发生时对原因发生的可能性的描述。对于任意随机变量其联合概率可由各自的局部条件概率分布相乘得到如式(12)所示。本文构建和分析化工事故因果关系网络的目的是通过定量分析明确化工安全生产系统的关键风险因素从而提出更有针对性的事故预防策略。因此本研究基于关联规则挖掘的结果构建了贝叶斯网络结构并将事务集转化为One-Hot Encoding用于贝叶斯网络的参数学习。然后对安全风险因素进行敏感性、关键原因路径和频次统计分析。本研究采用GeNIe4.0软件进行贝叶斯网络分析。GeNIe Modeler是一个用于构建图形决策理论模型的开发环境。由于它们的通用性和可靠性GeNIe和SMILE已经非常受欢迎并成为学术界的事实上的标准同时也受到许多政府、军事和商业用户的欢迎而且GeNIe已经在许多教学、研究和商业环境[45]中进行了广泛的测试。

查看全文

http://www.pierceye.com/news/670429/