当前位置: 首页 > news >正文

营销型网站建设总结有限公司和公司哪个好

营销型网站建设总结,有限公司和公司哪个好,移动互联网开发专业就业方向,0代码开发平台有哪些点击上方蓝字关注我们↑↑↑↑原 文 摘 要针对智慧城市建设中各种业务数据对地名地址匹配准确度和效率不高的问题#xff0c;本文提出一种面向智慧城市的高精度地名地址匹配方法。该方法在基于中文分词的地名地址匹配技术框架下#xff0c;综合利用精细化地名地址库构建、地名… 点击上方蓝字关注我们↑↑↑↑   原 文 摘 要针对智慧城市建设中各种业务数据对地名地址匹配准确度和效率不高的问题本文提出一种面向智慧城市的高精度地名地址匹配方法。该方法在基于中文分词的地名地址匹配技术框架下综合利用精细化地名地址库构建、地名地址特征分词库构建和基于用户搜索行为大数据分析 3 种关键技术提高地址匹配度和匹配精度。利用该方法对智慧德清建设项目中工商法人 6537 条数据和 130988 条精细化地址样本数据进行实验与分析。实验结果表明在智慧城市大数据环境下相比于传统地名地址匹配方法该方法匹配精度高效率也大大提升同时在匹配度与精确度两个指标上匹配结果更加均衡。❖0 引  言当前智慧城市的建设如火如荼空间位置信息作为城市信息的重要维度受到越来越多的重视。在城市工商、税务、规划、公安、银行等职能单位拥有的业务数据中通常以文本形式描述区域、街路、门牌号码等空间位置信息1。如何将这些文本描述的空间位置信息与精确的空间位置进行匹配是地名地址匹配技术的关键问题2。因而高效、高精度的地名地址匹配技术成为智慧城市建设空间位置信息获取与应用的必然需求3。如何建立适用于大数据环境下的地名地址匹配方法并提供数据分析、定位以及可视化等功能已成为我国智慧城市发展中的现实需要4。由于中文地名地址的特殊性中文地名地址的匹配一直以来也是地理信息领域研究的热点和难点问题。近年来国内专家学者针对地名地址匹配的工作开展了大量研究。马照亭等基于可伸缩地址模型提出一种基于地址分词的自动地理编码算法根据地理编码编制地址词典利用地址词典进行地址分词形成地址要素及其级别最终根据查询条件进行匹配5; 赵阳阳等提出基于地址要素识别机制的地名地址分词算法基于整词二分分词词典采用 FMM 算法增加了基于地址要素的识别机制从而有效地实现了对地名地址串的拆分6; 魏金明等针对市域地址数据特点提出了一种基于置信度的地址匹配方法该方法以地址数据库为基础依托规范化地址编码利用分词算法和置信度筛选的方法匹配数据通过人机交互的方式扩充地址库实现了地址的自动匹配定位7。上述匹配方法主要都是从技术层面在某一个具体的关注点上提高匹配的精度忽略了智慧城市大数据环境下的数据本身语义多样性、采集源异构等特征。目前这些高效准确的地名地址匹配技术并不能完全满足智慧城市建设的需求无法提供高效精准的匹配和智能化服务兼容性不强覆盖面不广。因此本文提出一种面向智慧城市的高精度地名地址匹配方法首先在基于中文分词的地名地址匹配技术框架下通过精细化标准地名地址库构建覆盖全面的全文检索索引库; 其次结合中文地名地址语义特点和通用地址表述方式对通用地名地址词组设置不同的权重构建面向地名地址匹配的特征分词库以提高分词库的专业性降低分词过程中的冗余和错误率; 最后利用深度学习技术将用户搜索行为和匹配结果进行统计与分析进一步补充和完善专业特征分词库提高地名地址匹配效率以满足智慧城市建设的需求。1 基于中文分词的地名地址匹配方法基于中文分词的地名地址匹配采用的是全文检索技术8主要分为索引创建和索引搜索两个过程( 如图 1 所示) 。高精度地名地址库作为样本库每一条地名地址都对应采集的精确空间坐标索引创建利用分词库通过分词组件对样本库中的地名地址文本字符串进行分词形成一个一个的单词然后对这些单词建立索引。匹配就是索引搜索的过程将待匹配的字符串通过分词组件进行分词然后与索引库中的索引进行匹配找出匹配度最高的索引然后得出与地名地址样本库中一致的空间位置以此实现非空间信息向空间信息的转换910。索引创建和索引搜索都离不开分词。分词是通过分词算法将标准化后的地址字符串分解成多个地址要素词组的过程。目前常用的中文分词方法主要有基于字符串匹配的分词方法、基于统计的分词方法、基于知识理解的分词方法和基于语义的分词方法。以“浙江省杭州市西湖区保俶北路 83 号”为例对地址进行分词可得到“浙江省 | 杭州市 | 西湖区 | 保俶北路 | 83 | 号”这组地址要素词组。同一条地名地址字符串不同的分词库和不同的分词算法会得出不一样的分词结果如上述地址也可分词为“浙江 | 省 | 杭州 | 市 | 西湖 | 区 | 保俶 | 北 | 路 | 83 号”。影响全文检索的核心是样本库的详细程度和分词的准确性。样本库越丰富描述越准确则索引库越全匹配的命中率和准确度越高。分词库越丰富分词库语义特征越明显则分词结果越好索引创建和索引搜索的准确度越高。2 面向智慧城市的高精度地名地址匹配方法21 构建精细化的标准地名地址库标准地名地址库的建立是地址匹配的基础和前提需要将采集的城市地名地址按照确定的模型进行标准化然后对标准地址要素进行编码。这些地址要素一般包括行政区域、街道名、小区名、门址和楼址、标志物名等。标准地名地址数据库存储各类地址的标准名称和空间坐标的唯一编码。在匹配过程中输入的关键词需要在标准地名地址库中进行检索和匹配因而标准库越详细匹配的契合度就越高。本文采用以下3种方式实现全覆盖、高精度、实时更新的智慧城市标准地名地址库。1) 多源采集模式。在传统的人工测绘采集方式的基础上结合高分影像和在线众包模式实现区域内地名地址的全覆盖和高精度采集采集的地名地址细化到门牌楼址信息。2) 地址线性内插和模拟。对于不能够在标准地名地址库中准确查询匹配的数据进行地址线性内插和模拟基本实现全覆盖地址数据11。我们利用待匹配地址的门牌号在地址库中查询相邻最近的前后一对地址门牌号结合所在道路的门牌号编码规则根据距离线性内插得到待匹配地址的空间位置。如查找 7 号地址可利用已有空间位置的 5 号和 9 号进行内插和模拟。同时当有新的门牌地址空间数据更新到地址空间数据库时将之前匹配结果中内插匹配的部分重新利用上述流程计算一遍让内插匹配的空间位置更接近真实位置。3) 建立协同更新机制。在精细地名地址采集形成的数据库体上采用多部门业务协同机制实现多个涉及地名地址数据使用与更新的部门( 如民政、测绘、工商、公安) 之间的业务协同实现地名地址数据的实时更新12。通过以上 3 种方法的结合使用可以形成完整的智慧城市地名地址数据库在此基础上对所有的数据进行检查和标准化形成精细化标准地名地址库为地址匹配和索引库建立奠定基础。22 建立面向地名地址匹配的专业特征分词库中文地址分词具有准确性、高效性、通用性、适用性 4 个原则13。其中准确性关系到地址匹配的效率提高分词准确性是地址分词的主要目标。国内对中文分词技术已进行了大量的研究技术较为成熟分词准确率已经超过 95%本文主要采用基于字典匹配的分词方法。基于字典匹配的分词方法又叫作基于字符串的分词方法或机械分词方法14。这种方法是基于词典的即分词库然后将待拆分的汉语字符串按照一定的扫描规则与分词库的词条进行匹配。因而基于分词库的匹配模式最关键的是分词库的内容不同的分词库和解析器对同一个地址字符串则会分解成不同的词组15。如“保俶北路 83 号”可能会被分解为“保俶 | 北 | 路 | 83 | 号”或 “保俶北路 | 83 | 号”显然后面一种分解更加符合实际情况。为保证地址字符串能准确地分解为符合实际需求的词组本文通过在精细化标准地名地址库的基础上对分词库的词语进行权重设置建立面向地名地址的专业特征分词库。1) 在分词库中加入具有地名和空间特征的通用词语如“街道、路、巷楼、幢、栋、小区”等词语分词库中对这些词语设置高权重值。2) 通过正则表达式从精细地名地址样本库中提取具体的地名地址词组主要包括具体的行政区划名称、街道马路名、楼幢名等将这些词语也加入分词库并设置高权重值。3) 在基础中文词库的基础上减去与地名地址关系不大的一些特征词降低与地名地址无关匹配提高地名地址匹配的准确度。23 利用深度学习完善分词库和提高匹配精度随着人工智能技术的不断深化深度学习在机器学习领域获得巨大进展它用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征在学习各类数据的规律中扮演着重要的角色16。类似于人类的学习能力深度学习旨在利用计算机程序模拟出自学习系统完成各种学习可以使分类或预测变得更加简单17。在智慧城市建设与出行导航过程中我们发现描述空间位置语句十分复杂目前还没有技术可以实现 100%的正确匹配。采用深度学习让用户搜索行为和匹配结果进行学习则可以不断提高匹配精度。用户在使用地名地址匹配进行检索时都会使用正确且具有实际空间语义的词这些词隐藏着用户行为习惯和个人认知将这些词语进行记录不断地加入分词库让分词库不断完善和专业化; 同时将用户从匹配候选结果中选择的结果与搜索关键词进行关联建立样本和标签的对应关系生成深度学习样本数据不断进行训练和学习当下次进行相同关键词进行地名地址检索时深度学习优先选择与之关联的地名地址作为结果词条。通过深度学习的地名地址匹配方法能预先自我纠错提高匹配精度和效率自动获取和发现所需要的知识和信息。3 试验与分析 为了验证上述匹配方法的有效性在智慧德清时空信息云平台的建设过程中本文以智慧德清工商企业 6537 条数据作为待匹配试验数据以德清 130988 条精细化为地址样本数据通过空间内插和模拟后新增了 52300条地址数据形成 183288 条全覆盖地址数据并根据在线业务协同系统每天平均更新 50 条地址数据和 43 条地名数据。在中文盘古分词库 146260 条的基础上新增 821条德清地名地址专业词形成智慧德清地名地址专业分词库见表 1。试验结果表明在默认的中文分词匹配方法下匹配准确率为 65%通过精细化地址样本库完善能提高到85%通过分词库优化能提高到 78%通过基于用户搜索行为的深度学习能提高到 70%通过 3 种方式的综合运用可以将整个匹配结果从原来的 65%提高到 90%如图2 所示。4 结束语智慧城市大数据环境下的地名地址匹配技术对推动智慧城市、智慧应用的发展提供了有力的技术支持。本文基于中文分词的全文检索匹配方法针对全文检索的原理提出通过精细地名地址库的建立、地名地址业务协同模式的采用来实现地名地址数据的常态化更新; 提取行政区划、道路、房屋等测绘地理信息专业词谱建立面向地名地址匹配的中文分词库; 通过对用户搜索行为的深度学习来完善分词库并提高匹配关联度 3 种方式的综合运用水平能有效提高地名地址匹配准确率能够较好满足智慧城市建设中各类专题部门的地址信息空间化需求。该方法在处理智慧城市大规模数据时相比于传统地名地址匹配算法在一定程度上提升了效率和性能有效地提高了地名地址在智慧城市建设中的应用价值。参考文献1 李琴梁寒冬付蔚霞宁波市地名地址数据建设与用J 测绘与空间 地 理 信 息201740 (8) : 212 2142172 江洲李琦地理编码( Geocoding) 的应用研究J地理与地理信息科学 2003(3) : 222.3 李林程宇翔智慧重庆地理编码系统研究与应用J地理空间信息 201513(6) : 4043124 许普乐王杨黄亚坤等大数据环境下基于贝叶斯推理的中文地名地址匹配方法J 计算机科学 201744(9) : 2662715 马照亭李志刚孙伟等一种基于地址分词的自动地理编码算法J测绘通报 2011(2) : 59626 赵阳阳王亮仇阿根地址要素识别机制的地名地址分词算法J测绘科学 201338(5) : 74767 魏金明仲伟政基于置信度的地址匹配方法初探J测绘科学 201540(1) : 1221258 李奇基于 EST 风格的地理编码服务研究D 青岛: 山东科技大学 20129 张雪英闾国年李伯秋等基于规则的中文地址要素解析方法J地球信息科学学报201012 (1) : 91610 吕欢欢 基于地理信息公共服务平台的语义地名地址匹配方法研究D阜新: 辽宁工程技术大学 2014.11 闵星周冲曹伟基于内插的一种门牌地址匹配方法的研究与实现J测绘与空间地理信息201538(6) : 11912012.12 李东阳方俊杰许大璐GIS 技术支持下的多部门地名地址业务协同研究与实现J 测绘通报2016(10) : 12112413 谭侃侃 基于规则的中文地址分词与匹配方法D青岛: 山东科技大学 201114 程琦梁武卫汪培基于复合字典的地名地址匹配技术J城市勘测 2018(1) : 76788215 陈建英 面向中文地址的分词引擎设计及实现D北京: 中国科学院大学 201516 奚雪峰周国栋面向自然语言处理的深度学习研究J自动化学报 201642(10) : 1445146517 来斯惟徐立恒陈玉博等基于表示学习的中文分词算法探索J中文信息学报 201327(5) : 81.作者简介张剑( 1985 ) 男湖北监利人浙江省自然资源监测中心工程师硕士2010 年毕业于中南大学地图制图学与地理信息工程专业主要从事空间地理大数据分析及应用工作。叶远智浙江省自然资源监测中心。翁宝凤浙江省自然资源监测中心。End原载于《测绘与空间地理信息》2019年11期。地名笔谈小组搜集整理如文字识别录入偶有差错请见谅。非商业用途如有侵权请联系删除。转载请注明。                     往期推荐                       【地名地址】地名地址应用服务系统的研究与实现2020-10-15 【地名地址】基于地名地址的政务数据空间化方法2020-11-03 【地名地址】县区地名综合数据库建设研究2020-11-26 点个在看你最好看
http://www.pierceye.com/news/778230/

相关文章:

  • 东莞网站建设品牌公司如何做电子书网站
  • 免费学做美食视频网站有哪些百度是国企还是央企
  • wordpress 网站关键词设置wordpress 上传主机
  • h5电子商务网站如何查询关键词的搜索量
  • 网站导航栏兼容性网站建设的主要技术指什么软件
  • 如何抄袭网站400靓号手机网站建设
  • 大兴网站建设价格怎样建设好网站
  • 三维家是在网站上做还是在app上国内新闻最新5条
  • 呼伦贝尔网站设计wordpress如何关闭主题
  • 苏州网站制作网站建设淮安住房和城乡建设厅网站
  • 房产中介网站wordpress模板mip
  • 汽车租赁网站怎么做沈阳网站开发程序员工资
  • 网站建设教程搭建汽岁湖南岚鸿专注交城有做网站的吗
  • 网站开发怎么连接sqlserver建设网站怎么收费标准
  • 万网网站模板购买北京南站核酸检测地点
  • 南京城乡建设网站公司做网站哪个好
  • 有没有学做衣服的网站广告设计公司有什么岗位
  • 什么网站做免单衣服厦门设计师网站
  • 深圳网站建设 龙华信科易乐自助建站
  • 徐老师在那个网站做发视频搜索引擎优化特点
  • 工信部网站备案批准文件重庆装修网站建设
  • 网站被攻击了怎么办网站优化 价格查询
  • 北京网站建设公司怎么样怎么做qq盗号网站
  • 中企动力网站建设合同中天建设招标网站
  • 湖南手机版建站系统开发wordpress获取用户角色
  • 南皮网站建设价格泰安房产信息网官网首页
  • 网页制作与网站建设实战大全重庆房产信息网官网
  • 上海的网站建设公司app对接网站登录要怎么做
  • 江苏省备案网站现在什么网站做外贸的最好
  • 如何知道网站是否被k蓝山网站建设