当前位置: 首页 > news >正文

家装博览会seo排名点击器曝光行者seo

家装博览会,seo排名点击器曝光行者seo,wordpress 菜单居中,短视频app有哪些前言 pyspark中很多常用的功能#xff0c;过段时间没有使用就容易忘记#xff0c;需要去网上搜索#xff0c;这里总结一下#xff0c;省的以后还去去搜#xff0c;供自己以后参考。 withColumn def hot_func(info_str):if info_str:eturn 1return 0过段时间没有使用就容易忘记需要去网上搜索这里总结一下省的以后还去去搜供自己以后参考。 withColumn def hot_func(info_str):if info_str:eturn 1return 0 df df.withColumn(is_hot, F.udf(hot_func, StringType())(F.col(your_col_name)))自定义函数 from pyspark.sql.functions import udf # 定义并注册函数 udf(returnTypeStringType()) def f_parse_category(info):x json.loads(info)[category]return x if x is not None else spark.udf.register(f_parse_category, f_parse_category) # 在sql中使用注册的函数 sql select *, f_parse_category(info) category, from your_table where info is not null df spark.sql(sql).cache()groupby处理 按groupby处理保留goupby字段并对groupby的结果处理。正常情况下使用df.groupBy即可但需要处理多列并逻辑较为复杂时可以使用这种方式。 from pyspark.sql.functions import pandas_udf from pyspark.sql.functions import PandasUDFType from pyspark.sql.types import StructField, LongType, StringType, StructType from collections import Counterpattern re.compile(r\b\w(?: |.join([_size, _sum]) r)\b)group_cols [category] value_cols [sales_sum, stat_size]schema StructType( [StructField(col, LongType()) if len(re.findall(pattern, col))0 else StructField(col, StringType()) for col in group_colsvalue_cols],)pandas_udf(schema, functionTypePandasUDFType.GROUPED_MAP) def group_stat(df):# 获取l [df[item].iloc[0] for item in group_cols]df df[[col for col in df.columns if col not in group_cols]]sales_sum df[sales].sum().item()stat_size len(df)# d: {key: value}df[first_attr] df[attr].transform(lambda d: list(json.loads(d).keys())[0])attr_dict json.dumps({k:v for k, v in Counter(df[first_attr].value_counts().to_dict()).most_common()}, ensure_ascii0)counter sum(df[brand_name].apply(lambda x:Counter(json.loads(x))), Counter())ct len(counter)brand_list df[brand].to_list()values [sales_sum, stat_size, attr_dict, ct, infobox_brand_stat, brand_list]return pd.DataFrame([l values])# df 包含字段category sales attr brand_name brand df df.groupby(group_cols).apply(group_stat).cache() patition By orderBy from pyspark.sql.window import Window from pyspark.sql.functions import row_number, dense_rank # 根据department分区然后按salary排序编号 windowSpec Window.partitionBy(department).orderBy(salary) df.withColumn(row_number,row_number().over(windowSpec)) \.show(truncateFalse) # dense_rank: 相同值排序编号一致sql的方式 select name, category, sales, DENSE_RANK() OVER (PARTITION BY category ORDER BY b.sales DESC) as sales_rank from your_tbdataframe转正rdd处理行 该中情况一般在需要处理过个行的情况下使用如果是少数的行处理可以使用withColumn def hot_func(info_str):if info_str:eturn 1return 0 df df.withColumn(is_hot, F.udf(hot_func, StringType())(F.col(your_col_name)))转为rdd的处理方式为 def gen_norm(row):# 转为字段处理row_dict row.asDict(recursiveTrue)process_key row_dict[key]row_dict[process_key] process_keyreturn Row(**row_dict) # sampleRatio0.01 为推断列类型的抽样数据比例 df df.rdd.map(gen_norm).toDF(sampleRatio0.01).cache() df.show()
http://www.pierceye.com/news/306740/

相关文章:

  • 中堂仿做网站个人网站设计论文道客巴巴
  • 怎么用ps做网站效果图24什么网站建设
  • 网站开发技术有网站建设方案 pdf
  • 网站建设教程浩森宇特福州医院网站建设公司
  • 怎样在网站上做超链接网站商城是用什么框架做的
  • 网站建设增城wordpress新文章类型
  • 广州市招投标中心官网上海网站关键词优化
  • 很多网站开发没有框架如何制作的长沙旅游景点大全排名
  • 云南网站推广的目的做动画的网站有哪些
  • 网站建设公司在哪里找资源模拟建设网站
  • 如何盗用网站模板哈尔滨公告
  • 管理咨询网站焦作专业做网站公司哪家好
  • 在国内做跨境电商怎么上外国网站网站不收录
  • 网站介绍ppt怎么做屏蔽网站ip
  • it公论 是建立在什么网站wordpress搬迁数据库连接失败
  • 南县建设局网站营销型网站开发流程包括
  • 有关应用网站申请免费网站空间
  • 二手书交易网站开发现状营销型网站建设推荐乐云seo
  • 山西网站建设怎么样seo优化网站多少钱
  • 网站建设设计模板磁力链最佳的搜索引擎
  • 单位外部网站建设价格哪些网站可以做视频直播
  • 广州黄埔网站建设公司国外做调灵风暴的网站
  • 珠海附近交友平台软件广州网站优化推广方案
  • cgi做网站如何将网站加入百度图 推广
  • 小贷做网站深圳手机app软件开发
  • 上海平台网站建设费用页面模板不存在怎么办
  • 西安网站排名公司上海工商网查询官网
  • 网站建设协调机制建网站 可以看到访客吗
  • 学生做网站的工作室南和住房和城乡建设局网站
  • 潍坊网站制作案例广东十大网站建设排名