0%

本文主要包括:

最近公司有一个需求,需要把服务器A上的任务放到服务器B上,因为B上有HTTP,并且可以被外网访问,但是直接通过shell的scp,每次都需要输入密码。这里用python简单实现一下

直接上代码:

import paramiko
import sys

def deleteRemoteFile(dt):
    ssh = paramiko.SSHClient()
    ssh.set_missing_host_key_policy(paramiko.AutoAddPolicy())#第一次登录的认证信息
    ssh.connect(hostname='192.168.72.208', port=22, username='gold', password='gold!23') # 连接服务器
    stdin, stdout, stderr = ssh.exec_command('rm /home/gold/data//*') # 执行命令
    ssh.close()


def uploadFile2Remote(dt):
    transport = paramiko.Transport(('192.168.72.208', 65522))
    transport.connect(username='gold', password='gold!23')
    sftp = paramiko.SFTPClient.from_transport(transport)
    sftp.put('/home/gold/data/broad.png', '/home/gold/data/broad_%s.png' % dt)
    transport.close()

if __name__ == '__main__':
    unix_ts = sys.argv[1]
    deleteRemoteFile(unix_ts)
    uploadFile2Remote(unix_ts)

注意:

  • 这里有一个坑,就是sftp在put的时候,需要把在208服务器上的文件名写出来,代码执行的逻辑想当于先touch 一个文件,然后往这个文件里写数据,如果不加文件名,直接到文件夹,就会报错

具体的可以参考:
python实现ssh及sftp功能

本文主要包括:

  • hive中的复杂数据类型数据如何导入(array)
  • hive中load数据到分区和add partition的区别:
  • hive引用udf的jar报无效
  • hive实现job并发执行
  • 验证hive两个join的结果是否相等
    阅读全文 »

序列化是干什么的?

序列化简单来说就保存对象在内存中的状态也可以说是实例化变量。这是Java提供的用来保存 Object state,一种保存对象状态的机制。只有实现了serializable接口的类的对象才能被实例化
Java中,一切都是对象,在分布式环境中经常需要将Object从这一端网络或设备传递到另一端。这就需要有一种可以在两端传输数据的协议。Java序列化机制就是为了解决这个问题而产生。

什么情况下会用到序列化?

  • 当你想把内存中的对象写入到硬盘时
  • 当你想用套接字在网络上传输对象时
  • 当你想通过RMI调用对象时(RMI总结来说就是远程调用对象,在一个jvm上调用另一个jvm的对象)

Spark为什么需要序列化?

Spark是分布式执行引擎,其核心抽象是弹性分布式数据集RDD,其代表了分布在不同节点的数据。Spark的计算是在executor上分布式执行的,所以对象在执行中需要通过网络传输,或者持久化到本地磁盘的时候必须要经过序列化。

Spark支持的序列化

spark默认使用的是java序列化,java序列化的好处是非常灵活,开发起来很简单,缺点是速度较慢,在某些情况下序列化的结果也比较大
Spark也能使用Kryo(版本2)序列化对象。Kryo不但速度极快,而且产生的结果更为紧凑(通常能提高10倍)。Kryo的缺点是不支持所有类型,为了更好的性能,你需要提前注册程序中所使用的类(class)。

实现步骤

val conf = new SparkConf().setAppName("Test")
      .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")   //声明序列化器为KryoSerializer
      .registerKryoClasses(Array(classOf[MyClass1],classOf[MyClass2],classOf[MyClass3]))  //注册要序列化的自定义类型

参考:https://tech.meituan.com/2016/04/29/spark-tuning-basic.html
原则八

spark性能调优

有篇文章写得很好,可以参考下
https://www.cnblogs.com/stillcoolme/p/10576563.html