-
AWS Service花费的潜在提高空间
用AWS Service也有3,4年的时间时间。对于花费我觉得还是有挺大的提高空间. ECS中采用Spot instance。 DynamoDB的花销应该还可以优化。历史数据应该可以设置TTL清除。这个应该非常简单。减少不必要的write 访问。 Redis的使用可以减少,可以用DynamoDB 减少ECS中instance的数量,采用auto scaling。 更好的平衡ec2 instance的cpu,memory的数量和每一个tasks的需求。保证每一个ec2 instance都被合理的利用。 其实这些东西很多都很简单,但是没有做的原因是从领导就没有强有力的推动这些东西。推动的人技术很弱,没办法找到好的切入点。当然后来新的领导来了,鸡飞狗跳,大家都在离开,还有谁真的在乎呢?
-
Tcp/Ip如何工作 (Kafka producer机制)
Application如果需要发送消息,是先发到操作系统的socket write buffer. 如果buffer(queue)满了,就是tcp congestion。同样的,外部来的消息会先到操作系统的socket receive buffer.如果buffer满了,操作系统就不会ack那个消息,也是congestion。 这个buffer的尺寸并不大,可以通过一下命令查询。参数分别代表,min, default, max: 之所以看到是因为看这篇文章http://cloudurable.com/blog/kafka-tutorial-kafka-producer-advanced-java-examples/index.html#:~:text=The%20Kafka%20Producer%20has%20a,acks%20to%20control%20record%20durability. 如果act是0,那么application只是把消息送到socket buffer就可以了。 还有一个配置参数 buffer.memory 这个是application level的setting,当broker无法访问,就会把消息放在内存中等待,在 max.block.ms 到期之前,send就会等待,到期就会抛一场。producer 也有重试机制。 但是这里有一个疑问,broker不可访问,是不是操作系统的socket write buffer也会满?我觉得不会,如果socket buffer满了就会影响所有的application,这个相当于外部的一个目标无法访问就导致所有的对外连接失效。应该是有一个机制操作系统知道外部网络不可送达,然后就会清楚缓存,告诉application目标不可达,然后application就会cache请求,然后不断的重试。 https://stackoverflow.com/questions/49649241/apache-kafka-batch-size-vs-buffer-memory
-
AWS上docker container的配置
-
Baeldung-最好的技术网站,没有之一
已经记不清楚看过多少baeldung的文章,今天又用它解决了一个java debug的问题。Tungsten以前一直可以remote debug忽然最近发现不行了。 最后还是这边文章解决了问题:https://www.baeldung.com/java-application-remote-debugging 原来根本原因是我们升级了JDK到8,老的Java 5的debug参数已经不能用了。。而且貌似Java 9以后参数又变了。 我看Baeldung有中文版,但是翻译工作做的真的一般。。中文真的应该有一个类似的权威的技术门户,文章的质量控制真的非常非常重要。有很多的技术网站,但是内容都是网友贡献,有些很好,有些质量却很差。还是需要中心化的审核机制
-
对象的序列化
对象的序列化和传输在过去这些年也发生了很多的变化。 Java序列化 很早以前用这个,因为这种序列化方式只能局限于一个单一语言,已经不再用了。 Json 用Jackson的ObjectMapper把一个对象序列化成Jason,然后再反序列化. Avro Kafka的默认方式。需要提前预定义好model,序列化,反序列化的时候都需要用那个model。model更新的时候我记得并不像想象的那么简单。比如说加一个字段。我们必须asdl定义NoAE的所有的消息都有自己对应的Class,Serializer和Deseriallizer,都是基于Avro的。比如 NotificationInstanceDeserializer NotificationInstanceSerializer AvroSerializer.java (This copied from GenericBinarySerializer.java in CDC-model) 而DACO的Serializer和Deserializer都是用一个 JsonSerializer.其实就是Jakson的ObjectMapper的实现。不过传输的都是二进制(但是其实就是json专程bytes而已,Kafka的所有消息都是bytes)。DataModel必须是JsonNode的实现(其实不需要,objectMapper.writeValueAsBytes这个方法就是接受Object)。没有语言独立的表达。。绑定Jackson. 这个就是偷懒的做法。不需要定义avil文件,只需要写一个继承JsonNode的bean就好。主要是公司没有一个统一的标准,大家都选择自己最convinience的方法去做。以后如果要改格式就还挺麻烦。 JsonSerializer.java KafkaJsonDeserializer.java. 所以Kafka consumer都是拿的JsonNode,需要再转为子类。比如NotificationMessage.java Protocal Buffer gRPC的默认方式。和Avro类似。尺寸都比较小。
-
Protected: DATA INTEGRATION Challenges
There is no excerpt because this is a protected post.
-
Protected: Main Service的AWS部署基础架构
There is no excerpt because this is a protected post.
-
Protected: 走出舒适圈
There is no excerpt because this is a protected post.
-
Recursive递归的时间空间复杂度计算
基本概念 递归可以层次可以通过tree的形式展现。 比如下面的递归: 时间复杂度:就是总的树的节点s数。如果每一次层嵌套都包涵2层平行的call,那时间复杂度就是O(2^N).如果有四层,那么就是O(4^N). 空间复杂度:就是总的树的深度。在这里就是N 深度优先算法(DFS: Depth First Search) 深度优先算法是一个递归调用。对于图的深度优先,我们有Vertices和Edge的数量,分别用V和E来表示。 时间复杂度:因为是图,所以在递归的时候每一次层有多少节点是不知道的,所以没办法按照2^n的普遍算法来算。但是换一个思路就是无论如何每条边都至少需要走一遍。时间复杂度就是总的边的数量,每条边会被访问两次,一次是遍历,一次是会退。O(E). 空间复杂: 如果所有的Vertices都是相连的,那么就会有V层深度的书。那空间复杂度就是O(V) 广度优先算法(BFS: Breadth First Search) todo 时间复杂度: O(V+E). 这里不是说O(E)比O(V+E)好。其实O(E)是O(2E).因为复杂度计算忽略常量,这里容易引起误解。 空间复杂: O(V) Reference: https://stackoverflow.com/questions/43298938/space-complexity-of-recursive-functionhttps://zhuanlan.zhihu.com/p/95081559#:~:text=%E5%9C%A8%E6%B7%B1%E5%BA%A6%E4%BC%98%E5%85%88%E6%90%9C%E7%B4%A2%E7%AE%97%E6%B3%95,%E5%BA%A6%E4%B8%BAO(V)%E3%80%82
-
Java中数组操作的性能
其实不同数据结构的性能差别还是很明显的,只是在实际使用中这种差别会被网络等各种开销所掩盖。所以这里看到的1000倍以上的差别可能在实际场景中并不那么明显。 下面写写出结果: 运行环境时m1 CPU的macbook mini。可以看到插入1000个int到数组是0.017ms, ArrayList是0.584ms, LinkedList是0.379ms,HashSet是5ms,LinkedHashSet是2ms。最好和最差之间相差500倍。 但是如果要在网络传输这么1000个integer对象,可能直接就是几十毫秒的花销了,存储的时间根据不同介质也要几毫秒不等。而且通常如果需要存储的话肯定也需要网络开销,本地存储的概率很低。 但是这些基础的性能开销上的差别在大数据处理的时候应该还是能显现出差别的。最慢的5ms 1k数据,如果数量级到1million的话,那么就是5s,1billion的话就是1个多小时。如果用int的话,那就是10s。1个多小时 VS 10s 还是很可观的差距。只是不知道把1billion的数据load到内存需要多久😂 在实际的项目中其实也从来没有遇到过这种内存计算开销导致的性能瓶颈。如果以后什么时候遇到了,我再回来update这里。。