面试技巧 面试问题 自我介绍

> 求职招聘指南 > 面试指南 > 面试问题

海量数据处理面试题

来源:58.com - 时间:2015-12-09 15:36:09 - 阅读:121

在处理海量数据问题时,首先要仔细分析问题,明白问题需要解决那些关键问题,明白需要达到怎样的存储、性能要求,在这之前,应充分理解业务数据的分布、数据粒度、数据服务的质量要求、数据的动态性、数据的关联性等真实数据、业务熟悉。通常我认为,处理海量数据问题时,心中要有一些基本概念:

1. 现有的开源的优秀工具那些是处理海量数据的;

2. 海量数据就因为数据大吗,可以考虑对海量数据进行分区操作;

3. 加快海量数据的访问,数据索引必不可是;

4. 内存总是有限的,内存的速度是最好的,建立缓存机制是十分必要的;

5. 海量数据来源多样,数据格式也不相同,最好是统一为字符串处理,逻辑处理交给上层应用;

6. 海量数据离不开集群、分布式,分布式的出错处理、负载均衡就必然要有一套可行的机制;

7. 所有底层的问题或者说存储的问题解决了,未来方便上层应用或者夸大底层支持的业务,对外应该有一个明朗的逻辑视图;

8. 系统设计和结构,会因为不同的语言、操作性在实现难以上不同,这也需要考虑;

9. 海量数据的一个应用就是数据挖掘服务,多域数据来源统一管理下,数据仓库和相关计算也应该了解一二;

10. 尽管说存储不是问题,如果能对数据进行压缩处理,又可以接受的性能,这何乐而不为呢。

在参考前人博客、文摘加上个人一点理解,汇总以下一些基础概念已帮助和我一样面临就业的学生,应对未来公司的面试考核。当然,有实际工作经验的大牛门来说,下面的问题早已不是问题,他们都在某个问题上是专家了。欢迎大牛指导!

具有通用性的数据结构和算法思路汇总有:

1. Bloom filter

2. Hashing

3. bit-map

4. 堆

5. 双层桶划分,可以理解为多级索引

6. 数据库索引

7. 倒排索引(Inverted index)

8. 外排序

9.trie树

10.分布式处理


更多精彩文章:

年终工作总结

工作总结

半年工作总结

周工作总结

工作总结

重点类别推荐: 职场资讯 | 简历模板 | 面试指南 | 薪酬福利 | 劳动法苑 |