海量数据

抓取应用排行榜数据,每天数据增长量在3000万左右,应该如何设计优化?求大牛指点

2013-10-09 •

题目是这样的 有一百台电脑,每台电脑有100GB的int_64数据 怎么在所有的数据里统计出出现频率最高的那个数字

2013-05-03 •

下载站(Linux、Apache、Mysql、PHP)
有两个表:软件表、版本表
软件表中有软件ID、软件名、其它信息
版本表中有版本ID、软件ID、版本号、其它信息

按天、周、月、年统计软件下载量(软件下载量为对应所有版本的下载量)

这该如何实现啊。。。数据库的话咋设计呢或不用数据库别的方法咋弄呢。。

2013-04-12 •

oracle中有一张表(本来是一个查询结果),有5个字段,没有主键,每个字段可能是null,这个表目前有7000w多条记录(还在增长中),现在想去掉重复的行(如果重复,只保留一行),试过很多方法了,在资源消耗、效率上感觉都不好,直接dinstinct,block消耗太快,甚至可能爆掉,索引由于null的原因,似乎没有效果,临时表根据rowid来去重的方法也试...

2013-04-02 •

假设网站的新闻分 20 个板块,其中有12个板块不经常发新闻,剩下8个板块每个每天都增加100条;没有新闻审核,新闻都是按板块查询的,没有模糊查询。
我是这样设计的:
板块 用枚举(enum)例如:a,b,c
表设计(用到表的横向拆分、纵向拆分):
经常发板块例如:
因为板块新闻量大 就一个板块一张表 经常查询:新闻标题(不长)和发布时间,就存到一张...

2013-02-19 •

我主要是做网页的数据收集.但是我对数据库知之甚少.想要储存纯文字类数据使用哪种数据库比较好?主要是担心以后的编程语言的变更,储存数据的暴增

2013-01-18 •

根据12306铁道部网站产生的疑问!访问数据库最快的语言是什么?

2012-12-27 •

2012-11-30 •

我们这有的事实表很大,经Hadoop计算后一天的数据在千万级别,我们之前的做法是将数据放入Cube或mysql中,由前端应用对其进行查询。因为是OLAP查询,会有大量的表关联,以及聚合计算,又是实时查询数据库,查询性能不尽人意。不知道有没有既能保证前端应用的灵活性,又能有较好的查询效率的解决方案。
像OLAP4CLOUD、HBase-Lat...

2012-11-27 •

热点用户排行

话题状态

最近活动:很久很久以前
该话题下的问题共被浏览 20327 次