数据挖掘

数据挖掘

数据挖掘(Data Mining)是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。

求问有没有最近抓取过新浪微博数据的大神TAT

2015-11-15 •

有没有大神用过这个Stanford的SNAP平台呢?我想获取一些twitter的数据,我们老师建议我到这个平台上找,但是界面上Download只有一个最新的SNAP2.4版本。。并不太会使用,可不可以请求指教一下
网址是:https://snap.stanford.edu/snap/doc.html

2015-11-14 •

给定某机构过去18个月的邮件来往数据集:有向图(约270000个结点,约420000条边,结点从0开始按顺序编号),其中每个结点代表一个邮箱账户,若结点i到结点j存在一条有向边,则意味着账户i给账户j发送过至少一封邮件。除此数据集及关于该有向图的若干统计信息外,没有其它可用数据。

要求:从这个有向图中挖掘出行为异常的结点(账户)。

想问一下大家,关于有向...

2013-12-11 •

如何采集http://tool.chinaz.com/kwevaluate/这里的数据,是通过xhr返回的,
用chrome找到数据地址为http://tool.chinaz.com/AjaxSeo.aspx?callback=jQuery17105530962340999395_1384759693041&t=kwevaluate&inde...

2013-11-19 •

例如IP伪造

2013-09-10 •

php file_get_contents抓取网页时抓到手机版页面,已经考虑过用ini_set('user_agent')的形式让页面伪装成PC浏览器,但仍然是抓到手机版页面,求帮助!

  
<?php
ini_set("user_agent","Mozilla/5.0 (X11; U; Linux x...

2013-08-21 •

问题是这样,我有两个数据集,一个是对于网页的内容特征标记的,有6414个样本,一个是对于网页的链接特征标记的,有7473个样本,我想实现把数据集分成训练集和测试集用于生成和测试基分类器,但是在处理的过程中,不知道怎样才能把两个文件都用到数据挖掘的过程中去,而且对于选取训练集和测试集中,训练集和测试集的相对比较适合的比例是多少,求解答。

2013-07-21 •

有两个文档集dataset1和dataset2,各有100篇文档,其中dataset1和dataset2中的文档有可能讨论同一话题(比如都是关于饮食健康),如何找出这样的相似文档对?假如是遍历计算余弦相似度,需要计算100*100=10000次,有没有其它更好的办法??谢谢。。

2013-05-17 •

经常可以看见有人通过分析微博、twitter的信息得出一些结论,例如通过分析微博发布信息的关键字、标签,来得知人们现在关心什么,人们高不高兴、甚至能通过微博信息分析出股票涨势啥的。

他们怎么分析的???

采集微博信息,然后匹配关键字????微博也没有页面能输出所有用户发布的所有信息吧,难道他们follow一些特定的人,然后只采集他们的信息???

谁知道...

2013-05-16 •

很多url是由连续单词或单词简写拼接而成,有什么样方法把这些词划分出来。例如:
http://www.energycentraljobs.com/ -->energy central jobs
http://www.bestjobs.ie/-->best jobs
因为需要对链接进行评分,这些词就隐含有语义信息所以需要拆分出来。

2013-01-10 •

热点用户排行

话题状态

最近活动:很久很久以前
该话题下的问题共被浏览 27836 次