猪席团abc
算法很多,自己先找一种研究就行了 
K-means是最简单的算法了,matlab里面都有现成的。网上C语音也有一大堆。进Matlab输入KMeans,有例子。参考网上代码很好实现。无非是迭代计算各个类中心点,直至收敛。
可以先找一些在知名的国际会议上发的论文好好看看,了解下相关领域最新的进展。如果已经有了大概的方向就更好找了,关键还是在自己有兴趣的前提下尽量找一个做起来有信心的课题。举个例子吧,今年在马德里开的新一届www会议上的新论文dblp里都有索引,包括web data mining(链接在下面)^^