请教网站大量的数据出现重复怎么处理

随着网站数据不断的增多,会出现大量的重复数据
重复的种类有
1、标题重复
2、内容重复
3、标题内容都重复(重复文章)
请教
1、怎样清楚原有数据苦衷的重复文章
2、怎样设置对新文章标题的自动检测,如果是重复标题,自动无法添加
希望能得到高手的解答
备注:我在网上查询了很多关于数据库重复内容的问题,看了几篇,都得是非常专业复杂,看不懂。如果有直接这样能够处理数据库的软件,那就更好了
已邀请:

QQ被盗了

赞同来自:

Good question!
这个问题以前没有人问过,但实际上很有意义。因为搜索引擎对于“重复内容”的惩罚比较严重,因此避免重复内容就很重要。
一般情况下,如果网站内容是手工添加,或者只是一个人来添加,那么重复的机会很少。我估计楼主可能开放了文章提交权限给注册会员甚至游客,或者,你可能使用了某种“采集器”来批量添加内容。
目前在 Joomla! 上解决这个问题还不是很理想。至少没有“自动化”的模式。
我只找到两个后台模块来辅助管理员及时发现问题: Articles with Duplicate Title Aliases
在后台提醒管理员是否存在重复副标题的文章; Articles with Duplicate Titles
在后台提醒管理员是否存在重复标题的文章。
上面两个已经汉化,请下载试用。
至于文章内容是否重复的监控,比较复杂。因为从技术角度讲,compare 文件的功能只要两个文件中有一个字符不一样,就认为“不算做重复”,但是搜索引擎不是这样比较的,搜索引擎是比较“内容是否雷同”,你修改几个字根本没有用。
如果想要通过某个程序来自动监控“内容是否雷同”,我觉得有点难,因为你等于是要模拟搜索引擎的算法啊。目前没有发现这样的 Joomla! 扩展。

追梦人 - 梦想每个人都有,但不是每个人都有勇气去坚信,我有

赞同来自:

好好利用google的网站管理员工具,可以查看具体是哪些重复的页面,查出原因!。

跑堂小2 - 冇钱;冇房子;冇成就。要吃饭;要住宿;要消费

赞同来自:

你的网站是采集的吧?照楼上说的用管理员工具

要回复问题请先登录注册