关于百度收录的问题探讨
开放协议概述
《互联网新闻开放协议》是百度新闻搜索制定的搜索引擎新闻源收录标准,网站可将发布的新闻内容制作成遵循此开放协议的XML格式的网页(独立于原有的新闻发布形式)供搜索引擎索引。
由于现在百度新闻机器抓取成功率大幅提高,XML文件提交的新闻质量存在各种问题,因此原则上我们不再接受新提交的XML文件,已经收录的XML文件我们会继续收录,请不要主动提交XML文件,我们不再受理相关审核。
如果您的站点还没有被百度新闻收录,请参考下面的收录标准,符合收录标准的站点请在贴吧提交http://tieba.baidu.com/f?kw=新闻搜索,我们会在7个工作日内完成审核。
您可以在百度新闻搜索框内输入“site:网站域名”查看收录来自您网站的新闻信息。
新闻源收录问题
1、百度新闻收录什么样的网站?我们收录 •正式出版的报刊和杂志、广播、电视台网络版 •政府及组织机构的官方网站
•拥有高质量的原创资讯内容,在其目标领域内具有一定的用户认知度和一定规模的忠实阅读群的门户、地方信息港、行业资讯网站 我们不收录
•博客、论坛、软件下载等非新闻资讯类网站 •企业网站 •个人网站
•没有固定用户群和影响力的网站
2、如何申请收录?
•如果您的网站符合上面的收录标准,您可以通过贴吧http://tieba.baidu.com/f?kw=新闻搜索进行申请,我们将在5个工作日内进行审核回复。
3、怎么查看我的网站是否被收录了?
•可以通过执行site语法查看,直接在百度新闻搜索中输入site:您的域名,如site:baidu.com。如果可以查询到结果,那您的网站就已经被百度新闻收录了。
4、为什么我的网站只有部分内容被百度新闻收录?
•我们不允诺所有的内容都收录,一方面会倾向收录权威、原创的新闻内容,一方面可能存在少量漏抓情况。
•我们明确不收录如下内容:个人信息、博客、论坛、广告、招标、报价、下载、试题、教程、招聘信息、幽默笑话、情感故事、情色、写真、剧照、明星档案、食谱。
5、为什么我的网站内容突然不再被百度新闻收录了?
•如果您的网站之前是被百度新闻收录的,但突然从百度新闻的搜索结果中消失或停止更新,可能的原因有:
A.您的网站出现服务器不稳定等情况,会导致暂时抓取失败,如果观察两三天依然有问题,可以通过贴吧反馈给我们,我们会在5个工作日内处理回复。贴吧反馈地址:http://tieba.baidu.com/f?kw=新闻搜索。 B. 您的网站进行了改版、域名更改,没有及时被检测到,您可以如上反馈。 C. 您的网站新闻质量出现问题,或者被举报,我们保留处理的权利。
6、为什么我的原创新闻没有展现,但是其他转载站点的新闻展现出来了?
•首先,您可以先定位一下原因:在百度新闻搜索框中直接输入新闻url,如果查询无结果,说明您的新闻没有被收录;如果查询有结果,说明您的新闻没有被正确展现。
•上述两种具体情况都可以通过贴吧反馈帮助我们改进算法,但不允诺可以立刻解决,贴吧反馈地址:http://tieba.baidu.com/f?kw=新闻搜索。
新站如何优化才能够更快被百度收录?
1.每个网页标题简洁,不超过30字。
2.每个网页核心关键词不超过3个。如果可以,你要学会放弃。
3.最重要的关键词放在标题首位,依次类推。
4.网站的描述简洁明了,最开始和结束部分自然出现关键词。
5.网站导航采用文字导航。
6.网站图片原创,添加alt标签,切忌讳乱加。
7.与主题无关内容作成JS或者图片。
8.网站内容简洁,信息丰富。关键词分布合理,自然。
9.网站要有联系人信息,比如邮箱,电话,姓名等。
10.网站代码简洁。
11.与主题相关的JS,框架,做兼容优化。
12.网站设计大方,美观。
13.网站域名时间超过2年以上,最好是3年。
14.域名最好出现核心关键词,针对除百度以外搜索引擎有效。
15.如果是新域名,联系人信息一定要公布。
16.空间要稳定,那种经常打不开的网站, 肯定没有排名。
17.友情链接要找外地的网站。
18.友情链接不看PR,看快照,看核心关键词排名,看SITE首页是否存在。
19.网站外链要丰富,新闻类的,行业类的,生活类的,公关类的,越丰富越好。
20.网站外链不在数量,在质量。增加要掌握好节奏。
21.网站外链要出现网址,锚文本要适当。
22.网站外链要首先提高首页权重,首页快照在7天内,核心关键词在前3 页,则网站权重及格。
23.网站外链要出现在流行度较高的地方。
24.网站外链出现的地方,切忌垃圾链接,链接过多。
25.网站添加流量统计,大概数据要公开。
26.适当刷网站IP和来路,切忌网站流量来自某一个搜索引擎。
27.网站内容要围绕主题展开。切忌发布无关内容。
28.网站添加XML和HTML格式地图,有助于各大搜索引擎收录抓取。
29.网站按规律更新,切忌一个不更新,或者一下更新上百篇。
30.分布好网站内链接。核心关键词指向核心关键词页面。
31.网页内容中出现关键词加粗效果并不好,避免全加粗,要加链接。
32.每个页面最好出现一次H标签,此内容和网页标题一致。
33.网站404页面。
34.与主题无关页面,运用Robots.txt禁止。
35.制造网站主题相关的 PDF,doc,exe等文档和软件提供下载。在这些资源上写上自己的网站。
36.网站最开始内容,最好一次性完成,切忌收录后经常更改。
37.网站页面切忌经常更改主题,和关键词密度,95%被K都是这个原因。
38.网站外链切忌同一个 账号,同一个名字去发布。比如博客,全是同一个人的博客。论坛全是同一个账号。
39.这些工作做完了,你需要等待!一边持续更新,维护,添加外链和内链。
40.还是等待,直到网站排名出现。
关于伪原创
伪原创的重要法则:修改标题、增减内容、调整顺序、添加图片、增加关键字密度。此方法相对比较容易操作,原创程度又高,可谓性价比最高。下面具体说说
a.修改标题,修改标题的形式,但是关键词、内容不变。换汤不换药。
b.增减内容,把一些可有可无的内容删掉,然后补充一些真正有意义的内容,把文章充实下,真正地为读者服务吧。
c.调整顺序,把文章的段落顺序进行调整。横向的内容、不分顺序的表格可以调整段落顺序。这里要注意的是,调整段落,不要影响文章的阅读和结构,有严格顺序的内容不适应作调整。这是对读者的尊重。
d.添加图片,这个是好方法,就算是你把一篇文章原封不懂的copy下来,在其中插入一些与内容相关的图片,再稍微改下标题,也能成为伪原创文章,百度蛮喜欢的。有些人喜欢放些与内容无关的美女图片,这是对读者的一种不尊重,是对搜索引擎的欺骗,并非长久之计。
e.增加关键字密度,这是为了做好搜索排名的。在适当的地方添加适当的关键字,一篇文章根据字数的多少,可以设置15~50个关键词。
以上五点,是伪原创的必杀口诀,望各位熟记于心。最后还有一个杀手锏,若有精力,自己可以给文章重新写开头与结尾。
只要按照此法去做,发布的文章一般都能在3分钟内收录。如果你的网站刚建站不足24个小时,那效果就大不一样了。
4. 重复内容的处理
以关键词为中心发布一系列文章,文章的内容如果有大量是相同的。那么这些相同的内容只能在一片文章中出现,其他文章如果需要这些内容,只能用iframe进行嵌套。这样做是为了让每篇文章的内容都是不同的、是原创的。如果大量文章中都出现相同的内容,而不相同的内容却不是很多,文章的原创性就大打折扣了。这是借鉴别人的经验,本人也是实践中得到了证实。例如本人要做关键词“美的空调扇”,空调扇的基本知识是每个页面都会有的,本人就选择了iframe框架把这个相同的内容嵌套进来,既方便读者,又不会感受搜索引擎对文章的收录与排名。
5. 文章发布时间
文章什么时间发布合适,个人觉得每天凌晨以后发布合适。一是百度快照比较新,百度快照一般是在早上更新的,如果你在凌晨之后和快照更新之前发布文章,那么你的快照时间是就当天时间了,当天更新快照,可不是经常有的事情。二是百度收录比较快,个人觉得凌晨后,网络发布文章数量的相对没有白天的多,百度蜘蛛就有更多的时间和经历来收录本人们的文章了。此观点只是个人猜想,没有100%的事实根据,但是本人坚持本人的观点。
6. 做关键字的一些个人观点
a. 发布一篇原创性高、关键字优化得好的文章,胜过发布十几篇甚至是几十篇在各大网站上直接copy的文章。 与其花大量的时间去转载、copy别人的文章,不如花点时间自己写一两篇,或者用心地去做一两篇伪原创文章。
b. 文章内容观点如何百度无法判断,如果某个关键词确实没有什么关键词好写,那就围绕着关键词随便说些屁话吧,写个几百字的文章,排名也很高的。这个观点,本人不推荐,因为对读者不公平。
c. 做百度收录,不仅仅是做收录,还要做百度排名,有了排名,收录才有实质性的意义。
d. 网站的收录、反链与网站的排名,没有直接的关系,有些网站收录很低,反链也很少,但是排名却很好。
【新华推客007】3分钟可以让百度收录你的站