冠领新闻

News

冠领新闻

选择冠领胜诉共赢

400-9988-666

网络爬虫勿过界，数据流转应有序

2024-03-29 00:00:00 文章来源：北京冠领律师事务所阅读：590 字体： [ 大中小]

　　在数据时代，信息采集是一项重要工作。如果单靠人力采集，不仅效率低而其会提高公司搜集数据成本，因此“网络爬虫”应运而生，由它代替人工在互联网中进行数据搜集与整理。随着网络技术的迅猛发展，“网络爬虫”的运用范围也越来越广泛。不过需要注意的是，该项技术在为公司收集数据带来了极大的便利的同时，也可能引发诸多法律问题。

　　源丰公司(本文公司名称均为化名)开发了一款名叫“寻路”的软件，经公交公司允许，他们在公交车上安装定位器获得海量数据，经加工、分析后，再通过该软件提供给客户。由于该软件定位精度高、实时误差小，交互做的也不错，因此积累了大量用户，但也引来了诸多竞对公司的效仿。其中运成公司通过“网络爬虫”技术获取了源丰公司服务器中的实时公交信息，并应用于自家软件“公交来了”，向其用户提供了和“寻路”中相同的公交信息。后被源丰公司发现后，将其告上法庭。

　　法院经审理认为，运成公司未经源丰公司许可，非法获取源丰公司的后台数据并应用于“公交来了”软件中，谋取“公交来了”软件在实时公交信息查询软件中的竞争优势。依据《反不正当竞争法》第二条规定，经营者在生产经营活动中，应当遵循自愿、平等、公平、诚信的原则，遵守法律和商业道德。运成公司上述行为损害了源丰公司的合法权益，违背了诚信原则和商业道德，构成不正当竞争行为，最终判决运成公司赔偿源丰公司经济损失及合理维权费用60万元。

　　在商业竞争环境中，类似运成公司盗取源丰公司的数据资源坐享其成的事件不在少数，为了防止此情况，在数据抓取行业内产生了一个通用的规则，即网络爬虫排除协议，也就是大家常听到的robots协议，信息提供者在自己的站点上设置robots协议告知爬虫控制者哪些信息是可以被爬取的，哪些信息是不希望被爬取的。

　　一般来说，只要遵守robots协议，大家都会相安无事，但在利益的驱使下，该协议的约束力并不强。所以很多互联网从业者为保护数据也作出了各种各样的“反爬虫”对策，但并非所有的对策都是合法的，有些可能会因违反公平竞争原则而构成不正当竞争行为。

　　例如，在历时八年的百度诉奇虎不正当竞争案中，百度公司通过设置robots协议白名单制度仅允许特定的几家搜索引擎抓取数据，此种方式将不允许抓取相关数据作为常态，抓取行为成为一种例外。法院经审理认定百度公司对网络搜索引擎的区别对待，影响奇虎公司的360搜索引擎抓取相关网页内容，影响通用搜索引擎的正常运行，损害了奇虎公司的合法权益和相关消费者的利益，妨碍了正常的互联网的竞争秩序，违反公平竞争原则，构成不正当竞争行为，最终百度公司在这一案件中败诉。

　　通过上述两个案例可以看出，在商业竞争中，“网络爬虫”只是一个中立的技术，其存在的意义就是为了更好地促进信息共享。互联网从业者可以通过robots协议要求搜索引擎的网络爬虫遵守受访网站的信息爬取规则，但应保证该robots协议本身应当是合理的，不违背“促进信息共享”的初衷;爬虫控制者也应恪守底线，遵守robots规则，让数据有序流转，从而共建良好的互联网生态。

　　撰稿人：张萌

　　审稿人：段光平

　　稿件类型：原创C

上一篇：冬奥会即将来袭，各国为何热衷派律师随队？下一篇：名贵木材被当废品处理，物主、保洁谁的过错？

冠领新闻

选择冠领 胜诉共赢

网络爬虫勿过界，数据流转应有序

选择冠领胜诉共赢