技术解析

类似爬取展示盗版小说的 app 为何可以安然无恙存活?
0
2021-06-03 21:46:24
idczone

在 appstore 上发现某款盗版小说,可以盗版观看各大网站付费章节,看来了下他的部分免责声明:

xxx 致力于最大程度的减少网络小说读者再自行搜索过程中毫无意义的浪费时间,通过专业搜索展示不同网站小说的最新章节。 xxx 通过书名以关键词形式提交到第三方网站或搜索引擎(如百度、宜搜、贴吧等)第三方网站返回的内容与 xxx 无关,xxx 对其概不负责,亦不承当任何法律责任。 第三方搜索引擎结果根据您提交的大带宽服务器书名自动搜索获得并提供试读,不代表 xxx 赞成被搜索链接到的第三方网页上的内容或立场。 你应该对使用搜索引擎的结果自行承当风险。

app 里面还有提供各种分类,排行榜,书单的形式推荐小说,并非只是单纯搜索。 所以爬取第三方内容,直接展示,不存储,算是适用避风港原则? 然后大摇大摆明明提供盗版阅读服务还可以安然无恙?不是说爬虫写的好,那个啥吗


可以举报工信部

养肥了再杀

这种免责没用的
盗帖平台难打主要是周期长、取证难, 一两年才能打掉一个, 要同时起诉多少主体, 大厂也要考虑诉讼成本的
再者现在都喜欢炒热小说 IP 后搞资本运作出电视、电影、周边, 平台和大神都没指着订阅过日子, 盗帖站又影响不了铁粉打赏, 动力不足, 小作者没话语权
所以定期盯着头部搞掉几个就行了
而且盗帖平台方面流量非常容易做, 属于春风吹又生的那种

这种声明都是自欺欺人, 安慰自己罢了

1. 看上去此 App 不提供盗版服务,而是提供访问盗版服务的途径,这个行为是否正当有待考究,法律上并未良定义。
2. 浏览器到爬虫中间并没有明确的分界线,而更像是 “光谱式” 的分别。
3. 目前爬虫造成的刑事责任主要是:a. 绕过反爬机制(无论此机制多么地简陋),均可视为破坏计算机系统; b. 对服务器造成了过大压力(一秒跑几百 G 的爬虫,说出来都没人信这是爬虫); c. 爬取的内容权利人另有其人,与 Web 服务的提供人不同(比如常规状态下不会直接提供的大量个人信息、通过消除 Cookies 换 IP 的方式反复获取试看内容)。Web 服务的提供人未能对 Web 服务进行恰当的保护(需要整改),并不意味着你能任意利用这些信息。a 和 c 有点不直观,这么类比:a. 别人穿着裙子再短,你掀别人裙子拍不行; c. 别人光身子乱跑,你拍照去卖不行。

著作权不归工信部管

刚好没被锤而已,单方面所谓免责申明一点用没有,前几年盗版小说站被送进去的都不少。

如果本身不提供服务,其实跟 youtube-dl 和 popcorn time 也差不多了,两个也就关闭一段时间,然后又恢复上线了
https://www.solidot.org/story?sid=66113
https://www.solidot.org/story?sid=64459

流量不过 app 服务器就行了。app 里加个无头浏览器,这属于用户自己正常访问

因为有利可图呀,如果做盗版网站不赚钱的话,谁会去做。目前的情况就是你打掉了 3 个盗版网站,可能会有 5 个新的又站起来。

因为太多了,一批一批的封,一批一批的冒出来

我怀疑这种 app 甚至可能根本没有服务器。
“非一手服务的提供方” 和 “用户代理( User-Agent )” 是比较难区分的,除了用案例去猜测法官的看法以外没什么有意义的区分尝试。因为不采用判例法,所以法官的看法也比较随意。

也许盗版只是你认为的 兴许人家是一家呢

因为我总想着白嫖啊,都是我的错

有需求有利益就会有一批批的人去做。就像韭菜一样一茬一茬的,层出不穷。

版权和盗版都是利益纠葛,建议自己问心无愧就好。

更有可能是一家的...
比如知名的笔趣阁

留到需要的时候冲业绩

我做过,当时找了好多案例,最后结论是,不提供服务器保存盗版资源,不做大,随时做好有纠纷就下架跑路的准备,就挺安全,
反正我做的也主要是我自己用的,发布只是顺便,

一直不明白为什么要打击爬虫,公网的东西就是公网的,非得界定就要无限扯皮,感觉比其他的扯皮法扯皮程度都高了几个维度:
1. 用浏览器话几分钟写个 JQuery 脚本遍历一下元素存个 JSON,然后再写个插件自动化起来: 我用的是浏览器,但是是自动操作的
2. 用 Python console 一行一行爬虫代码 Enter 出去: 我没用常用浏览器,但是我是全手动操作的,Python 就是我的浏览器
且不说这两个算不算爬虫,这两个哪个比哪个更爬虫一点?
或者我没用爬虫,雇的非洲外包公司用几百个人打开网页一行一行复制的(但是假设非洲外包公司是这么跟我声称的,也有可能用了爬虫,但是你不知道我知不知道他们用没用爬虫)。

我认为很难限制
1. 这种东西如果不主动宣传盗版,其实是可以把它当做普通阅读工具来用的,不少支持的是阅读 3.0 这种格式,这个格式腾讯自己开放平台都在用,至于你找的盗版书源然后导入,那关它工具什么事呢,当初快播还是在服务器找到了证据才判刑的吧,只要他控制得好不保存数据不主动宣传盗版,那就是个普通工具,究竟犯不犯法要专业律师来说,但是我个人感觉问题不大。
2. 现在各大平台已经不是那么热衷于打击盗版了,打击盗版还是有难度的,尤其是只依靠平台自己,需要费老大劲去搞,搞倒了一家还有千千万家,而且这其中有个平衡,很多人就是不付钱的,没有盗版看他不看或者去看其他平台的书都不会给你花钱,对这些人这些你打击盗版没有意义,反倒是在给对手送用户,尤其是不少平台已经不打算靠卖文字赚钱了,热度比文字更值钱,有热度看的人多可以影视化游戏化,这不比卖书赚钱?腾讯之前不还想把起点免费化么?

自从起点莫名其妙封了我的帐号我就只用工具看书了

/>打击爬虫没问题,只是目前的法律其实就是一种保护甲方的诛心操作,一刀切 —— 一律视为“恶意”
v2ex 按死 F5 是要进小黑屋的,这种叫打击,但如果上升到入侵计算机系统罪,就很可笑了
我觉得爬虫入罪,要更严谨一些,不能泛打击

因为要保护创作者。假如你是写小说的,写出来的付费小说第二天就被所有人免费看了,你还会想继续写?

赞同。
按 F5 的本质问题不在于公开信息被别人取走,而是有可能破坏系统稳定性,其实是另外一个问题。
而很多爬虫相关法律的确更像一刀切保护甲方:
1. 我把信息放到公网上
2. 我不用 robots.txt 保护我的信息,因为我希望更多的人来用,但不一定是谁,所以我不能白名单
3. 但我又不想让一些人看,但也不一定是谁,所以我也不能黑名单
4. 我不想让看的人是我觉得恶意看我信息的人
真是拧巴啊… 感觉按这种指导思想,还可以发明出来「朋友圈视奸罪」之类的东西哈哈哈

知识产权和爬虫不是一回事吧,不要放在一起讲。
付费小说不用爬虫,你自己开浏览器复制贴到你自己的网站上也是犯法的。
单纯爬虫的法律纠纷是爬取公开信息,也就是某些人觉得任何用户都可以来看,搜索引擎也可以来看,你自己写脚本来看就是不行。

你自己写脚本学习,不用于盈利,会有人去告你吗?

朋友圈默认不开放呀 需要主动许可
类似商场展示机 “不能滥用” 就很难界定

对,随便举个例子,你说的这个可能更好
你没在讨论爬虫的问题,盈利会不会被告取决于内容的许可和授权形式
现在很多判例表明的情况是,人去复制就不犯法,机器去复制就犯法
但是人总是操作机器的,只是比例不同,没有明确的界限

我公司搞这个相关人员已经进去了,去年 11 月警察来办公地查办的,现在开发和法人都还在看守所呢。

因为这个合法啊.
参见 ios 上的 爱阅书香, android 上的 搜书大师.
好多诉讼案子, 有赢有输, 输了也就赔了点钱.

贴个 uc 浏览器 和 晋江的 法院判例
```
对于优化阅读版面的过程,根据公证视频画面所示,UC 浏览器或是提示“目录转码中”“正在转码”,或是在优化后的版面标注“转码声明”。动景公司称 UC 浏览器是利用转码技术对第三方网站的内容抓取后进行智能重排,内容仍存储在第三方网站上,转码过程是发生在用户的手机 APP 客户端的内存缓存中的、当次的、暂时的过程,并未存储在 UC 浏览器的服务器或用户手机的本地缓存中。对于该解释晋江公司亦未提出质疑和有效的反驳意见,故本院认定 UC 浏览器的“智能阅读”功能在这一过程中提供的仅仅就是优化阅读版面的服务。
因此,动景公司经营的 UC 浏览器在“智能阅读”功能实现的过程中并未将涉案小说缓存在自己的服务器上直接向公众提供。故不能认定其侵害了晋江公司对涉案小说享有的信息网络传播权。一审判决对此认定正确,本院予以维持。
```

你想多了,这种只会偶尔打击一下头部,大家说进去,也是怕万一不小心做大了,被清算而已

人复制被告的多的去了。本质是侵权造成损失大小的问题。爬虫用机器去侵权,一般情况下造成损失肯定大很多呀。和爬虫有毛关系。

爬虫爬下来确实不违法, 起诉也不会是你爬公开数据而起诉, 一般被起诉有几个点
1. 爬的太快, 把对方服务器跑炸了, 或造成了额外的费用 /损失, 对方可以让你赔偿损失
2. 使用技术手段绕过了对方的反爬措施, 常见的就是验证码 / 代理 ip
3. 爬了隐藏字段或 api, 获取了非公开数据
4. 拿到数据后商用, 侵权
所以你说的雇外包一行一行复制, 如果构成侵权, 照样起诉
总之就是行为不同, 罪名也不同

至于楼主说的小说爬虫
1. 小说站实在太多了, 执法有成本, 现在活着也不代表可以一直活着
2. 好像在 v2 看过一个案例, 也是小说站... 自己搞着玩的小说站, 后台虚构了点击量和下载量, 最后被版权方律师截图取证, 最后判赔一两百万吧

大佬展开讲讲? 公司的 app 叫啥啊?

我觉得平台是有意纵容盗版的,扩大阅读群体,有利于改编卖 IP 改编电视剧,大神作者也受益,损害的是小作者和读者的利益。

微信读书不就是披着正版皮的盗版?官方自己都这么做了,还指望他们花多大力气去打击盗版么,除非实在做得太过火,像追书神器。

话说你们是真的不知道还是在装傻,网文盗版全都是网文网站自己干的,网文网站需要把网文热度炒起来形成知名 ip,然而愿意花钱看网文的毕竟是少数,所以笔趣阁这种盗版系列网站运营了十几年没什么问题。有兴趣的可以自行搜索一下起点和笔趣阁之间的事迹。

给你的 2. 添个实例:
“每当我需要访问 Web 的时候,我就把地址通过邮件发给我的一个守护进程,守护进程用 wget 下载好页面之后再用邮件发回给我”
—— 这是 RMS 自称的访问 Web 的方式,非常…… 独特?

没用过微信读书,求解释下什么叫 “披着正版皮的盗版”?

谁让起点这么坑呢,导致现在的网文作者,上架之后就各种水,明明早可以完结的,硬是各种无意义的剧情吊着不结束。

你们不要搞事情啊,等下我看书的途径又没了。。。 /狗头

微信读书购买会员后就可以无限制读所有起点的小说,作者却拿不到钱;就算能拿到钱,会员费那点钱也不够看几本书,能分到的少之又少。这不是披着正版皮的盗版?

正版与否不是按作者是否能按阅读量拿到更多的钱来确定的
网易代理 Minecraft 那时候就法普过这茬了,怎么还有盲区的……

所以叫披着正版皮,实际上起到的作用与盗版别无二致。

“正版” 并不包含 “作者有边际收益” 的暗示;反之,“盗版” 也不包含 “作者没有边际收益” 的暗示。
何况,再说亿遍,版权( Copyright = Privilege of Copy )体系和复制技术保护的不是 “所有” 创作者的利益,而是 “最畅销” 创作者的利益。在这一本质上,它比传统上的 “按章节付费” 更像 “正版”。

你把这些你的观点和摘抄的定义重复十亿遍,也改变不了损害广大中小作者利益的事实,更何况这里还有垄断的因素在里面。

所以呢?搞错抨击方向只会让事情变得更糟。就比如 N 年前,油价上涨,(很符合直觉的操作,)美国给燃油减税,最终结果就是伊战。
行啊,咱来搞更深度的正版化啊,最终结果就是中小作者一分钱拿不到打白工。我十年没看网文了,没特别关注,但听说这结果已经爆过一遍了吧,你还不吸取教训吗?还没明白这是 “正版” 的必然结果?
这里其实跟托拉斯没什么关系,是 “赢家通吃” 的特定经济现象(马太效应),并且再正版化下加剧。确实我说的话什么都不能改善;但你说的话能够有效地、显著地加剧损害。
对了,我后来又发了个贴 /t/770818,你看下, 这个说法比较好 “比盗版都不如的正版”

数据地带为您的网站提供全球顶级IDC资源
在线咨询
专属客服