这款狗屁不通文章生成器火了作用的确比GPT2差太远

2019-11-06 22:13:47 阅读：8432 作者：责任编辑。陈微竹0371

收拾 | 夕颜

出品 | AI科技大本营（ID:rgznai100）

【导读】最近，一个姓名适当接地气的“狗屁不通”文章生成器（BullshitGenerator）火了，到现在 GitHub 上 Star 数已超越 3200，还上了微博热搜。这个神器能够生成各式各样奇葩文章，比方领导专用“彩虹屁”万字长文。只需你想不到，没有这个神器写不成的文章。可是，生成的文章的确也是“狗屁不通”。这次咱们就来解读一下，这个生成器是怎样运转的，以此为例，延展评论一下文本生成未来还有哪些改善的方向。

话说，BullshitGenerator 这个项目开始起源于知乎上一位网友的发问：“学生会退会请求六千字怎样写？”，原本很简略的一个问题，可是答复中许多跑偏题的，所以本项意图贡献者之一表明看不下去了，并“随意写了个项目”：狗屁不通文章生成器，协助这位同学写了一篇退会请求。

用 Python 生成的这篇文章长这样：

因为下拉十多下没滑究竟，让人失去了截全图的耐性，文章也真实看不下去，因为它真的是一篇逻辑不通的 bullshit。

AI科技大本营（ID:rgznai100）也用这个生成器尝试了几个我们都会考虑的主题，比方：

试完之后笔者发现，文章自身是没什么评论的必要性了，不信你能够自己试试：

生成器地址：https://suulnnka.github.io/BullshitGenerator/index.html

可是关于生成器的作业原理，信任许多人是比较感兴趣的。

运转原理是什么？

据贡献者介绍，本项目开始的意图是用于中文文字 GUI 开发时测验文本烘托，用 Python 3 版别写成，现在共有 7 位贡献者。

鉴于现在 AI 用于文字生成十分盛行，这个项目是否也用到了 AI 相关算法呢？答案是否定的，作者表明，BullshitGenerator 没有用到任何自然言语处理相关算法，只是简略地撸代码就能够到达作用。

那 BullshitGenerator 运转的原理是怎样的？AI科技大本营采访了CSDN博客专家@小宋是呢进行解读：

“狗屁不通生成器”是一个文本生成器，用来生成一些中文文字用于 GUI 开发时测验文本烘托。因为此项意图意图只是用于 GUI 开发时测验文本烘托，所以对文本的连接性和意义要求不高，这也便是“狗屁不通”的意义了

从源码中能够精确的看出，生成文本的办法便是从本地读取到的文本中依照必定规则随机读取，而且替换掉文本中“x”为指定的主题文本，并未运用深度学习办法。不难发现，生成的文本会存在语句不连接、重复性高的特色。

是否能与 GPT 2 结合？

issue 中有人宣布了对这个项意图点评：

能够正常的看到，我们对这个项意图点评还是以正面居多。其间，有人提到了希望与 GPT 2 进行整合：

很快有人对这个主意提出疑问，比方算力的问题。那么，BullshitGenerator 与 GPT 2 整合的主意可行吗？或许是否有必要？@小宋是呢给出的观点如下：

个人觉得“狗屁不通生成器”与“GPT”结合意义不大，这两个项意图方针和特色差异很大。“狗屁不通生成器”是为了快速用来生成一些中文文字用于 GUI 开发时测验文本烘托，而“GPT”文本生成器方针是生成高质量连接文本，“GPT”的特色是模型大速度慢质量高，并不满意“狗屁不通生成器”的规划需求。

GPT 2 是 OpenAI 推出的一个中文生成模型，由加拿大工程师 Adam King 制造的网站上，任何人都能调教简化版的 GPT-2，它能够辨认从新闻、歌词、诗篇、食谱、代码的各种输入，乃至还为《复仇者联盟》写了一个细节丰厚的续集，内容可读性适当高。

令人振奋的是，这个史上最强的 NLP 模型今日正式悉数开源，OpenAI 正式放出了 GPT 2 的最终一部分代码。

开源地址：https://github.com/openai/gpt-2。

作为 GPT 2 分段发布中的最终一轮，此次揭露的完好 GPT-2 包括 15 亿条参数，其间包括用于检测 GPT-2 模型输出的悉数代码及模型权重。

当然，关于 GPT 2 的评论仍在持续，比方它的实用性，生成假新闻被乱用引发的安全问题等，都是后续还有待改善的要害点。

此外，GPT 2 还有一个中文版别，相比之下，GPT2 与 BullshitGenerator 不同之处在于前者运用了 BERT 或 BPE 编译器，但相同不需要算法根底，只需简略 clone 运转即可，技能上的完成难度更大一些。

“GPT”是比较规范的自回归言语模型了，Transformer 呈现前都是经过 RNN 的办法，之前比较火的“CharRNN”深度学习作诗与作曲都归于这个领域。“GPT”将 Transformer 替换了 RNN，使得提取特征的才能与运算速度都得到很大提高，当然运用大规模数据练习模型也是“GPT”作用好的一个首要的要素。

相较于“GPT”，“狗屁不通生成器”完成就简略许多，首要代码就几十行，基本上只用到了Python 编程技能。体现在文本的连接性和意义上，尽管生成文本的质量不高，但它也满意了生成一些中文文字用于 GUI 开发时测验文本烘托的要求。

GPT2 中文项目：https://github.com/Morizeyao/GPT2-Chinese

文本生成的未来

GPT 2 的横空出世让我们看到了 AI 在文本生成方面的潜力。正如 Open AI 官博所说，尽管 GPT 2 还面对检测等方面的应战，但它的潜力还很大， Open AI 表明，未来这个模型还将持续进行改善，他们希望言语模型能够在功用上有更大的提高，以此供给更高的输出质量和精确性。

BullshitGenerator 项目也发布了下一步方案:

避免文章过于内容重复

参加更多烦琐话.

参加马三立里的内容

参加手写体直接烘托出图片的功用(只是用于测验自己的打印机是否作业正常, 请勿做它用).

斗胆想象一下，日后类似于 BullshitGenerator 这样的文本生成器将进一步改善，那么是否在没有 AI 算法的参加下，仅凭简略的代码就能够生成高质量的文本（尽管可能性简直为零，但如果能轻松完成将是颠覆性的效果）？从另一个思路来讲，以 GPT2 为代表的 NLP 模型现在现已能够生成以假乱真的文本，未来又该怎么战胜现在的应战，生成更高质量的著作，一起能确保安全？是否未来有一天，文本生成技能或许真的会替代一部分人类的作业？这样一些问题都值得沉思。

现在研讨方向：自然言语处理与主动语音辨认、图像辨认与主动检测、图神经网络与引荐体系。

上一篇：李娜姜山家里从不开伙听到姜山的另

下一篇：忧虑丢了饭碗面临人工智能咱们该如

“如果发现本网站发布的资讯影响到您的版权，可以联系本站！同时欢迎来本站投稿！

本周排行

1
进博会“全勤生”高通七赴进博之约，展现

2
潮汕菜，为什么是粤菜的代表和主干？

3
潮汕菜，为什么是粤菜的代表和主干？

4
可心柔携手刘诗诗，全球代言启幕《世界坚

5
可心柔官宣首位代言人，刘诗诗以温柔治愈

6
2024WINTER | 对话自然