桃园三结义——谈谈云、大数据和人工智能
有个老相声,说算命的人如何说话进退自如、左右逢源。有人问:您算算我们家兄弟几个啊?算命的人微微一笑:“桃园三结义,孤独一枝。”家里兄弟三个的人听到“桃源三结义”就满意了;家里没有兄弟的人听到“孤独一枝”觉得说的挺准;家里只有兄弟二人的正欲发作,算命的伸出三个手指头“孤独”下去一个,也说得通;兄弟四个的呢?算命的说:三结义啊,这不是又“咕嘟”出来一枝吗?
本来是个笑话,说说也就罢了,但是行业里面这样似是而非的说法此起彼伏,不得不擦亮双眼,否则就被各路大师“忽悠”了。从数年前的电子病历“结构化“、”半结构化“,到“虚拟化”和“云计算”,最新的热点是“云、大数据和人工智能”,值得花点时间理一理。
首先是云和大数据
这哥儿俩之间的关系类似于汽车和轮胎
有轮胎的不一定是汽车
云不一定是大数据,基础架构云显然不是大数据,平台云很大一部分和大数据有关系,应用云其中的优秀部分一定是基于大数据的,但是也不保证应用云都是大数据。另一方面,正常的汽车一定有轮胎,且是个不错的轮胎(相对于自行车、三轮车、电动车)。大数据架构本身设计就是用来部署在十几台,上百台服务器支持的云平台上运行才能发挥出其卓越性能。虽然,技术上大数据系统可以部署在单个物理服务器之上,不用云化也能运行,但是这样做性能之差,严重背离性价比,毫无意义,恐怕只有少数教学环境为了练手才会这样做。
接下来说是“大数据”和“人工智能”
这对兄弟情况复杂一点
“人工智能”在1950年代就有明确定义和应用探索,从图灵测试到专家系统、从图像识别到击败卡斯帕罗夫的的“深蓝”,这条技术线在上世纪已经有波澜壮阔的历史。而大数据不过是2012年前后,基于非关系型数据库、分布式文件系统和分布式计算框架发展起来的新型数据处理技术。从时间轴线上看都是差着“辈份”的两个概念。
考虑到人工智能漫长发展过程中的几次潮起潮落,几乎每隔十几年就有一次跳跃式的“春天”,后面紧跟着无尽的失望和沉默。
1960年代“人工智能”在数学定理证明方面大获全胜,尤其是1976年完成“四色猜想”证明并战胜人类跳棋大师之后,当时舆论乐观地认为机器在10年内会战胜国际象棋大师,实际上人工智能迈过这个门槛是在1997年。
1970年代中期,人类转向通过知识工程推动“人工智能”进步,最后却停滞于自动获取新知识这一难题。
上世纪80年代出现的深度神经网络算法也因为没有足够的数据支持而步履维艰。
在上世纪最后的二十年里,人工智能已经分裂为:以“深蓝”为代表的知识驱动型“符号派”;以神经网络算法为代表基于统计学习理论的“连结派”和以“机器昆虫”为代表的“行为派”。
到2000年前后,学界已经建议放弃“人工智能”这个说法而用更加细分的领域来描述此技术,例如:模式识别、自然语言理解、自动定理证明、计算机视觉处理、机器学习、自动程序设计。
2012年之后的“大数据”技术推广和Web2.0+物联网带来的互联网数据激增,直接释放了深度神经元算法的巨大生产力。于是,我们看到了人工智能在机器学习、自然语言理解和视觉处理方面的突飞猛进。苹果的Siri是自然语言处理能力提升的成果,IBM的Watson和Google的AlphaGo是机器学习的案例。
当然“大数据”除了助推“人工智能”进入一个新阶段之外,其技术应用本身还有其他分支,例如“搜索”和“数据可视化”。这两项脱胎于传统数据库“全文检索”和“数据图表”功能的技术,在大数据时代脱胎换骨,在灵活性、准确性、计算速度和可靠性方面早已不是上一代技术可望其项背。
有兴趣的读者可以在“阿里云”或者“阿里数”的官网上翻阅一下“推荐引擎”、“DataV”、“郡县图志”这样的产品说明。这些都是生动真实的大数据工具产品样例,任何数据用户都可以在一个具备完整大数据框架的体系支持下得到这样廉价优质的工具。
换句话说,就算没有“人工智能”这样“高大上”的应用需求,“大数据”仍然是个价廉物美的日常工具。
说到这里,关于“云”“大数据”“人工智能”的依赖、交叉关系基本理清了。下次再见到方案,不要被“桃园三结义,孤独一枝”这样模棱两可的语句给整迷糊啦。
——来源e医疗