大数据成熟了吗? 交换隐私方便吗? 曾经受欢迎的大数据的发掘,最近成为了舆论的热门话题。 有网友的专业测试证实了某商家利用大数据挖掘技术已经成熟。 百度董事长兼首席执行官李彦宏表示,中国人对隐私问题不那么敏感,进一步加剧了这种状况。 大数据挖掘技术就像带有负面信息的明星,似乎一眨眼就变暗了,成了窃取隐私的小偷。
在《大数据时代》这本书畅销几年后,大数据不再那么受欢迎,但并未退役,其快速发展成为了人工智能实现的基础之一。
那么,大数据挖掘是什么技术呢? 从诞生迅速发展到现在,什么样拼命努力的技术人员又增长了那些能力? 面对大数据难以管理的问题,是否通过技术手段进行控制?
客户图像:机器给人类贴标签
通过添加标签来制作客户的图像是数据挖掘中经常使用的技术。 北京大学计算机科学技术研究所多媒体新闻解决研究室主任彭宇新教授指出,绘制客户图像是利用社会交流互联网的新闻,根据客户的社会属性、生活习惯、支出行为等新闻,抽象出标签化的客户模型,机器像人一样可靠 社会交流互联网数据是实现这一目标的基础,机器见人多来源于社会交流互联网数据的挖掘。
标签一般是分解顾客新闻得到的高度精致的特征表示,便于机器进行新闻提取、聚合分解等解决。 标签本身不再需要分解副本等解决工作,便于利用机器提取标准化新闻。
有了标签,计算机就可以自动解决人和相关的新闻,通过算法、模型可以逐步了解人。 彭宇新表示,多个标签可以共同完成图像,将整个过程分为三个步骤。 一是收集数据,也就是基于文案的新闻捕捉,口语中叫做爬数据,二是顾客的行为模型,通过机器学习技术形成算法模型,评价顾客可能的一点点行为。 第三,可视化展示。 是用能让人理解的方法展示机器运算的结果。 这三个步骤经过了多次调整,在实际应用中,有可能根据结果反馈和业务诉求进行二次建模等调整。
整个过程的影响参数相对多样,不同行为类型的权重对标签新闻的影响也不同。 以应用广泛的商品营销为例,例如网络销售葡萄酒时,购买权重为5,仅浏览数为1,考虑浏览间隔、停留时间、生活习惯等,用许多复杂的算法最终表现一个标签的权重,从而形成图像
基于客户的图像技术,大数据挖掘将进行分类和相关规则的计算等分解。 例如,有多少客人喜欢葡萄酒? 喜欢葡萄酒的人中,男性、女性的比例是多少? 喜欢葡萄酒的人一般喜欢什么体育企业品牌?
媒体间的智能识别:在计算机上佩戴慧眼
以前以文案新闻为主流,但现在充斥着图片和视频等多媒体数据。 彭新表示,后者目前占大数据的80%以上。
由于数据种类发生了巨大的变化,智能识别的任务变得更加困难。 管不住、不好用的问题日益突出。 机器只能读自己的语言。 彭宇新说,人类世界的所有语言都必须转换成机器理解的语言才能被识别。 以前只解决拷贝比较简单,但现在必须追加很多复杂的图像和视频等数据。
例如,世界上有数千种鸟类,许多种类的差异非常细微,即使是拥有专业信息的人也不容易准确识别,计算机自动识别更是困难。 彭宇新表示,理解图像、视频拷贝的难点在于如何进行语义自动识别,这也是他们团队多年来的攻关课题之一,为此,团队发明了基于观察力模型和深度增量学习的识别方法。
观察力模型,顾名思义,是让计算机自动定位图像的有意义的区域,提高检测精度; 深度学习是指计算机利用已经学到的知识加速新知识的学习,通过动态扩展,可以帮助检测新概念。
新模型新算法的力量,使机器能够迅速识别图像、视频的语义新闻。 彭新队近几年在参加国际权威评估trecvid的视频样本检索比赛中6次均获得第一名,在与卡内基梅隆大学、牛津大学、ibm watson研究中心等参赛队伍的竞争中获胜。 一个主题是,在464小时的视频中快速准确地找到所有伦敦地铁的标志,彭宇新队仅用一秒钟就获得了冠军,获得了第一名。
在单一媒体新闻的分解和识别上,如何让机器像人一样看待和理解呢?
为了实现跨媒体新闻融合和一体化分解识别的目的,项目小组首先将数据自动逐个发送到每个不同媒体类型对应的分解识别模块。 例如,分割视频镜头,提取关键帧,逐一发送到镜头检索、片段检索、视频字幕识别等模块,将单一媒体的分解结果进行媒体间的语义关联分解,实现媒体间新闻的语义协作。 一种常见的做法是建立第三方空之间的交叉媒体关联。 彭宇新说,计算机根据我们教给我们的模型分别提取图像、视频、拷贝、音频的特征,投影在一个第三方空之间,不同媒体的新闻就可以对话了。
抽丝技术剥茧,使图像和视频新闻像复制品一样透明。 我们是以应用为目标进行的,但准确率、解决速度都经过多年的优化,现在可以实用了。 彭新新表示,该技术不仅支持信息媒体等领域的数据管理和检索,还支持网络管理部门分解和监测大数据。
延长浏览
匿名解决:预期的隐私保护措施
虽然要打破新闻的控制权几乎是不可能的,但是保护隐私有一个方便的方法。 邮电大学教授杨义先的《安全简史》中有一个形象的比喻,认为数据在网络上裸奔时,避免被跟踪的便捷安全手段是捂脸。 这就是所谓的匿名化解决机制。
根据客户隐私保护的相关规定,数据公司在销售数据时必须匿名解决数据。 北京大学计算机科学技术研究所研究员赵东岩说。 然而,为了确定准确的位置和推送服务,匿名化的解决方案可能被忽略。 它指的是目标客户群的面向身份,而不是发送给组。 因此,个性化推送和匿名解决在当前技术中是相互竞争的。
的冲突相比,行业先行者提出了区块链的处理思路。 我把那个叫做身份证。 北京领主科技企业研究员刘伟泰表示,大数据的本质是集团研究,但集团的粒度可以细化一些,另外,区块链技术可以赋予顾客授权的做法。
不难想象,随着新技术的不断创新,新闻安全方面的技术突破不断增加。 也可以用来平衡新闻控制权,而不是挖掘大数据。
标题:“隐私换便捷?大数据发掘究竟是怎样的技术?”
地址:http://www.clctq.com/news/19841.html