09.26.08
Posted in metadata, 图书馆 at 4:41 下午 由 花生壳
受K师的影响,最近看了点术语服务的内容。以一篇国内据我所查最早介绍OCLC术语服务的文章:司莉等写的”OCLC术语服务研究_背景_进展与启示.pdf”做为入门,再来看Diane Vizine-Goetz的PPT ,后来再看了OCLC的“术语服务”产品 。
在Diane的PPT中,OCLC术语服务目的就是应用图书馆和WEB上的标准,使得受控词表中的术语及其关系能够以一种web资源的方式被获取。(类似于软件即服务?受控词表也就是一种网络服务),即Moving Vocabularies to the Network Level。要达到这一目的,一个词表要求做到以下五点:
1.通过计算机表示其数据结构(Expressive data structures)
2.在Web上编码词表(Vocabularies encoded for the Web)
3.有服务于检索、搜索等功能的应用机制(Access mechanisms for search and retrieval)
4.通过URI获得(术语的)内容(URI accessible content)
5.使用开放的协议与标准(Use of open protocols and standards)
在我理解中,整个PPT以上述五个方面讲OCLC术语服务的技术实现方法,但没有涉及到不同词表间的映射。
从OCLC术语服务的产品介绍中:术语服务提供对多个受控词汇表的检索,帮助您为图书馆、博物馆或档案馆藏创建前后一致的元数据。现在‚一旦您发现描述所需的术语‚只需简单地将其复制并粘贴到工作表或模板中‚(从而,这两字是我添加的)改进数字和纸质资料的描述(以及检索)。也没有提及不同词表的映射。没有试用过这一产品,我猜测一下:目前OCLC的术语服务,可能仅仅是通过网络服务在编目与检索中选择受控词表中的术语,从而达到数据的一致性。现在已有10个受控词表提供术语服务。
看来映射将是下一步的事情了,要完成映射,前述的5点要求是远远不够的。从司莉等的文章中,映射的工作已经在做了,只是没体现到产品中吧。做的方法是将词表都转成MARC规范的数据格式,然后计算机进行匹配,据我看来,这一匹配没有任何智能的功能在里面,就是词与词拼写的匹配,但已经是极好的了。如果要做得更好,不知要用到什么技术。
OCLC已经在中英文的“术语服务”中都打上了TM的标记。不知TM是否会变成R,如果会,那术语服务一词可就像元数据一样,使用时要冒着“侵权”的危险(参看“metadata的来源”)。
术语服务的含义应远不止于受控词表的术语服务,就DC元数据标准而言,受控词表仅是它编码体系修饰词的一种类型,就DC的术语服务而言,它至少还包括元数据应用纲要中元素与其他修饰词的术语服务。所以,千万千万别把“术语服务”变成注册商标啊。
从术语服务中,我们就可以体会到语义万维网,任重而道远呢。
背景知识:用圆圈R,是“注册商标”的标记,意思是该商标已在国家商标局进行注册申请并已经商标局审查通过,成为注册商标。圆圈里的R是英文register注册的开头字母。用TM则是商标符号的意思,即标注TM的文字、图形或符号是商标,但不一定已经注册。TM是英文trademark的缩写。
Permalink
06.04.08
Posted in metadata at 11:01 下午 由 花生壳
看了“metadata”的由来一文,我很好奇metadata一词是什么时候开始被用作除商标外的其他意义的,如什么时候被计算机界采用?什么时候图书馆界开始用这个词?照文章的意思,这个词1969年创造出来,1973年先以商标名义出现在宣传材料上,后来才被计算机界啊,图书馆界啊使用,否则何来“照会FGDC“一事(原来的链接http://www.fgdc.gov/metadata/meta_trademark.html目前无法打开)?
首先我质疑“
“It was the summer of 1969 when Jack E. Myers coined the term “metadata”, and a 1973 product brochure where he first used it in print. “这段话,难道之前没人用过metadata一词?既然商标是在1969年注册的,那我想先查一下1969年之前学术期刊中有没有出现metadata一词。在家我没有任何如EBSCO之类的数据库可用,就求助于Google的学术搜索。Google学术搜索的高级搜索刚好有一项限定是日期:显示在此期间刊登的文章。正中下怀,就以metadata为搜索词,限定在1900-1969,结果一出来,我就乐了,居然约有1,700项符合,那不是意味着1969年前就有人使用metadata一词了?
且慢……,我随机打开了几个检索结果,发现文章实际都是发表在1969年后的,不知Google是如何界定“在此期间刊登的文章”的。
第一个怀疑受挫,暂时也想不到别的方法来证实自己的怀疑。我想检索不仅仅是检索到结果吧?如果通过检索,能够明确界定一个东西、一件事情不存在,也是检索的功能之一,科技查新不正是这样么? 但问题是科技查新有约定俗成应查哪些内容,但查一个词出现没出现,至少我不知道怎么着手。
还是来满足自己的好奇心,即metadata从什么时候被计算机界和图书馆界所使用,比较重要些。我想这应该还比前面一个问题容易吧?
以后再接着玩吧:)。
Permalink
01.28.08
Posted in metadata at 7:07 下午 由 花生壳
DCMI Metadata Terms在2008年1月14日又做了更新,初看下来,术语的增减是其次的,重要在于,这一文档在整体上与抽象模型更加接近与契合了。
以前觉得DCMI Metadata Terms是DCMI最重要的文档,现在发现最重要的文档中,至少它不是唯一,DCMI抽象模型(我们有个初步的中文翻译稿在此)的重要性并不亚于它。
做这样的比较其实没什么意义,只是希望大家多多关心抽象模型,毕竟理解了抽象模型才能真正用好DC,否则DC不外乎是几个规范的术语而已。
Permalink
01.15.08
Posted in metadata at 4:47 下午 由 花生壳
最近一直在想,DC应用纲要选术语到底有没有更内核的规则。比如一个元数据应用纲要中,有“作者”这一元素,那么作者本身的元数据项(时代、性别、出生年月,籍贯等)是否应该纳入应用纲要中?我想是不应该的。但如果不放进去,又很难满足“领域应用”这类具体应用的需要。
还有一个是编码体系修饰词的选择,我统计了“我国数字图书馆规范”中11种元数据规范的编码体系修饰词:
古籍元数据规范中共5个
家谱元数据规范中共8个
拓片元数据规范中共2个
舆图元数据规范中共5个
地方志元数据规范中15个
期刊论文元数据规范中共15个
会议论文元数据规范中共15个
学位论文元数据规范中共14个
电子图书元数据规范中共19个
音频资料元数据规范中共15个
网络资源元数据规范中共24个
从2个到24个,12倍的差距,原因在哪里?在一个应用纲要中,编码体系修饰词又该如何选择呢? 是从心所欲呢还是有基本的原则?
Permalink
01.10.08
Posted in DL, metadata at 10:20 上午 由 花生壳
今天翻了《两岸三地图书馆管理与技术》一书,其中冼行健的一些理解在这里记一下。
发展Dublin Core的原意有点像CIP(Catalog In Print)。它旨在让网页的制作者或发行者可以自行在网页中加入该网页的目录资料。Dublin Core定出了网页目录的最核心项目,以及在网页中加入这些项目的语法。(点评:CIP的比喻很恰当)
冼质疑图书馆需要节约读者的金钱吗?他深信咨讯可以自由获得比资讯可以免费得到更加重要。当需要从节约读者的时间与节约读者的金钱中作出选择时,应选择节约读者的时间。(点评:对图书馆的理论不熟悉,但我觉得有道理。虽然金钱也是阻碍用户获得信息的因素之一,在有些地方甚至是主要因素之一,但一般来说金钱没有时间重要)
他认为如果图书馆不以节约读者金钱为办馆的目的,对图书馆事业会有帮助,因为既然图书馆不能节约读者的金钱,图书馆的服务水平就必须大幅提高以吸引读者。(点评:从国内看,没有图书馆会以节约读者金钱为办馆的目的,但会以“公益、免费”为目的。两个目的除字面上看,从“金钱”层面年,是一个目的两种提法。但从理念看,后者更显人性些。从浙图免费办证的反响看,公益、免费还是很有效果的。)
总之,甘蔗没有两头甜,看各自取舍。
Permalink
01.08.08
Posted in metadata at 6:23 下午 由 花生壳
前几天复习了DCMI的抽象模型,觉得对于元数据记录的编码是清晰了很多。
今天重温《我国数字图书馆标准与规范建设》项目( CDLS )中制订的11种专门元数据规范时开始思索一个问题:这些元数据规范都可以算是DC元数据标准的应用纲要了,那么应用纲要针对的是抽象模型中的哪一级?
我想应用纲要应该是落在description级别而不是description set级(description set级通俗点说,可以理解为record级,即元数据记录级)。虽然事实上多数元数据应用纲要都立足在了description set级。
还有一种答案是抽象模型与应用纲要根本没关系。我想这不可能。如果在设计应用纲要时不以抽象模型的理念做支撑,再依据这样的应用纲要来编写元数据记录,到最后的元数据记录编码时,已经无法与抽象模型相契合了。因此,设计应用纲要时,需要有抽象模型的理念、原则在里面起作用。
元数据应用纲要如何应用DCMI的抽象模型?这是我们不得不面对的一个问题。
提醒自己进一步阅读:
Application profiles: mixing and matching metadata schemas
Using the DC Abstract Model to Support Application Profile Developers
Application profile -definition: Schema consisting of data elements drawn from one or more namespaces optimised for a particular local application
其他阅读材料再找吧,也许想通了这个问题,前面元数据方案制订中的困惑也会迎刃而解的。
Permalink
11.15.07
Posted in metadata at 1:22 下午 由 花生壳
说来惭愧,仍然在困惑于三四年前就困惑的问题。
最近在制定手稿元数据规范,一是困惑于元数据方案的适用对象究竟是将原稿数字化的手稿还是手稿原件?为了兼顾两者,现在的方案是取并集,比如描述数字化后手稿的“格式(format)”元素,描述手稿原件的“载体形态”并存;这样恰当么?
二是困惑于“元数据方案”二字,原来的项目有“描述”二字,以前困惑究竟什么样的术语算“描述”;现在把“描述”二字拿掉了,照样困惑,甚至困惑的内容也是一样的:究竟将哪些方面的描述纳入到这个规范中来。
三是困惑于究竟是元素还是元素修饰词。就像XML文档中,术语究竟界定为元素还是属性,没有统一的规则。只能是一刀切的原则:元素尽可能少,能作为元素修饰词的就作为修饰词。
归根结底,是元数据规范的目的不明,即不知道元数据规范要发挥什么样的作用。既然目的不明,唯一的操作方法就是尽量简单。
Permalink
10.30.07
Posted in DL, metadata at 3:33 下午 由 花生壳
http://www.dstc.edu.au/网址已经打不开,原来翻译的一点资料还在,放在BLOG上备忘吧。但已经分不清哪些是原译哪些是自己的观点了,当时怎么没想到利用BLOG呢?
Background
Co-operative Research Centre for Distributed Systems Technology (DSTC)运行了14年,从1992至2006。在这期间,Internet和万维网从学术研究领域发展到主流领域,成为生活的一部分。
DSTC成立了Resource Discovery Unit小组,对各类用户如何选择技术和工具来管理不断增长的在线资源,使得它们能可定位、可获取。元数据在资源发现中起的作用很早就被DSTC的研究人员所认识。这方面努力的第一个成果是AS5044,澳大利亚国家标准,即人们熟悉的AGLS。在这个过程中,创建和管理AGLS标准或其他标准的元数据工具也不断地被开发。
本文概述DSTC调研中的工具和方法,点出不同方法之间的优缺点。
Metadata Schemas
只要对元数据稍有概念的人都会知道现在元数据方案非常的多,而且增多的趋势仍在持续。对不同元数据方案发展历史的了解将有助于我们理解为什么会出现如此多的元数据方案。不管是什么元数据方案,如何创建和维护元数据记录是共同面临的问题。大家也许会觉得开发合适的工具就可以了,但事实并非这么简单。
在讨论之前,把一些术语明确定义下来是有好处的。元数据是属性名和值的配对,这些属性名取自某个特定的集合。元数据方案还可以包括“组”(这倒与我们蛮像的).
The trend in metadata schemas is for an increasing use of repeating element groups of arbitrary depth over the simple flat schema.
元数据方案在应用上,应该是在一个平面、简单的元数据标准基础上,允许任意次数的“组”的重复。这对元数据来说是一个新的要求,但如果很少有工具能支持这一需求的话,元数据方案很可能就会被废弃不用。
有一个工具支持所有不断出现的具体应用的元数据方案,这是不可能的,但可以有一个通用的工具支持最基本的功能:This is the so-called CRUD model: Create, Read, Update, and Delete. Our generic editor would need to underpin these operations with a data model able to abstract all the foreseeable quirks of all possible schemas.
元数据方案也不是一劳永逸的,它的版本控制怎么办?工具如何应对不同的元数据版本,这是一个问题。
元数据记录正确性的校检
Scheme的版本控制(所谓版本控制,并不仅仅是新版取代旧版,更多时候旧版也是需要存在的,因为数据在那里。)
没有所谓最好的Metadata系统,只有最合适(suitable)或满足需求(satisfactory)的Metadata系统。
Permalink
08.29.07
Posted in metadata at 2:35 下午 由 花生壳
昨天K师通过skype,让我参与了一把DC2007。听是听不大懂滴,只是图个气氛。
通过K师的文字直播,比较有印象的是keynote:UN粮农组织介绍元数据应用 。据Keven讲,keynote比较宏观,有好多框图。他们很早就应用本体了,2003年写硕士论文时,文献调研发现本体应用还很少,但当时UN粮农组织就已经开始了,至今不知道他们是怎么做的。时隔四年,本体应用非常多了,但自己工作以后再没接触过。
另外,有一个元数据编辑工具的项目:http://knowgate.nada.kth.se:8180/Speed/main,据说真正支持各种encoding scheme。是我们一直想做的事情。
再有就是欧洲数字图书馆项目 ,该项目是eContentplus programme (旨在使欧洲的数字内容更容易被获取与利用。从06年至08年)的一部分。目标很简单,就是要将九国(Belgium, Greece, Iceland, Ireland, Liechtenstein, Luxembourg, Norway, Spain和Sweden)的国家图书馆的目录和数字资源融合进欧洲图书馆(似乎是一个欧洲各大图书馆的联合门户),因此对欧洲元数据注册(European Metadata Registry)做了很多工作,有需要再研究。
Permalink