When a sound level reaches a value not smaller than a predetermined threshold during the predetermined time and when the level reaches the value not smaller than the predetermined threshold during the predetermined time, a microcomputer 62 provides a speaker-undefined EM (start) or a speakerundefined (end) indicating the feature of the sound at a position of a video image with a sound corresponding to the sound. マイコン62は、音声のレベルが所定の時間以上の間所定の閾値以上になった場合と、その後に所定の時間以上の間所定の閾値未満になった場合に、その音声に対応する音声付き映像の位置に、音声の特徴を示す発言者未定EM(start)または発言者未定(end)を付与する。 - 特許庁